Modul 4: Praxislektion

Vom Laufen zum Beherrschen: Kontext, Systemprompt, lokale API

Drei Einstellungen verwandeln dein Chat-Spielzeug in ein Werkzeug: die Kontextgrösse, der Systemprompt — und die lokale Schnittstelle, die später deine Agenten versorgt.

Dauer: ca. 35 Minuten
Lernziel: Du stellst Kontextgrösse und Systemprompt bewusst ein und aktivierst die lokale API als Grundlage für spätere Automatisierung.
Voraussetzungen: Mission 1 · Lektion «Dein Notebook KI-bereit machen»

Schritt 1: Die Kontextgrösse bewusst setzen

Beim Laden eines Modells übernimmt LM Studio eine Standard-Kontextgrösse — oft deutlich kleiner als das Modellmaximum, um Speicher zu sparen. Du findest die Einstellung bei den Ladeoptionen des Modells (Bezeichnung je nach Version, suche nach «Context Length»).

Probiere den Effekt aus Kernmodul 2 bewusst aus:

Modell mit kleiner Kontextgrösse laden (z. B. 4’096) → Task-Manager: Speicherstand notieren.
Dasselbe Modell mit grossem Kontext laden (z. B. 16’384 oder mehr) → Speicherstand vergleichen.

Erwartetes Ergebnis: Grösserer Kontext reserviert spürbar mehr Speicher — du siehst den KV-Zwischenspeicher jetzt als konkrete Zahl. Wähle für den Alltag so viel wie nötig, so wenig wie möglich; der Kontext-Rechner übersetzt dir Tokens in Seiten.

Schritt 2: Der Systemprompt — dein mächtigster Hebel

Der Systemprompt macht aus demselben Modell verschiedene Assistenten. Lege in LM Studio für dein Standardmodell einen an (Feld «System Prompt» in den Chat-/Modelleinstellungen) und teste diese Vorlage:

Du bist ein präziser Assistent. Antworte auf Deutsch (Schweizer Rechtschreibung, «ss» statt «ß»). Halte dich kurz: maximal fünf Sätze, ausser ich verlange ausdrücklich mehr. Wenn du etwas nicht sicher weisst, sage «Da bin ich nicht sicher» statt zu raten.

Stelle danach dieselben drei Testfragen aus Mission 1 erneut — und vergleiche Ton, Länge und Ehrlichkeit. Besonders die letzte Anweisung ist Gold wert: Sie gibt dem Modell die Erlaubnis zur Unsicherheit und reduziert Halluzinationen spürbar (ganz verhindern kann sie sie nicht).

Schritt 3: Die lokale API einschalten

Jetzt der Schritt mit Zukunft: LM Studio kann als lokaler Server laufen, den andere Programme auf deinem Rechner ansprechen — über eine API (englisch Application Programming Interface, eine Programmierschnittstelle; hier im verbreiteten OpenAI-kompatiblen Format). Genau so werden ab Kernmodul 7 deine Agenten mit der lokalen KI sprechen.

Aktiviere in LM Studio den Server (Bereich «Developer» bzw. «Local Server»; Standardport ist üblicherweise 1234).
Prüfe ihn — PowerShell:

Invoke-RestMethod http://localhost:1234/v1/models

Der Befehl fragt den lokalen Server, welche Modelle verfügbar sind — er geht nicht ins Internet: localhost ist immer dein eigener Rechner.

Erwartetes Ergebnis: Eine kleine Datenantwort (JSON) mit deinem geladenen Modell. Glückwunsch — deine lokale KI ist jetzt programmierbar.

Vertiefung: Warum «OpenAI-kompatibel»?

Das Anfrageformat von OpenAI hat sich als Quasi-Standard etabliert. Lokale Programme ahmen es nach, damit tausende bestehende Werkzeuge ohne Anpassung mit deinem lokalen Modell funktionieren — du tauschst einfach die Adresse gegen localhost. Kompatibles Format heisst aber nicht Cloud-Verbindung: Die Daten bleiben auf deinem Gerät, wie dich jeder Blick auf die Adresse überzeugt.

Fehlerbehebung

Invoke-RestMethod meldet Verbindungsfehler: Läuft der Server? Stimmt der Port (LM Studio zeigt ihn an)? Modell geladen?
Antworten im Chat plötzlich abgeschnitten: Kontextgrösse zu klein gewählt — Verlauf plus Antwort sprengen das Fenster.
Speicher voll nach Kontext-Erhöhung: Der erwartete Effekt. Kontext kleiner stellen oder kleineres Modell.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Warum reserviert eine grössere Kontexteinstellung schon beim Laden mehr Speicher?

Was bewirkt «Wenn du etwas nicht sicher weisst, sage das» im Systemprompt?

Wohin gehen Anfragen an http://localhost:1234?

Das kann ich jetzt

Ich stelle die Kontextgrösse bewusst ein und kenne ihren Speicherpreis.
Ich schreibe Systemprompts, die Ton, Länge und Ehrlichkeit steuern.
Meine lokale KI läuft als API-Server auf localhost — die Grundlage für alle Agenten-Module.

Nächster Schritt: «Pflegen, aktualisieren, reparieren» — der Langzeitbetrieb.