Vom Laufen zum Beherrschen: Kontext, Systemprompt, lokale API
Drei Einstellungen verwandeln dein Chat-Spielzeug in ein Werkzeug: die Kontextgrösse, der Systemprompt — und die lokale Schnittstelle, die später deine Agenten versorgt.
Schritt 1: Die Kontextgrösse bewusst setzen
Beim Laden eines Modells übernimmt LM Studio eine Standard-Kontextgrösse — oft deutlich kleiner als das Modellmaximum, um Speicher zu sparen. Du findest die Einstellung bei den Ladeoptionen des Modells (Bezeichnung je nach Version, suche nach «Context Length»).
Probiere den Effekt aus Kernmodul 2 bewusst aus:
- Modell mit kleiner Kontextgrösse laden (z. B. 4’096) → Task-Manager: Speicherstand notieren.
- Dasselbe Modell mit grossem Kontext laden (z. B. 16’384 oder mehr) → Speicherstand vergleichen.
Erwartetes Ergebnis: Grösserer Kontext reserviert spürbar mehr Speicher — du siehst den KV-Zwischenspeicher jetzt als konkrete Zahl. Wähle für den Alltag so viel wie nötig, so wenig wie möglich; der Kontext-Rechner übersetzt dir Tokens in Seiten.
Schritt 2: Der Systemprompt — dein mächtigster Hebel
Der Systemprompt macht aus demselben Modell verschiedene Assistenten. Lege in LM Studio für dein Standardmodell einen an (Feld «System Prompt» in den Chat-/Modelleinstellungen) und teste diese Vorlage:
Du bist ein präziser Assistent. Antworte auf Deutsch (Schweizer Rechtschreibung, «ss» statt «ß»). Halte dich kurz: maximal fünf Sätze, ausser ich verlange ausdrücklich mehr. Wenn du etwas nicht sicher weisst, sage «Da bin ich nicht sicher» statt zu raten.
Stelle danach dieselben drei Testfragen aus Mission 1 erneut — und vergleiche Ton, Länge und Ehrlichkeit. Besonders die letzte Anweisung ist Gold wert: Sie gibt dem Modell die Erlaubnis zur Unsicherheit und reduziert Halluzinationen spürbar (ganz verhindern kann sie sie nicht).
Schritt 3: Die lokale API einschalten
Jetzt der Schritt mit Zukunft: LM Studio kann als lokaler Server laufen, den andere Programme auf deinem Rechner ansprechen — über eine API (englisch Application Programming Interface, eine Programmierschnittstelle; hier im verbreiteten OpenAI-kompatiblen Format). Genau so werden ab Kernmodul 7 deine Agenten mit der lokalen KI sprechen.
- Aktiviere in LM Studio den Server (Bereich «Developer» bzw. «Local Server»; Standardport ist üblicherweise 1234).
- Prüfe ihn — PowerShell:
Invoke-RestMethod http://localhost:1234/v1/models
Der Befehl fragt den lokalen Server, welche Modelle verfügbar sind — er geht nicht ins
Internet: localhost ist immer dein eigener Rechner.
Erwartetes Ergebnis: Eine kleine Datenantwort (JSON) mit deinem geladenen Modell. Glückwunsch — deine lokale KI ist jetzt programmierbar.
Vertiefung: Warum «OpenAI-kompatibel»?
Das Anfrageformat von OpenAI hat sich als Quasi-Standard etabliert. Lokale Programme ahmen
es nach, damit tausende bestehende Werkzeuge ohne Anpassung mit deinem lokalen Modell
funktionieren — du tauschst einfach die Adresse gegen localhost. Kompatibles
Format heisst aber nicht Cloud-Verbindung: Die Daten bleiben auf deinem Gerät, wie dich
jeder Blick auf die Adresse überzeugt.
Fehlerbehebung
Invoke-RestMethodmeldet Verbindungsfehler: Läuft der Server? Stimmt der Port (LM Studio zeigt ihn an)? Modell geladen?- Antworten im Chat plötzlich abgeschnitten: Kontextgrösse zu klein gewählt — Verlauf plus Antwort sprengen das Fenster.
- Speicher voll nach Kontext-Erhöhung: Der erwartete Effekt. Kontext kleiner stellen oder kleineres Modell.
Kurz geprüft
3 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich stelle die Kontextgrösse bewusst ein und kenne ihren Speicherpreis.
- Ich schreibe Systemprompts, die Ton, Länge und Ehrlichkeit steuern.
- Meine lokale KI läuft als API-Server auf localhost — die Grundlage für alle Agenten-Module.
Nächster Schritt: «Pflegen, aktualisieren, reparieren» — der Langzeitbetrieb.