In den Maschinenraum schauen
RAM-Verbrauch beim Laden, Tokens pro Sekunde, der Preis grosser Kontexte — du misst dein System selbst und verstehst danach jede Leistungsdiskussion.
Vom Glauben zum Messen
In Kernmodul 2 hast du gelernt, was Tempo und Speicherbedarf bestimmt. Heute prüfst du es nach — an deinem eigenen Gerät. Danach kannst du jede Aussage wie «Modell X läuft super auf 16 GB» selbst einordnen: Du hast Zahlen statt Meinungen.
Lege eine Notiz in KI-Experimente\Notizen an — dein Maschinenraum-Protokoll mit drei
Messungen.
Messung 1: Was kostet das Laden?
- Task-Manager öffnen (Ctrl + Shift + Esc) → Leistung → Arbeitsspeicher. Notiere den Wert «In Verwendung» vor dem Start.
- LM Studio starten, dein Standardmodell laden. Beobachte den Anstieg, notiere den Wert nach dem Laden.
- Die Differenz ist der reale Preis deines Modells — vergleiche sie mit der Näherung aus dem Speicher-Rechner (Parameter × Bytes). Liegst du in der Grössenordnung? Dann hast du die Formel praktisch bestätigt.
Messung 2: Tokens pro Sekunde
LM Studio zeigt nach jeder Antwort Leistungsdaten an, darunter die Generierungsrate in Tokens pro Sekunde (wo genau, variiert mit der Version — suche die Statistik bei/unter der Antwort).
- Frischer Chat, eine mittellange Aufgabe:
Erkläre in etwa 200 Wörtern, wie ein Kühlschrank funktioniert.
- Notiere die Tokens pro Sekunde von drei Durchläufen (sie streuen leicht).
- Ordne dein Ergebnis in der Tabelle aus «CPU, GPU, NPU» ein: Bist du im «gemächlich»-, «flüssig»- oder «Komfort»-Bereich?
Erwartetes Ergebnis auf einem 16-GB-Notebook ohne GPU mit einem 3–4B-Modell in Q4: einzelne bis niedrige zweistellige Tokens pro Sekunde (grobe Erwartung, stark geräteabhängig — dein Messwert ist der einzige, der zählt).
Messung 3: Der Kontext-Effekt
Jetzt der spannendste Teil — du erlebst, warum grosse Kontextfenster ihren Preis haben:
- Frischer Chat. Stelle eine kurze Frage, notiere Tokens/s und die Zeit bis zum ersten Wort.
- Füge nun einen langen Text ein (z. B. mehrere Seiten aus einem freien Klassiker oder einer langen Wikipedia-Seite) mit der Bitte «Fasse diesen Text in fünf Sätzen zusammen.»
- Beobachte zwei Dinge: Die Wartezeit vor dem ersten Wort steigt deutlich (das Einlesen — die erste Phase aus KM2), und oft sinken auch die Tokens/s der Antwort. Im Task-Manager siehst du parallel den Speicherverbrauch klettern: der KV-Zwischenspeicher bei der Arbeit.
- Notiere beide Werte im Protokoll.
Vertiefung: Warum streuen die Tokens pro Sekunde?
Dein Notebook macht nie nur eines: Hintergrunddienste, Browser-Tabs und Energiesparprofile funken dazwischen; bei Dauerlast drosselt zudem die Kühlung den Prozessor (thermisches Throttling — bei Notebooks völlig normal). Deshalb misst du dreimal und nimmst den mittleren Wert. Profis machen es genauso.
Fehlerbehebung
- Ich finde die Tokens/s-Anzeige nicht: Antworte-Statistiken heissen je nach Version anders. Notfalls von Hand: Wörter der Antwort zählen, durch Sekunden teilen, mal ~1,5 (grobe Token-Umrechnung für Deutsch) — ungenau, aber brauchbar.
- Beim langen Text bricht die Antwort ab oder der Anfang «fehlt»: Dein Text sprengt das eingestellte Kontextfenster — genau der Effekt aus dem Kontext-Rechner. Kürzerer Text oder grösseres Kontextfenster (kostet Speicher!).
- Alles wird nach Minuten langsamer: Throttling. Kurz pausieren, Netzteil anschliessen, Lüftungsschlitze frei? Normal bei Notebooks unter Dauerlast.
Kurz geprüft
3 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich messe RAM-Bedarf und Tokens pro Sekunde meines Systems selbst.
- Ich habe den Kontext-Effekt (Einlese-Wartezeit, Speicheranstieg) live beobachtet.
- Ich habe die Näherungsformel aus dem Kurs an meinem Gerät überprüft — Messen schlägt Glauben.