Zum Inhalt springen
Lokale KI lernen
Mission 3

In den Maschinenraum schauen

RAM-Verbrauch beim Laden, Tokens pro Sekunde, der Preis grosser Kontexte — du misst dein System selbst und verstehst danach jede Leistungsdiskussion.

Dauer
ca. 40 Minuten
Lernziel
Du hast RAM-Bedarf und Tokens pro Sekunde deines Systems selbst gemessen und den Kontext-Effekt live erlebt.
Voraussetzungen
Mission 1 (und idealerweise Kernmodul 2)

Vom Glauben zum Messen

In Kernmodul 2 hast du gelernt, was Tempo und Speicherbedarf bestimmt. Heute prüfst du es nach — an deinem eigenen Gerät. Danach kannst du jede Aussage wie «Modell X läuft super auf 16 GB» selbst einordnen: Du hast Zahlen statt Meinungen.

Lege eine Notiz in KI-Experimente\Notizen an — dein Maschinenraum-Protokoll mit drei Messungen.

Messung 1: Was kostet das Laden?

  1. Task-Manager öffnen (Ctrl + Shift + Esc) → LeistungArbeitsspeicher. Notiere den Wert «In Verwendung» vor dem Start.
  2. LM Studio starten, dein Standardmodell laden. Beobachte den Anstieg, notiere den Wert nach dem Laden.
  3. Die Differenz ist der reale Preis deines Modells — vergleiche sie mit der Näherung aus dem Speicher-Rechner (Parameter × Bytes). Liegst du in der Grössenordnung? Dann hast du die Formel praktisch bestätigt.

Messung 2: Tokens pro Sekunde

LM Studio zeigt nach jeder Antwort Leistungsdaten an, darunter die Generierungsrate in Tokens pro Sekunde (wo genau, variiert mit der Version — suche die Statistik bei/unter der Antwort).

  1. Frischer Chat, eine mittellange Aufgabe:
Erkläre in etwa 200 Wörtern, wie ein Kühlschrank funktioniert.
  1. Notiere die Tokens pro Sekunde von drei Durchläufen (sie streuen leicht).
  2. Ordne dein Ergebnis in der Tabelle aus «CPU, GPU, NPU» ein: Bist du im «gemächlich»-, «flüssig»- oder «Komfort»-Bereich?

Erwartetes Ergebnis auf einem 16-GB-Notebook ohne GPU mit einem 3–4B-Modell in Q4: einzelne bis niedrige zweistellige Tokens pro Sekunde (grobe Erwartung, stark geräteabhängig — dein Messwert ist der einzige, der zählt).

Messung 3: Der Kontext-Effekt

Jetzt der spannendste Teil — du erlebst, warum grosse Kontextfenster ihren Preis haben:

  1. Frischer Chat. Stelle eine kurze Frage, notiere Tokens/s und die Zeit bis zum ersten Wort.
  2. Füge nun einen langen Text ein (z. B. mehrere Seiten aus einem freien Klassiker oder einer langen Wikipedia-Seite) mit der Bitte «Fasse diesen Text in fünf Sätzen zusammen.»
  3. Beobachte zwei Dinge: Die Wartezeit vor dem ersten Wort steigt deutlich (das Einlesen — die erste Phase aus KM2), und oft sinken auch die Tokens/s der Antwort. Im Task-Manager siehst du parallel den Speicherverbrauch klettern: der KV-Zwischenspeicher bei der Arbeit.
  4. Notiere beide Werte im Protokoll.
Vertiefung: Warum streuen die Tokens pro Sekunde?

Dein Notebook macht nie nur eines: Hintergrunddienste, Browser-Tabs und Energiesparprofile funken dazwischen; bei Dauerlast drosselt zudem die Kühlung den Prozessor (thermisches Throttling — bei Notebooks völlig normal). Deshalb misst du dreimal und nimmst den mittleren Wert. Profis machen es genauso.

Fehlerbehebung

  • Ich finde die Tokens/s-Anzeige nicht: Antworte-Statistiken heissen je nach Version anders. Notfalls von Hand: Wörter der Antwort zählen, durch Sekunden teilen, mal ~1,5 (grobe Token-Umrechnung für Deutsch) — ungenau, aber brauchbar.
  • Beim langen Text bricht die Antwort ab oder der Anfang «fehlt»: Dein Text sprengt das eingestellte Kontextfenster — genau der Effekt aus dem Kontext-Rechner. Kürzerer Text oder grösseres Kontextfenster (kostet Speicher!).
  • Alles wird nach Minuten langsamer: Throttling. Kurz pausieren, Netzteil anschliessen, Lüftungsschlitze frei? Normal bei Notebooks unter Dauerlast.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Die Wartezeit vor dem ersten Wort steigt bei langen Eingaben stark. Welche Phase erlebst du da?
Warum misst du Tokens/s dreimal statt einmal?
Dein gemessener RAM-Anstieg beim Laden liegt nahe an «Parameter × Bytes». Was bedeutet das?

Das kann ich jetzt

  • Ich messe RAM-Bedarf und Tokens pro Sekunde meines Systems selbst.
  • Ich habe den Kontext-Effekt (Einlese-Wartezeit, Speicheranstieg) live beobachtet.
  • Ich habe die Näherungsformel aus dem Kurs an meinem Gerät überprüft — Messen schlägt Glauben.