Modul 2: Erklärlektion

RAM, VRAM, Unified Memory: Wo dein Modell wohnt

Speicher ist bei lokaler KI wichtiger als Rechenleistung. Hier lernst du die drei Speicherarten kennen — und rechnest selbst aus, was auf dein Gerät passt.

Dauer: ca. 30 Minuten
Lernziel: Du kannst RAM, VRAM und Unified Memory unterscheiden, weisst warum sie sich nicht addieren lassen und schätzt den Speicherbedarf eines Modells selbst ab.
Voraussetzungen: Kernmodul 1 (mindestens Lektion 1 und 3)

Die unbequeme Wahrheit zuerst

Bei lokaler KI entscheidet selten die Rechenleistung darüber, ob etwas läuft — sondern der Speicher. Ein Modell muss beim Arbeiten vollständig geladen sein. Zu wenig Speicher heisst: Es startet gar nicht, oder es wird auf die Festplatte ausgelagert und antwortet quälend langsam. Die Rechenleistung bestimmt dann erst, wie schnell es läuft.

Drei Wohnorte für ein Modell

RAM — der Arbeitsspeicher am Prozessor. Jeder Rechner hat ihn; hier landet dein Modell, wenn keine (ausreichende) Grafikkarte da ist. Dein 16-GB-Notebook aus Mission 1 arbeitet so.
VRAM — der Speicher auf der Grafikkarte, extrem schnell angebunden. Passt das Modell vollständig hinein, sind die Antworten oft um ein Mehrfaches schneller. Typische Grössen bei Consumer-Karten: 8, 12, 16 oder 24 GB.
Unified Memory — der gemeinsame Topf bei Apple Silicon (und ähnlichen Architekturen): Prozessor und Grafikeinheit teilen sich denselben schnellen Speicher. Ein Mac mit 32 GB kann davon einen grossen Teil dem Modell geben — das macht Macs für lokale KI attraktiv.

Wo das Modell wohnt, entscheidet über das Tempo — und getrennte Töpfe lassen sich nicht zusammenzählen.

Selbst rechnen statt raten

Aus Kernmodul 1 kennst du die Näherung Parameterzahl × Bytes pro Parameter. Probiere sie hier mit deinem Gerät aus:

Näherungsrechner: Passt das Modell in meinen Speicher?

Modellgrösse (Milliarden Parameter)

Quantisierung

Dein Speicher (RAM oder VRAM, GB)

16 GB

– für die Modellgewichte (Näherung: Parameter × Bytes)

Grobe Näherung: nur die Gewichte, plus Daumenwert für Kontext und Programm. Windows selbst braucht auf einem Notebook zusätzlich mehrere GB — der Rechner zieht dafür pauschal 6 GB ab, wenn du mit RAM (statt VRAM) rechnest: Schalte dazu unten um.

Ich rechne mit normalem RAM (Windows & Programme laufen mit)

Zwei Posten, die Einsteiger gern vergessen:

Der Kontext isst mit. Je länger dein Gespräch oder Dokument, desto mehr Zwischenspeicher (KV-Cache) braucht das Modell — der Bedarf wächst linear mit den tatsächlich genutzten Tokens. Konkrete Zahlen hängen vom Modell ab; als Haltung reicht: langer Kontext = spürbar mehr Speicher.
Das System läuft weiter. Windows, Browser, Chat-Programm — auf einem 16-GB-Notebook sind 6–8 GB schnell anderweitig belegt (das hast du in der KM4-Praxislektion selbst gemessen).

Vertiefung: Warum ist VRAM so viel schneller?

Entscheidend ist die Speicherbandbreite — wie viele Gigabyte pro Sekunde zwischen Speicher und Rechenwerk fliessen. Beim Antworten muss das Modell für praktisch jedes erzeugte Token einmal durch alle Gewichte «hindurchlesen»; die Bandbreite wird damit zur Taktgeberin der Geschwindigkeit. Grafikspeicher und Unified Memory sind genau dafür gebaut und erreichen ein Vielfaches der Bandbreite klassischer RAM-Riegel — deshalb fühlt sich dasselbe Modell auf drei Architekturen so unterschiedlich schnell an.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Ein 8B-Modell in Q4 (~4,7 GB) auf einem PC mit 32 GB RAM und einer 12-GB-Grafikkarte — wo sollte es idealerweise laufen?

Warum «verschwindet» auf deinem 16-GB-Notebook Speicher, den der Rechner fürs Modell bräuchte?

Was macht Unified Memory für lokale KI attraktiv?

Das kann ich jetzt

Ich kenne die drei Wohnorte eines Modells und ihre Tempo-Rangfolge (VRAM/Unified vor RAM).
Ich weiss, warum sich RAM und VRAM nicht addieren lassen und was Offloading kostet.
Ich schätze den Speicherbedarf eines Modells selbst ab — inklusive Reserve für Kontext und System.

Nächster Schritt: «CPU, GPU, NPU: Wer rechnet eigentlich?» klärt die Rechenwerke — und warum Tokens pro Sekunde die ehrlichste Messgrösse sind.