RAM, VRAM, Unified Memory: Wo dein Modell wohnt
Speicher ist bei lokaler KI wichtiger als Rechenleistung. Hier lernst du die drei Speicherarten kennen — und rechnest selbst aus, was auf dein Gerät passt.
Die unbequeme Wahrheit zuerst
Bei lokaler KI entscheidet selten die Rechenleistung darüber, ob etwas läuft — sondern der Speicher. Ein Modell muss beim Arbeiten vollständig geladen sein. Zu wenig Speicher heisst: Es startet gar nicht, oder es wird auf die Festplatte ausgelagert und antwortet quälend langsam. Die Rechenleistung bestimmt dann erst, wie schnell es läuft.
Drei Wohnorte für ein Modell
- RAM — der Arbeitsspeicher am Prozessor. Jeder Rechner hat ihn; hier landet dein Modell, wenn keine (ausreichende) Grafikkarte da ist. Dein 16-GB-Notebook aus Mission 1 arbeitet so.
- VRAM — der Speicher auf der Grafikkarte, extrem schnell angebunden. Passt das Modell vollständig hinein, sind die Antworten oft um ein Mehrfaches schneller. Typische Grössen bei Consumer-Karten: 8, 12, 16 oder 24 GB.
- Unified Memory — der gemeinsame Topf bei Apple Silicon (und ähnlichen Architekturen): Prozessor und Grafikeinheit teilen sich denselben schnellen Speicher. Ein Mac mit 32 GB kann davon einen grossen Teil dem Modell geben — das macht Macs für lokale KI attraktiv.
Selbst rechnen statt raten
Aus Kernmodul 1 kennst du die Näherung Parameterzahl × Bytes pro Parameter. Probiere sie hier mit deinem Gerät aus:
Näherungsrechner: Passt das Modell in meinen Speicher?
4B
16 GB
– für die Modellgewichte (Näherung: Parameter × Bytes)
Grobe Näherung: nur die Gewichte, plus Daumenwert für Kontext und Programm. Windows selbst braucht auf einem Notebook zusätzlich mehrere GB — der Rechner zieht dafür pauschal 6 GB ab, wenn du mit RAM (statt VRAM) rechnest: Schalte dazu unten um.
Zwei Posten, die Einsteiger gern vergessen:
- Der Kontext isst mit. Je länger dein Gespräch oder Dokument, desto mehr Zwischenspeicher (KV-Cache) braucht das Modell — der Bedarf wächst linear mit den tatsächlich genutzten Tokens. Konkrete Zahlen hängen vom Modell ab; als Haltung reicht: langer Kontext = spürbar mehr Speicher.
- Das System läuft weiter. Windows, Browser, Chat-Programm — auf einem 16-GB-Notebook sind 6–8 GB schnell anderweitig belegt (das hast du in der KM4-Praxislektion selbst gemessen).
Vertiefung: Warum ist VRAM so viel schneller?
Entscheidend ist die Speicherbandbreite — wie viele Gigabyte pro Sekunde zwischen Speicher und Rechenwerk fliessen. Beim Antworten muss das Modell für praktisch jedes erzeugte Token einmal durch alle Gewichte «hindurchlesen»; die Bandbreite wird damit zur Taktgeberin der Geschwindigkeit. Grafikspeicher und Unified Memory sind genau dafür gebaut und erreichen ein Vielfaches der Bandbreite klassischer RAM-Riegel — deshalb fühlt sich dasselbe Modell auf drei Architekturen so unterschiedlich schnell an.
Kurz geprüft
3 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich kenne die drei Wohnorte eines Modells und ihre Tempo-Rangfolge (VRAM/Unified vor RAM).
- Ich weiss, warum sich RAM und VRAM nicht addieren lassen und was Offloading kostet.
- Ich schätze den Speicherbedarf eines Modells selbst ab — inklusive Reserve für Kontext und System.
Nächster Schritt: «CPU, GPU, NPU: Wer rechnet eigentlich?» klärt die Rechenwerke — und warum Tokens pro Sekunde die ehrlichste Messgrösse sind.