Zum Inhalt springen
Lokale KI lernen
Modul 2: Erklärlektion

RAM, VRAM, Unified Memory: Wo dein Modell wohnt

Speicher ist bei lokaler KI wichtiger als Rechenleistung. Hier lernst du die drei Speicherarten kennen — und rechnest selbst aus, was auf dein Gerät passt.

Dauer
ca. 30 Minuten
Lernziel
Du kannst RAM, VRAM und Unified Memory unterscheiden, weisst warum sie sich nicht addieren lassen und schätzt den Speicherbedarf eines Modells selbst ab.
Voraussetzungen
Kernmodul 1 (mindestens Lektion 1 und 3)

Die unbequeme Wahrheit zuerst

Bei lokaler KI entscheidet selten die Rechenleistung darüber, ob etwas läuft — sondern der Speicher. Ein Modell muss beim Arbeiten vollständig geladen sein. Zu wenig Speicher heisst: Es startet gar nicht, oder es wird auf die Festplatte ausgelagert und antwortet quälend langsam. Die Rechenleistung bestimmt dann erst, wie schnell es läuft.

Drei Wohnorte für ein Modell

  • RAM — der Arbeitsspeicher am Prozessor. Jeder Rechner hat ihn; hier landet dein Modell, wenn keine (ausreichende) Grafikkarte da ist. Dein 16-GB-Notebook aus Mission 1 arbeitet so.
  • VRAM — der Speicher auf der Grafikkarte, extrem schnell angebunden. Passt das Modell vollständig hinein, sind die Antworten oft um ein Mehrfaches schneller. Typische Grössen bei Consumer-Karten: 8, 12, 16 oder 24 GB.
  • Unified Memory — der gemeinsame Topf bei Apple Silicon (und ähnlichen Architekturen): Prozessor und Grafikeinheit teilen sich denselben schnellen Speicher. Ein Mac mit 32 GB kann davon einen grossen Teil dem Modell geben — das macht Macs für lokale KI attraktiv.
Notebook ohne eigene GPUCPURAM 16 GBModell wohnt hierPC mit GrafikkarteCPURAM32 GBGPUVRAM12 GB ★Mac (Apple Silicon)CPUGPUUnified Memory 32 GBein gemeinsamer Topf★ = schnellster Wohnort · gestrichelte Linie = getrennte Töpfe, kein Zusammenlegen möglich
Wo das Modell wohnt, entscheidet über das Tempo — und getrennte Töpfe lassen sich nicht zusammenzählen.

Selbst rechnen statt raten

Aus Kernmodul 1 kennst du die Näherung Parameterzahl × Bytes pro Parameter. Probiere sie hier mit deinem Gerät aus:

Näherungsrechner: Passt das Modell in meinen Speicher?

4B

16 GB

für die Modellgewichte (Näherung: Parameter × Bytes)

Grobe Näherung: nur die Gewichte, plus Daumenwert für Kontext und Programm. Windows selbst braucht auf einem Notebook zusätzlich mehrere GB — der Rechner zieht dafür pauschal 6 GB ab, wenn du mit RAM (statt VRAM) rechnest: Schalte dazu unten um.

Zwei Posten, die Einsteiger gern vergessen:

  1. Der Kontext isst mit. Je länger dein Gespräch oder Dokument, desto mehr Zwischenspeicher (KV-Cache) braucht das Modell — der Bedarf wächst linear mit den tatsächlich genutzten Tokens. Konkrete Zahlen hängen vom Modell ab; als Haltung reicht: langer Kontext = spürbar mehr Speicher.
  2. Das System läuft weiter. Windows, Browser, Chat-Programm — auf einem 16-GB-Notebook sind 6–8 GB schnell anderweitig belegt (das hast du in der KM4-Praxislektion selbst gemessen).
Vertiefung: Warum ist VRAM so viel schneller?

Entscheidend ist die Speicherbandbreite — wie viele Gigabyte pro Sekunde zwischen Speicher und Rechenwerk fliessen. Beim Antworten muss das Modell für praktisch jedes erzeugte Token einmal durch alle Gewichte «hindurchlesen»; die Bandbreite wird damit zur Taktgeberin der Geschwindigkeit. Grafikspeicher und Unified Memory sind genau dafür gebaut und erreichen ein Vielfaches der Bandbreite klassischer RAM-Riegel — deshalb fühlt sich dasselbe Modell auf drei Architekturen so unterschiedlich schnell an.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Ein 8B-Modell in Q4 (~4,7 GB) auf einem PC mit 32 GB RAM und einer 12-GB-Grafikkarte — wo sollte es idealerweise laufen?
Warum «verschwindet» auf deinem 16-GB-Notebook Speicher, den der Rechner fürs Modell bräuchte?
Was macht Unified Memory für lokale KI attraktiv?

Das kann ich jetzt

  • Ich kenne die drei Wohnorte eines Modells und ihre Tempo-Rangfolge (VRAM/Unified vor RAM).
  • Ich weiss, warum sich RAM und VRAM nicht addieren lassen und was Offloading kostet.
  • Ich schätze den Speicherbedarf eines Modells selbst ab — inklusive Reserve für Kontext und System.

Nächster Schritt: «CPU, GPU, NPU: Wer rechnet eigentlich?» klärt die Rechenwerke — und warum Tokens pro Sekunde die ehrlichste Messgrösse sind.