Zum Inhalt springen
Lokale KI lernen

Druckansicht: Hardware ohne Fachchinesisch

Diese Ansicht enthält alle bisher produzierten Lektionen des Moduls in Lesereihenfolge. Über den Druckdialog deines Browsers («Als PDF speichern») erhältst du eine PDF-Datei.

Lokale KI lernen · Kernmodul 2

Hardware ohne Fachchinesisch

CPU, GPU, RAM, VRAM: was dein Gerät wirklich kann.

Stand: 4. Juli 2026

Lektion 1: RAM, VRAM, Unified Memory: Wo dein Modell wohnt

Erklärlektion· ca. 30 Minuten · Lernziel: Du kannst RAM, VRAM und Unified Memory unterscheiden, weisst warum sie sich nicht addieren lassen und schätzt den Speicherbedarf eines Modells selbst ab.

Die unbequeme Wahrheit zuerst

Bei lokaler KI entscheidet selten die Rechenleistung darüber, ob etwas läuft — sondern der Speicher. Ein Modell muss beim Arbeiten vollständig geladen sein. Zu wenig Speicher heisst: Es startet gar nicht, oder es wird auf die Festplatte ausgelagert und antwortet quälend langsam. Die Rechenleistung bestimmt dann erst, wie schnell es läuft.

Drei Wohnorte für ein Modell

  • RAM — der Arbeitsspeicher am Prozessor. Jeder Rechner hat ihn; hier landet dein Modell, wenn keine (ausreichende) Grafikkarte da ist. Dein 16-GB-Notebook aus Mission 1 arbeitet so.
  • VRAM — der Speicher auf der Grafikkarte, extrem schnell angebunden. Passt das Modell vollständig hinein, sind die Antworten oft um ein Mehrfaches schneller. Typische Grössen bei Consumer-Karten: 8, 12, 16 oder 24 GB.
  • Unified Memory — der gemeinsame Topf bei Apple Silicon (und ähnlichen Architekturen): Prozessor und Grafikeinheit teilen sich denselben schnellen Speicher. Ein Mac mit 32 GB kann davon einen grossen Teil dem Modell geben — das macht Macs für lokale KI attraktiv.
Notebook ohne eigene GPUCPURAM 16 GBModell wohnt hierPC mit GrafikkarteCPURAM32 GBGPUVRAM12 GB ★Mac (Apple Silicon)CPUGPUUnified Memory 32 GBein gemeinsamer Topf★ = schnellster Wohnort · gestrichelte Linie = getrennte Töpfe, kein Zusammenlegen möglich
Wo das Modell wohnt, entscheidet über das Tempo — und getrennte Töpfe lassen sich nicht zusammenzählen.

Selbst rechnen statt raten

Aus Kernmodul 1 kennst du die Näherung Parameterzahl × Bytes pro Parameter. Probiere sie hier mit deinem Gerät aus:

Näherungsrechner: Passt das Modell in meinen Speicher?

4B

16 GB

für die Modellgewichte (Näherung: Parameter × Bytes)

Grobe Näherung: nur die Gewichte, plus Daumenwert für Kontext und Programm. Windows selbst braucht auf einem Notebook zusätzlich mehrere GB — der Rechner zieht dafür pauschal 6 GB ab, wenn du mit RAM (statt VRAM) rechnest: Schalte dazu unten um.

Zwei Posten, die Einsteiger gern vergessen:

  1. Der Kontext isst mit. Je länger dein Gespräch oder Dokument, desto mehr Zwischenspeicher (KV-Cache) braucht das Modell — der Bedarf wächst linear mit den tatsächlich genutzten Tokens. Konkrete Zahlen hängen vom Modell ab; als Haltung reicht: langer Kontext = spürbar mehr Speicher.
  2. Das System läuft weiter. Windows, Browser, Chat-Programm — auf einem 16-GB-Notebook sind 6–8 GB schnell anderweitig belegt (das hast du in der KM4-Praxislektion selbst gemessen).
Vertiefung: Warum ist VRAM so viel schneller?

Entscheidend ist die Speicherbandbreite — wie viele Gigabyte pro Sekunde zwischen Speicher und Rechenwerk fliessen. Beim Antworten muss das Modell für praktisch jedes erzeugte Token einmal durch alle Gewichte «hindurchlesen»; die Bandbreite wird damit zur Taktgeberin der Geschwindigkeit. Grafikspeicher und Unified Memory sind genau dafür gebaut und erreichen ein Vielfaches der Bandbreite klassischer RAM-Riegel — deshalb fühlt sich dasselbe Modell auf drei Architekturen so unterschiedlich schnell an.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Ein 8B-Modell in Q4 (~4,7 GB) auf einem PC mit 32 GB RAM und einer 12-GB-Grafikkarte — wo sollte es idealerweise laufen?
Warum «verschwindet» auf deinem 16-GB-Notebook Speicher, den der Rechner fürs Modell bräuchte?
Was macht Unified Memory für lokale KI attraktiv?

Das kann ich jetzt

  • Ich kenne die drei Wohnorte eines Modells und ihre Tempo-Rangfolge (VRAM/Unified vor RAM).
  • Ich weiss, warum sich RAM und VRAM nicht addieren lassen und was Offloading kostet.
  • Ich schätze den Speicherbedarf eines Modells selbst ab — inklusive Reserve für Kontext und System.

Nächster Schritt: «CPU, GPU, NPU: Wer rechnet eigentlich?» klärt die Rechenwerke — und warum Tokens pro Sekunde die ehrlichste Messgrösse sind.

Lektion 2: CPU, GPU, NPU: Wer rechnet eigentlich?

Erklärlektion· ca. 25 Minuten · Lernziel: Du kannst CPU, GPU und NPU nach ihrer Rolle für lokale KI einordnen und Geschwindigkeitsangaben in Tokens pro Sekunde selbst beurteilen.

Drei Rechenwerke, drei Charaktere

  • CPU (Prozessor): der Generalist. Wenige, aber sehr flexible Kerne — er kann alles, auch KI-Modelle ausführen. Für kleine Modelle (1–4B, Q4) reicht das im Alltag gut; genau so lief deine Mission 1.
  • GPU (Grafikkarte/Grafikeinheit): die Spezialistin für massenhaft gleichartige Rechnungen. Ein Sprachmodell besteht fast nur aus solchen Rechnungen (riesige Zahlenreihen multiplizieren) — darum ist eine GPU mit genug VRAM um ein Mehrfaches schneller als die CPU.
  • NPU (Neural Processing Unit): ein stromsparender KI-Beschleuniger, der in modernen Notebook-Chips steckt. Stärke: kleine Dauer-Aufgaben effizient erledigen (Kamera-Effekte, Diktat). Für grosse lokale Sprachmodelle spielt sie bislang die kleinste Rolle — die Software-Unterstützung der gängigen Programme konzentriert sich auf CPU und GPU (Einordnung: Stand der verbreiteten Werkzeuge bei Kurserstellung, anhand offizieller Doku von LM Studio/llama.cpp-Umfeld geprüft; entwickelt sich weiter).

Tokens pro Sekunde: die ehrliche Messgrösse

Datenblätter nennen Teraflops und Taktraten — für dich zählt am Ende nur: Wie viele Tokens pro Sekunde erzeugt das Modell auf deinem Gerät? Zur Einordnung (Faustwerte fürs Lesegefühl, Annahme ~0,6 Wörter/Token auf Deutsch):

Tokens/s Fühlt sich an wie … Alltagstauglich?
1–3 Wort … für … Wort nur für Geduldige
5–10 gemächliches Mitlesen ja, für kürzere Antworten
15–30 flüssiges Lesetempo angenehm
50+ schneller als du liest sehr komfortabel

Diese Schwellen sind subjektive Richtwerte, keine Messnorm — aber sie geben dir eine Sprache, um Berichte («läuft mit 8 t/s») sofort einzuordnen. In Mission 3 misst du deine eigenen Werte.

Was das Tempo wirklich bestimmt

Beim Erzeugen liest das Modell für jedes Token einmal durch alle Gewichte. Daraus folgt die Kette, die du jetzt komplett verstehst:

kleineres Modell (weniger zu lesen) → schneller · stärkere Quantisierung (weniger Bytes) → schneller · höhere Speicherbandbreite (VRAM/Unified) → schneller · längerer Kontext (mehr Zwischenspeicher zu verwalten) → langsamer.

Zwei getrennte Phasen spürst du dabei: Das Einlesen deiner Eingabe (bei langen Dokumenten dauert es, bis überhaupt die erste Antwort kommt) und das Erzeugen der Antwort (das Token-für-Token-Tempo aus der Tabelle).

Vertiefung: PCIe — die Brücke zwischen den Welten

Grafikkarte und Prozessor sind über den PCIe-Steckplatz verbunden. Er ist schnell genug, um ein Modell einmalig in den VRAM zu laden — aber viel zu langsam, um während des Rechnens ständig Gewichte hin- und herzuschieben. Genau deshalb ist Offloading (Modell teils im RAM, teils im VRAM) so zäh: Jedes erzeugte Token muss über diese Brücke. Auch beim Kombinieren mehrerer Grafikkarten bleibt PCIe der Engpass — mehr dazu in der Entscheidungslektion.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Warum ist eine GPU für Sprachmodelle typischerweise schneller als eine CPU?
Ein Bericht sagt: «Modell X läuft bei mir mit 2 Tokens pro Sekunde.» Was heisst das praktisch?
Dein Chat wird gegen Ende eines langen Gesprächs spürbar langsamer. Plausibelste Erklärung?

Das kann ich jetzt

  • Ich kenne die Rollen von CPU, GPU und NPU für lokale KI.
  • Ich beurteile Geschwindigkeitsangaben in Tokens pro Sekunde selbst.
  • Ich kann erklären, welche vier Hebel das Tempo bestimmen — und warum Offloading zäh ist.

Nächster Schritt: Die Entscheidungslektion «Was kann mein Gerät — und was lohnt sich?» macht daraus konkrete Kauf- und Aufrüst-Entscheidungen.

Lektion 3: Was kann mein Gerät — und was lohnt sich?

Entscheidungslektion· ca. 30 Minuten · Lernziel: Du kannst dein Gerät einer Leistungsklasse zuordnen, typische Aufrüst-Fragen (RAM-Riegel, zweite GPU, DDR-Generation) beantworten und Fehlkäufe vermeiden.

Ausgangslage

Du kennst jetzt Speicher, Bandbreite und Rechenwerke. Diese Entscheidungslektion beantwortet die Fragen, die daraus folgen: Wo stehe ich? Was geht damit? Und wo ist mein Geld gut angelegt — wo verschwendet?

Die Leistungsklassen

Einordnung nach dem, was du in den letzten Lektionen gelernt hast (Modellklassen bei Q4; Richtwerte, keine Garantien — dein Test in Mission 3 zählt):

Klasse Typische Geräte Läuft gut Wird zäh
Einstieg Notebook, 8–16 GB RAM, keine eigene GPU 1–4B ab 7–8B
Solide PC/Notebook, 32 GB RAM oder GPU mit 8–12 GB VRAM 7–14B ab ~20B
Komfort GPU mit 16–24 GB VRAM oder Mac mit 32–64 GB 14–32B 70B nur quantisiert/zäh
Enthusiast Workstation, mehrere GPUs oder Mac mit 96+ GB 70B+ — (Budget ist die Grenze)

Wichtiger als die Klasse ist die Erkenntnis: Jede Klasse ist nutzbar. Mit einem Einstiegsgerät lernst du alles in diesem Kurs — grössere Klassen kaufen vor allem Qualität und Tempo, keine neuen Fähigkeiten.

Die häufigsten Aufrüst-Fragen — kurz beantwortet

«Viele kleine RAM-Riegel = billig zu viel Speicher?» Grundsätzlich ja — RAM aufrüsten ist oft die günstigste Verbesserung. Aber: Die Anzahl Steckplätze begrenzt das Mainboard (Notebooks oft 0–2, teils fest verlötet!), und Riegel arbeiten paarweise am schnellsten. Vor dem Kauf klären: Wie viele Plätze sind frei, was ist das Maximum laut Handbuch, welcher Typ ist verbaut?

«DDR4, DDR5, ECC — was brauche ich?» Den Typ bestimmt dein Mainboard — mischen geht nicht. DDR5 bietet mehr Bandbreite (gut für CPU-Inferenz), rechtfertigt aber allein keinen Plattformwechsel. ECC (Fehlerkorrektur, Server-RAM) ist für Zuverlässigkeit gedacht, nicht für Tempo — für den Heimgebrauch verzichtbar.

«Bringt eine zweite Grafikkarte doppeltes Tempo?» Meist nein. Zwei GPUs bringen vor allem mehr gemeinsamen VRAM (grössere Modelle möglich), kaum doppelte Geschwindigkeit — die Daten müssen über den PCIe-Engpass koordiniert werden. Regel: Eine Karte mit viel VRAM schlägt zwei Karten mit wenig. Zwei GPUs sind die Lösung, wenn eine einzelne mit genug VRAM unbezahlbar ist.

«Reicht meine alte Grafikkarte mit 4–6 GB?» Für kleine Modelle plus Offloading: teilweise. Ehrlich gerechnet passt in 4–6 GB nur die 1–4B-Klasse komplett — dann aber richtig flott. Der Rest läuft gemischt und damit gemächlich.

«Lautstärke und Strom?» Dauerbetrieb unter Last macht Lüfter hörbar und kostet Strom: Eine Gaming-GPU zieht unter KI-Last oft 200–350 W, ein Mac mini einen Bruchteil davon. Wer einen Dauerassistenten plant (Kernmodule 7–8), rechnet Strom und Lärm mit ein — das Entdecker-Labor 1 liefert Beispielkonfigurationen mit Preisen.

Der Entscheidungsbaum

  1. Läuft, was du lernen willst, auf deinem jetzigen Gerät? (1–4B tut es fast überall.) → Ja: Nichts kaufen. Kurs fortsetzen, in Mission 3 messen.
  2. Zäh trotz passender Modellgrösse? → Erst Software-Hebel: kleineres Modell, stärkere Quantisierung, kürzerer Kontext. Kostenlos und sofort.
  3. RAM unter 16 GB und Gerät aufrüstbar? → RAM auf 16–32 GB ist der günstigste Sprung.
  4. Du willst dauerhaft 14B+ komfortabel? → Gebrauchter PC mit einer GPU ab 12–16 GB VRAM oder Mac mit 32+ GB Unified Memory. Konkrete Konfigurationen mit CHF-Preisen: Labor 1 und der Hardware-Finder.
  5. 70B-Träume? → Erst den Kurs abschliessen. Danach weisst du, ob du das wirklich brauchst — oder ob ein hybrides Setup (Kernmodul 8) klüger ist.
Vertiefung: Warum «Auslagern in den RAM» kein Upgrade-Ersatz ist

Wenn der VRAM nicht reicht, lagern moderne Programme automatisch Teile des Modells in den RAM aus. Das klingt nach Gratisspeicher, ist aber der PCIe-Flaschenhals aus der letzten Lektion: Jedes erzeugte Token wartet auf die langsamste Etappe. 20 % ausgelagert kann das Tempo bereits halbieren (Richtwert aus Nutzerberichten; nicht selbst gemessen — miss deinen Fall in Mission 3). Auslagern ist ein Überbrückungswerkzeug, keine Dauerlösung.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Budget für genau eine Verbesserung am Desktop-PC (16 GB RAM, GPU mit 6 GB VRAM), Ziel: 14B-Modelle komfortabel. Was bringt am meisten?
Dein Notebook ist dir zu langsam bei einem 8B-Modell. Erster Schritt?
Was ist beim RAM-Aufrüsten eines Notebooks die erste Prüffrage?

Das kann ich jetzt

  • Ich ordne mein Gerät einer Leistungsklasse zu und weiss, welche Modellklassen realistisch sind.
  • Ich beantworte die klassischen Aufrüst-Fragen (RAM-Riegel, DDR-Typ, zweite GPU) selbst.
  • Ich kenne die drei häufigsten Fehlkäufe und den Entscheidungsbaum: Software-Hebel vor Geld.

Nächster Schritt: In Mission 3 schaust du deinem Gerät live in den Maschinenraum — RAM-Anzeige, Tokens pro Sekunde, Kontexteffekt.