Modul 2: Erklärlektion

CPU, GPU, NPU: Wer rechnet eigentlich?

Drei Rechenwerke können KI ausführen — mit sehr unterschiedlichem Tempo. Und mit Tokens pro Sekunde lernst du die Messgrösse kennen, die ehrlicher ist als jedes Datenblatt.

Dauer: ca. 25 Minuten
Lernziel: Du kannst CPU, GPU und NPU nach ihrer Rolle für lokale KI einordnen und Geschwindigkeitsangaben in Tokens pro Sekunde selbst beurteilen.
Voraussetzungen: Lektion «RAM, VRAM, Unified Memory»

Drei Rechenwerke, drei Charaktere

CPU (Prozessor): der Generalist. Wenige, aber sehr flexible Kerne — er kann alles, auch KI-Modelle ausführen. Für kleine Modelle (1–4B, Q4) reicht das im Alltag gut; genau so lief deine Mission 1.
GPU (Grafikkarte/Grafikeinheit): die Spezialistin für massenhaft gleichartige Rechnungen. Ein Sprachmodell besteht fast nur aus solchen Rechnungen (riesige Zahlenreihen multiplizieren) — darum ist eine GPU mit genug VRAM um ein Mehrfaches schneller als die CPU.
NPU (Neural Processing Unit): ein stromsparender KI-Beschleuniger, der in modernen Notebook-Chips steckt. Stärke: kleine Dauer-Aufgaben effizient erledigen (Kamera-Effekte, Diktat). Für grosse lokale Sprachmodelle spielt sie bislang die kleinste Rolle — die Software-Unterstützung der gängigen Programme konzentriert sich auf CPU und GPU (Einordnung: Stand der verbreiteten Werkzeuge bei Kurserstellung, anhand offizieller Doku von LM Studio/llama.cpp-Umfeld geprüft; entwickelt sich weiter).

Tokens pro Sekunde: die ehrliche Messgrösse

Datenblätter nennen Teraflops und Taktraten — für dich zählt am Ende nur: Wie viele Tokens pro Sekunde erzeugt das Modell auf deinem Gerät? Zur Einordnung (Faustwerte fürs Lesegefühl, Annahme ~0,6 Wörter/Token auf Deutsch):

Tokens/s	Fühlt sich an wie …	Alltagstauglich?
1–3	Wort … für … Wort	nur für Geduldige
5–10	gemächliches Mitlesen	ja, für kürzere Antworten
15–30	flüssiges Lesetempo	angenehm
50+	schneller als du liest	sehr komfortabel

Diese Schwellen sind subjektive Richtwerte, keine Messnorm — aber sie geben dir eine Sprache, um Berichte («läuft mit 8 t/s») sofort einzuordnen. In Mission 3 misst du deine eigenen Werte.

Was das Tempo wirklich bestimmt

Beim Erzeugen liest das Modell für jedes Token einmal durch alle Gewichte. Daraus folgt die Kette, die du jetzt komplett verstehst:

kleineres Modell (weniger zu lesen) → schneller · stärkere Quantisierung (weniger Bytes) → schneller · höhere Speicherbandbreite (VRAM/Unified) → schneller · längerer Kontext (mehr Zwischenspeicher zu verwalten) → langsamer.

Zwei getrennte Phasen spürst du dabei: Das Einlesen deiner Eingabe (bei langen Dokumenten dauert es, bis überhaupt die erste Antwort kommt) und das Erzeugen der Antwort (das Token-für-Token-Tempo aus der Tabelle).

Vertiefung: PCIe — die Brücke zwischen den Welten

Grafikkarte und Prozessor sind über den PCIe-Steckplatz verbunden. Er ist schnell genug, um ein Modell einmalig in den VRAM zu laden — aber viel zu langsam, um während des Rechnens ständig Gewichte hin- und herzuschieben. Genau deshalb ist Offloading (Modell teils im RAM, teils im VRAM) so zäh: Jedes erzeugte Token muss über diese Brücke. Auch beim Kombinieren mehrerer Grafikkarten bleibt PCIe der Engpass — mehr dazu in der Entscheidungslektion.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Warum ist eine GPU für Sprachmodelle typischerweise schneller als eine CPU?

Ein Bericht sagt: «Modell X läuft bei mir mit 2 Tokens pro Sekunde.» Was heisst das praktisch?

Dein Chat wird gegen Ende eines langen Gesprächs spürbar langsamer. Plausibelste Erklärung?

Das kann ich jetzt

Ich kenne die Rollen von CPU, GPU und NPU für lokale KI.
Ich beurteile Geschwindigkeitsangaben in Tokens pro Sekunde selbst.
Ich kann erklären, welche vier Hebel das Tempo bestimmen — und warum Offloading zäh ist.

Nächster Schritt: Die Entscheidungslektion «Was kann mein Gerät — und was lohnt sich?» macht daraus konkrete Kauf- und Aufrüst-Entscheidungen.