CPU, GPU, NPU: Wer rechnet eigentlich?
Drei Rechenwerke können KI ausführen — mit sehr unterschiedlichem Tempo. Und mit Tokens pro Sekunde lernst du die Messgrösse kennen, die ehrlicher ist als jedes Datenblatt.
Drei Rechenwerke, drei Charaktere
- CPU (Prozessor): der Generalist. Wenige, aber sehr flexible Kerne — er kann alles, auch KI-Modelle ausführen. Für kleine Modelle (1–4B, Q4) reicht das im Alltag gut; genau so lief deine Mission 1.
- GPU (Grafikkarte/Grafikeinheit): die Spezialistin für massenhaft gleichartige Rechnungen. Ein Sprachmodell besteht fast nur aus solchen Rechnungen (riesige Zahlenreihen multiplizieren) — darum ist eine GPU mit genug VRAM um ein Mehrfaches schneller als die CPU.
- NPU (Neural Processing Unit): ein stromsparender KI-Beschleuniger, der in modernen Notebook-Chips steckt. Stärke: kleine Dauer-Aufgaben effizient erledigen (Kamera-Effekte, Diktat). Für grosse lokale Sprachmodelle spielt sie bislang die kleinste Rolle — die Software-Unterstützung der gängigen Programme konzentriert sich auf CPU und GPU (Einordnung: Stand der verbreiteten Werkzeuge bei Kurserstellung, anhand offizieller Doku von LM Studio/llama.cpp-Umfeld geprüft; entwickelt sich weiter).
Tokens pro Sekunde: die ehrliche Messgrösse
Datenblätter nennen Teraflops und Taktraten — für dich zählt am Ende nur: Wie viele Tokens pro Sekunde erzeugt das Modell auf deinem Gerät? Zur Einordnung (Faustwerte fürs Lesegefühl, Annahme ~0,6 Wörter/Token auf Deutsch):
| Tokens/s | Fühlt sich an wie … | Alltagstauglich? |
|---|---|---|
| 1–3 | Wort … für … Wort | nur für Geduldige |
| 5–10 | gemächliches Mitlesen | ja, für kürzere Antworten |
| 15–30 | flüssiges Lesetempo | angenehm |
| 50+ | schneller als du liest | sehr komfortabel |
Diese Schwellen sind subjektive Richtwerte, keine Messnorm — aber sie geben dir eine Sprache, um Berichte («läuft mit 8 t/s») sofort einzuordnen. In Mission 3 misst du deine eigenen Werte.
Was das Tempo wirklich bestimmt
Beim Erzeugen liest das Modell für jedes Token einmal durch alle Gewichte. Daraus folgt die Kette, die du jetzt komplett verstehst:
kleineres Modell (weniger zu lesen) → schneller · stärkere Quantisierung (weniger Bytes) → schneller · höhere Speicherbandbreite (VRAM/Unified) → schneller · längerer Kontext (mehr Zwischenspeicher zu verwalten) → langsamer.
Zwei getrennte Phasen spürst du dabei: Das Einlesen deiner Eingabe (bei langen Dokumenten dauert es, bis überhaupt die erste Antwort kommt) und das Erzeugen der Antwort (das Token-für-Token-Tempo aus der Tabelle).
Vertiefung: PCIe — die Brücke zwischen den Welten
Grafikkarte und Prozessor sind über den PCIe-Steckplatz verbunden. Er ist schnell genug, um ein Modell einmalig in den VRAM zu laden — aber viel zu langsam, um während des Rechnens ständig Gewichte hin- und herzuschieben. Genau deshalb ist Offloading (Modell teils im RAM, teils im VRAM) so zäh: Jedes erzeugte Token muss über diese Brücke. Auch beim Kombinieren mehrerer Grafikkarten bleibt PCIe der Engpass — mehr dazu in der Entscheidungslektion.
Kurz geprüft
3 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich kenne die Rollen von CPU, GPU und NPU für lokale KI.
- Ich beurteile Geschwindigkeitsangaben in Tokens pro Sekunde selbst.
- Ich kann erklären, welche vier Hebel das Tempo bestimmen — und warum Offloading zäh ist.
Nächster Schritt: Die Entscheidungslektion «Was kann mein Gerät — und was lohnt sich?» macht daraus konkrete Kauf- und Aufrüst-Entscheidungen.