Genauigkeit gegen Grösse: Quantisierung bewusst wählen
FP16, Q8, Q5, Q4 — hinter den Kürzeln steckt ein einfacher Handel: Wie viel Präzision gibst du her, damit das Modell auf dein Gerät passt?
Der Handel: Präzision gegen Platz
Die Grundidee kennst du aus dem Glossar: Quantisierung speichert die gelernten Zahlen eines Modells gröber, damit es kleiner und schneller wird. Diese Lektion macht daraus ein praktisches Entscheidungswerkzeug — denn beim Herunterladen musst du jedes Mal eine Stufe wählen.
Stell dir die Parameter als Farbtöne eines Gemäldes vor: Das Original (FP16) kennt 65’536 Abstufungen pro Farbe. Q8 rundet auf 256 Stufen — kaum jemand sieht einen Unterschied. Q4 rundet auf 16 Stufen — aus der Nähe erkennst du Vergröberungen, das Motiv bleibt aber klar. So ähnlich verhält es sich mit der Antwortqualität.
Die Stufen im Überblick
Grundlage der Grössenangaben ist die Näherungsformel (Annahme: reine Modellgewichte, ohne Kontext; tatsächliche Dateien weichen je nach Architektur etwas ab): Speicher ≈ Parameterzahl × Bytes pro Parameter.
| Stufe | Bits pro Zahl | 4B-Modell braucht ≈ | 8B-Modell braucht ≈ | Wann sinnvoll? |
|---|---|---|---|---|
| FP16 / BF16 | 16 | ~8 GB | ~16 GB | Original-Präzision — Referenz und Weitertraining, lokal selten nötig |
| Q8 / INT8 | 8 | ~4 GB | ~8 GB | fast verlustfrei, wenn reichlich Speicher da ist |
| Q6 | 6 | ~3 GB | ~6 GB | guter Mittelweg nach oben |
| Q5 | 5 | ~2,7 GB | ~5,4 GB | spürbar kleiner, Qualität noch sehr nah an Q8 |
| Q4 | 4 | ~2,3 GB | ~4,7 GB | der Alltags-Standard für Notebooks |
| Q3 und tiefer | ≤3 | ~1,8 GB | ~3,5 GB | Notlösung — Qualitätsverlust wird deutlich |
(Werte gerundet; Kürzel wie «K_M» bezeichnen Feinvarianten derselben Stufe — im Zweifel die mit «M» nehmen.)
Die wichtigste Praxisregel
Wenn Speicher knapp ist, konkurrieren zwei Strategien: ein grösseres Modell stärker komprimieren oder ein kleineres Modell weniger komprimieren. Die Erfahrung vieler Nutzer (Einordnung: verbreitete Community-Faustregel, nicht selbst systematisch getestet):
Ein mittleres Modell in Q4/Q5 schlägt meist ein grosses Modell in Q2/Q3. Unterhalb von Q4 bricht die Qualität überproportional ein.
Deshalb unsere Kursempfehlung: Q4 als Standard, Q5/Q6 wenn der Speicher locker reicht, Q8 nur bei viel Reserve — und Q2/Q3 lieber meiden, statt dich über wirre Antworten zu ärgern.
Vertiefung: Warum schadet das Runden so wenig?
Ein Modell mit Milliarden Parametern ist erstaunlich redundant: Viele Zahlen tragen wenig Einzelverantwortung, Wissen ist über unzählige Verbindungen verteilt. Moderne Verfahren quantisieren zudem nicht stur, sondern schützen empfindliche Bereiche (daher die Feinvarianten wie K_M). Erst wenn die Stufen zu grob werden — unterhalb von etwa 4 Bit — häufen sich Rundungsfehler zu sichtbaren Denkfehlern.
Kurz geprüft
3 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich kann die Stufen FP16/BF16, Q8/INT8, Q6, Q5, Q4, Q3 einordnen.
- Ich schätze den Speicherbedarf eines Modells mit der Näherungsformel selbst ab.
- Ich wähle Q4 als Standard und weiss, wann sich eine höhere Stufe lohnt — und warum ich Q2/Q3 meide.
Nächster Schritt: Kernmodul 2 übersetzt das in Hardware-Wissen: RAM, VRAM und die Frage, was dein Gerät wirklich kann.