Modul 1: Erklärlektion

Genauigkeit gegen Grösse: Quantisierung bewusst wählen

FP16, Q8, Q5, Q4 — hinter den Kürzeln steckt ein einfacher Handel: Wie viel Präzision gibst du her, damit das Modell auf dein Gerät passt?

Dauer: ca. 20 Minuten
Lernziel: Du kannst Quantisierungsstufen einordnen, ihren Speicherbedarf grob abschätzen und für dein Gerät eine sinnvolle Stufe wählen.
Voraussetzungen: Lektion «Modellarten: Vom Rohmodell zum Spezialisten»

Der Handel: Präzision gegen Platz

Die Grundidee kennst du aus dem Glossar: Quantisierung speichert die gelernten Zahlen eines Modells gröber, damit es kleiner und schneller wird. Diese Lektion macht daraus ein praktisches Entscheidungswerkzeug — denn beim Herunterladen musst du jedes Mal eine Stufe wählen.

Stell dir die Parameter als Farbtöne eines Gemäldes vor: Das Original (FP16) kennt 65’536 Abstufungen pro Farbe. Q8 rundet auf 256 Stufen — kaum jemand sieht einen Unterschied. Q4 rundet auf 16 Stufen — aus der Nähe erkennst du Vergröberungen, das Motiv bleibt aber klar. So ähnlich verhält es sich mit der Antwortqualität.

Die Stufen im Überblick

Grundlage der Grössenangaben ist die Näherungsformel (Annahme: reine Modellgewichte, ohne Kontext; tatsächliche Dateien weichen je nach Architektur etwas ab): Speicher ≈ Parameterzahl × Bytes pro Parameter.

Stufe	Bits pro Zahl	4B-Modell braucht ≈	8B-Modell braucht ≈	Wann sinnvoll?
FP16 / BF16	16	~8 GB	~16 GB	Original-Präzision — Referenz und Weitertraining, lokal selten nötig
Q8 / INT8	8	~4 GB	~8 GB	fast verlustfrei, wenn reichlich Speicher da ist
Q6	6	~3 GB	~6 GB	guter Mittelweg nach oben
Q5	5	~2,7 GB	~5,4 GB	spürbar kleiner, Qualität noch sehr nah an Q8
Q4	4	~2,3 GB	~4,7 GB	der Alltags-Standard für Notebooks
Q3 und tiefer	≤3	~1,8 GB	~3,5 GB	Notlösung — Qualitätsverlust wird deutlich

(Werte gerundet; Kürzel wie «K_M» bezeichnen Feinvarianten derselben Stufe — im Zweifel die mit «M» nehmen.)

Die wichtigste Praxisregel

Wenn Speicher knapp ist, konkurrieren zwei Strategien: ein grösseres Modell stärker komprimieren oder ein kleineres Modell weniger komprimieren. Die Erfahrung vieler Nutzer (Einordnung: verbreitete Community-Faustregel, nicht selbst systematisch getestet):

Ein mittleres Modell in Q4/Q5 schlägt meist ein grosses Modell in Q2/Q3. Unterhalb von Q4 bricht die Qualität überproportional ein.

Deshalb unsere Kursempfehlung: Q4 als Standard, Q5/Q6 wenn der Speicher locker reicht, Q8 nur bei viel Reserve — und Q2/Q3 lieber meiden, statt dich über wirre Antworten zu ärgern.

Vertiefung: Warum schadet das Runden so wenig?

Ein Modell mit Milliarden Parametern ist erstaunlich redundant: Viele Zahlen tragen wenig Einzelverantwortung, Wissen ist über unzählige Verbindungen verteilt. Moderne Verfahren quantisieren zudem nicht stur, sondern schützen empfindliche Bereiche (daher die Feinvarianten wie K_M). Erst wenn die Stufen zu grob werden — unterhalb von etwa 4 Bit — häufen sich Rundungsfehler zu sichtbaren Denkfehlern.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Du hast 16 GB RAM und willst ein 8B-Modell nutzen. Welche Stufe ist der vernünftige Start?

Was beschreibt die Näherung «Parameterzahl × Bytes pro Parameter»?

8 GB frei, zwei Kandidaten: 14B in Q3 oder 8B in Q5. Was probierst du zuerst?

Das kann ich jetzt

Ich kann die Stufen FP16/BF16, Q8/INT8, Q6, Q5, Q4, Q3 einordnen.
Ich schätze den Speicherbedarf eines Modells mit der Näherungsformel selbst ab.
Ich wähle Q4 als Standard und weiss, wann sich eine höhere Stufe lohnt — und warum ich Q2/Q3 meide.

Nächster Schritt: Kernmodul 2 übersetzt das in Hardware-Wissen: RAM, VRAM und die Frage, was dein Gerät wirklich kann.