Zum Inhalt springen
Lokale KI lernen
Modul 1: Erklärlektion

Genauigkeit gegen Grösse: Quantisierung bewusst wählen

FP16, Q8, Q5, Q4 — hinter den Kürzeln steckt ein einfacher Handel: Wie viel Präzision gibst du her, damit das Modell auf dein Gerät passt?

Dauer
ca. 20 Minuten
Lernziel
Du kannst Quantisierungsstufen einordnen, ihren Speicherbedarf grob abschätzen und für dein Gerät eine sinnvolle Stufe wählen.
Voraussetzungen
Lektion «Modellarten: Vom Rohmodell zum Spezialisten»

Der Handel: Präzision gegen Platz

Die Grundidee kennst du aus dem Glossar: Quantisierung speichert die gelernten Zahlen eines Modells gröber, damit es kleiner und schneller wird. Diese Lektion macht daraus ein praktisches Entscheidungswerkzeug — denn beim Herunterladen musst du jedes Mal eine Stufe wählen.

Stell dir die Parameter als Farbtöne eines Gemäldes vor: Das Original (FP16) kennt 65’536 Abstufungen pro Farbe. Q8 rundet auf 256 Stufen — kaum jemand sieht einen Unterschied. Q4 rundet auf 16 Stufen — aus der Nähe erkennst du Vergröberungen, das Motiv bleibt aber klar. So ähnlich verhält es sich mit der Antwortqualität.

Die Stufen im Überblick

Grundlage der Grössenangaben ist die Näherungsformel (Annahme: reine Modellgewichte, ohne Kontext; tatsächliche Dateien weichen je nach Architektur etwas ab): Speicher ≈ Parameterzahl × Bytes pro Parameter.

Stufe Bits pro Zahl 4B-Modell braucht ≈ 8B-Modell braucht ≈ Wann sinnvoll?
FP16 / BF16 16 ~8 GB ~16 GB Original-Präzision — Referenz und Weitertraining, lokal selten nötig
Q8 / INT8 8 ~4 GB ~8 GB fast verlustfrei, wenn reichlich Speicher da ist
Q6 6 ~3 GB ~6 GB guter Mittelweg nach oben
Q5 5 ~2,7 GB ~5,4 GB spürbar kleiner, Qualität noch sehr nah an Q8
Q4 4 ~2,3 GB ~4,7 GB der Alltags-Standard für Notebooks
Q3 und tiefer ≤3 ~1,8 GB ~3,5 GB Notlösung — Qualitätsverlust wird deutlich

(Werte gerundet; Kürzel wie «K_M» bezeichnen Feinvarianten derselben Stufe — im Zweifel die mit «M» nehmen.)

Die wichtigste Praxisregel

Wenn Speicher knapp ist, konkurrieren zwei Strategien: ein grösseres Modell stärker komprimieren oder ein kleineres Modell weniger komprimieren. Die Erfahrung vieler Nutzer (Einordnung: verbreitete Community-Faustregel, nicht selbst systematisch getestet):

Ein mittleres Modell in Q4/Q5 schlägt meist ein grosses Modell in Q2/Q3. Unterhalb von Q4 bricht die Qualität überproportional ein.

Deshalb unsere Kursempfehlung: Q4 als Standard, Q5/Q6 wenn der Speicher locker reicht, Q8 nur bei viel Reserve — und Q2/Q3 lieber meiden, statt dich über wirre Antworten zu ärgern.

Vertiefung: Warum schadet das Runden so wenig?

Ein Modell mit Milliarden Parametern ist erstaunlich redundant: Viele Zahlen tragen wenig Einzelverantwortung, Wissen ist über unzählige Verbindungen verteilt. Moderne Verfahren quantisieren zudem nicht stur, sondern schützen empfindliche Bereiche (daher die Feinvarianten wie K_M). Erst wenn die Stufen zu grob werden — unterhalb von etwa 4 Bit — häufen sich Rundungsfehler zu sichtbaren Denkfehlern.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Du hast 16 GB RAM und willst ein 8B-Modell nutzen. Welche Stufe ist der vernünftige Start?
Was beschreibt die Näherung «Parameterzahl × Bytes pro Parameter»?
8 GB frei, zwei Kandidaten: 14B in Q3 oder 8B in Q5. Was probierst du zuerst?

Das kann ich jetzt

  • Ich kann die Stufen FP16/BF16, Q8/INT8, Q6, Q5, Q4, Q3 einordnen.
  • Ich schätze den Speicherbedarf eines Modells mit der Näherungsformel selbst ab.
  • Ich wähle Q4 als Standard und weiss, wann sich eine höhere Stufe lohnt — und warum ich Q2/Q3 meide.

Nächster Schritt: Kernmodul 2 übersetzt das in Hardware-Wissen: RAM, VRAM und die Frage, was dein Gerät wirklich kann.