Modellarten: Vom Rohmodell zum Spezialisten
Basis, Instruct, Reasoning, Vision, Embedding — Modellnamen tragen viele Zusätze. Hier lernst du, sie zu lesen und das richtige Werkzeug für die Aufgabe zu wählen.
Warum es nicht «das eine» Modell gibt
Wer zum ersten Mal eine Modellbibliothek öffnet, sieht kryptische Namen wie
Qwen3-4B-Instruct-Q4_K_M oder nomic-embed-text. Die gute Nachricht: Dahinter steckt ein
System. Jeder Namensteil beantwortet eine Frage — wer hat es gebaut, wie gross ist es, wofür
ist es gedacht, wie stark ist es komprimiert? Die Grösse und die Kompression
(Parameter, Quantisierung) kennst du schon.
Diese Lektion erklärt den Teil «wofür gedacht».
Die Familie im Überblick
Basis-, Instruct- und Reasoning-Modelle
- Basismodell (englisch base model): das Rohprodukt aus dem Training. Es kann nur eines — Text plausibel fortsetzen. Fragst du «Was ist die Hauptstadt der Schweiz?», antwortet es womöglich mit weiteren Quizfragen statt mit «Bern». Für den Alltag ungeeignet; du wirst es selten direkt nutzen.
- Instruct-Modell: ein Basismodell, das zusätzlich mit Frage-Antwort-Beispielen nachgeschult wurde, bis es Anweisungen befolgt. Das ist der Standard für Chat und fast alles in diesem Kurs. Steht im Namen «Instruct» oder «Chat» — oder gar nichts, weil es heute der Normalfall ist.
- Reasoning-Modell: eine neuere Gattung, die vor der Antwort sichtbar Zwischenschritte erzeugt («denkt laut»). Stärker bei Logik-, Rechen- und Planungsaufgaben — dafür deutlich langsamer und gesprächiger, weil die Denk-Tokens ebenfalls erzeugt und gespeichert werden müssen. Für schnelle Alltagsfragen ist es die falsche Wahl.
Die Spezialisten
- Vision-Modelle (auch: multimodale Modelle) verstehen zusätzlich Bilder: Sie beschreiben Fotos, lesen Screenshots oder erkennen Objekte. «Multimodal» heisst allgemein: mehrere Eingabearten (Text, Bild, teils Audio) in einem Modell.
- Embedding-Modelle erzeugen keine Antworten, sondern Zahlenvektoren für die Bedeutungssuche — das Rückgrat von RAG. Sie sind winzig (oft unter 1 GB) und laufen nebenher.
- Audio-Modelle: Spracherkennung (gesprochene Sprache → Text, bekanntestes Beispiel die Whisper-Familie) und Sprachausgabe (Text → gesprochene Sprache). Beides lokal machbar — Kernmodul 9 widmet sich dem ausführlich.
Vertiefung: Mixture of Experts (MoE) — gross und trotzdem flott?
Manche Modelle tragen Namenszusätze wie «A3B»: Das Modell hat insgesamt viele Milliarden Parameter, aktiviert pro Token aber nur einen Bruchteil davon — spezialisierte «Experten», zwischen denen ein Verteiler wählt. Vorteil: Antwortqualität eines grossen Modells bei der Rechenlast eines kleineren. Haken für lokale Nutzung: Im Speicher liegen trotzdem alle Experten — der RAM-Bedarf richtet sich nach der Gesamtgrösse, das Tempo eher nach den aktiven Parametern.
Namen lesen — eine kleine Übung
Nimm Qwen3-4B-Instruct-Q4_K_M auseinander:
| Namensteil | Bedeutung |
|---|---|
Qwen3 |
Modellfamilie und Generation (Hersteller: Alibaba) |
4B |
4 Milliarden Parameter — kompakte Klasse |
Instruct |
folgt Anweisungen, für Chat gedacht |
Q4_K_M |
4-Bit-Quantisierung, mittlere Variante |
Mit diesem Raster kannst du ab sofort fast jeden Modellnamen entschlüsseln — und erkennst auf einen Blick, ob ein Fund zu deinem Gerät und deiner Aufgabe passt.
Kurz geprüft
3 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich kann Basis-, Instruct- und Reasoning-Modelle unterscheiden und weiss, dass Instruct mein Standard ist.
- Ich kenne die Spezialisten (Vision, Embedding, Audio) und ihren Zweck.
- Ich kann Modellnamen wie
Qwen3-4B-Instruct-Q4_K_Mvollständig entschlüsseln. - Ich weiss, was Mixture of Experts bedeutet — und warum der RAM-Bedarf trotzdem hoch bleibt.
Nächster Schritt: Die Lektion «Genauigkeit gegen Grösse» zeigt, wie du die Quantisierungsstufe bewusst wählst.