Zum Inhalt springen
Lokale KI lernen
Modul 1: Erklärlektion

Modellarten: Vom Rohmodell zum Spezialisten

Basis, Instruct, Reasoning, Vision, Embedding — Modellnamen tragen viele Zusätze. Hier lernst du, sie zu lesen und das richtige Werkzeug für die Aufgabe zu wählen.

Dauer
ca. 25 Minuten
Lernziel
Du kannst die wichtigsten Modellarten unterscheiden und weisst, welche Art für welche Aufgabe gedacht ist.
Voraussetzungen
Lektion «Was ist lokale KI — und wie ‹denkt› ein Sprachmodell?»

Warum es nicht «das eine» Modell gibt

Wer zum ersten Mal eine Modellbibliothek öffnet, sieht kryptische Namen wie Qwen3-4B-Instruct-Q4_K_M oder nomic-embed-text. Die gute Nachricht: Dahinter steckt ein System. Jeder Namensteil beantwortet eine Frage — wer hat es gebaut, wie gross ist es, wofür ist es gedacht, wie stark ist es komprimiert? Die Grösse und die Kompression (Parameter, Quantisierung) kennst du schon. Diese Lektion erklärt den Teil «wofür gedacht».

Die Familie im Überblick

Basismodellsetzt nur Text fortInstruct-Modellfolgt Anweisungen — dein Chat-StandardReasoning-Modell«denkt» sichtbar in ZwischenschrittenVisionversteht BilderEmbeddingText → ZahlenvektorAudiohören / sprechen… und die Spezialisten neben der Sprachfamilie:
Aus dem Basismodell werden durch Nachschulung Assistenten — daneben gibt es Spezialisten für Bilder, Suche und Sprache.

Basis-, Instruct- und Reasoning-Modelle

  • Basismodell (englisch base model): das Rohprodukt aus dem Training. Es kann nur eines — Text plausibel fortsetzen. Fragst du «Was ist die Hauptstadt der Schweiz?», antwortet es womöglich mit weiteren Quizfragen statt mit «Bern». Für den Alltag ungeeignet; du wirst es selten direkt nutzen.
  • Instruct-Modell: ein Basismodell, das zusätzlich mit Frage-Antwort-Beispielen nachgeschult wurde, bis es Anweisungen befolgt. Das ist der Standard für Chat und fast alles in diesem Kurs. Steht im Namen «Instruct» oder «Chat» — oder gar nichts, weil es heute der Normalfall ist.
  • Reasoning-Modell: eine neuere Gattung, die vor der Antwort sichtbar Zwischenschritte erzeugt («denkt laut»). Stärker bei Logik-, Rechen- und Planungsaufgaben — dafür deutlich langsamer und gesprächiger, weil die Denk-Tokens ebenfalls erzeugt und gespeichert werden müssen. Für schnelle Alltagsfragen ist es die falsche Wahl.

Die Spezialisten

  • Vision-Modelle (auch: multimodale Modelle) verstehen zusätzlich Bilder: Sie beschreiben Fotos, lesen Screenshots oder erkennen Objekte. «Multimodal» heisst allgemein: mehrere Eingabearten (Text, Bild, teils Audio) in einem Modell.
  • Embedding-Modelle erzeugen keine Antworten, sondern Zahlenvektoren für die Bedeutungssuche — das Rückgrat von RAG. Sie sind winzig (oft unter 1 GB) und laufen nebenher.
  • Audio-Modelle: Spracherkennung (gesprochene Sprache → Text, bekanntestes Beispiel die Whisper-Familie) und Sprachausgabe (Text → gesprochene Sprache). Beides lokal machbar — Kernmodul 9 widmet sich dem ausführlich.
Vertiefung: Mixture of Experts (MoE) — gross und trotzdem flott?

Manche Modelle tragen Namenszusätze wie «A3B»: Das Modell hat insgesamt viele Milliarden Parameter, aktiviert pro Token aber nur einen Bruchteil davon — spezialisierte «Experten», zwischen denen ein Verteiler wählt. Vorteil: Antwortqualität eines grossen Modells bei der Rechenlast eines kleineren. Haken für lokale Nutzung: Im Speicher liegen trotzdem alle Experten — der RAM-Bedarf richtet sich nach der Gesamtgrösse, das Tempo eher nach den aktiven Parametern.

Namen lesen — eine kleine Übung

Nimm Qwen3-4B-Instruct-Q4_K_M auseinander:

Namensteil Bedeutung
Qwen3 Modellfamilie und Generation (Hersteller: Alibaba)
4B 4 Milliarden Parameter — kompakte Klasse
Instruct folgt Anweisungen, für Chat gedacht
Q4_K_M 4-Bit-Quantisierung, mittlere Variante

Mit diesem Raster kannst du ab sofort fast jeden Modellnamen entschlüsseln — und erkennst auf einen Blick, ob ein Fund zu deinem Gerät und deiner Aufgabe passt.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Du willst auf deinem Notebook alltägliche Texte zusammenfassen. Welche Modellart?
Wann lohnt sich ein Reasoning-Modell?
Was verrät dir «Q4_K_M» in einem Modellnamen?

Das kann ich jetzt

  • Ich kann Basis-, Instruct- und Reasoning-Modelle unterscheiden und weiss, dass Instruct mein Standard ist.
  • Ich kenne die Spezialisten (Vision, Embedding, Audio) und ihren Zweck.
  • Ich kann Modellnamen wie Qwen3-4B-Instruct-Q4_K_M vollständig entschlüsseln.
  • Ich weiss, was Mixture of Experts bedeutet — und warum der RAM-Bedarf trotzdem hoch bleibt.

Nächster Schritt: Die Lektion «Genauigkeit gegen Grösse» zeigt, wie du die Quantisierungsstufe bewusst wählst.