Modul 3: Erklärlektion

Modellfamilien und Benchmarks richtig lesen

Wer baut die grossen offenen Modellfamilien — und warum eine Rangliste allein nie deine Entscheidung treffen sollte.

Dauer: ca. 25 Minuten
Lernziel: Du kennst die wichtigsten offenen Modellfamilien, kannst Modellkarten lesen und Benchmark-Zahlen kritisch einordnen.
Voraussetzungen: Lektion «Systematisch wählen statt raten»

Die grossen offenen Familien

Diese Übersicht nennt die etablierten Familien und ihren Charakter — bewusst ohne Versionsnummern und Ranglistenplätze, denn die ändern sich laufend. Aktuelle Kandidaten samt Prüfdatum liefert der Technologiekatalog (Einordnung der Tabelle: etablierte Familienprofile, Stand Kurserstellung Juli 2026; Status: plausibel, per Websuche grob bestätigt, nicht jede Familie selbst getestet).

Familie	Herkunft	Bekannt für
Llama	Meta (USA)	der Wegbereiter offener Modelle; riesiges Ökosystem, viele Grössen
Qwen	Alibaba (China)	breite Grössenpalette, stark bei Mehrsprachigkeit und Code
Mistral	Mistral AI (Frankreich)	effiziente Modelle, europäischer Anbieter, gute EU-Sprachen
Gemma	Google (USA)	kompakte Modelle mit starker Qualität pro Grösse
Phi	Microsoft (USA)	sehr kleine Modelle, erstaunlich fähig für ihre Grösse
DeepSeek	DeepSeek (China)	offene Reasoning-Pioniere, starke Logik
Granite	IBM (USA)	auf Unternehmens- und Agenten-Einsatz ausgerichtet

Dazu kommen Spezialisten-Familien für Embeddings, Spracherkennung (Whisper-Umfeld), Sprachausgabe und Bildgenerierung — sie tauchen in den passenden Modulen auf.

Die Modellkarte: der Beipackzettel

Jedes seriöse Modell hat eine Modellkarte (englisch model card) — die Produktseite beim Anbieter bzw. auf Hugging Face. Lies darin gezielt vier Dinge: Grösse und Varianten (welche Parameterzahlen, welche Quantisierungen), Sprachen (ist Deutsch ausdrücklich dabei?), Kontextlänge (wie viel passt hinein?) und Lizenz (was darfst du damit?). Fünf Minuten Modellkarte ersparen dir Stunden Fehlversuche.

Benchmarks: nützlich, aber mit drei Fussnoten

Benchmarks sind standardisierte Testaufgaben (Wissen, Logik, Mathematik, Code), deren Prozentwerte Modelle vergleichbar machen sollen. Nützlich als Vorauswahl — aber:

Teaching to the test. Benchmark-Aufgaben sind öffentlich; Trainingsdaten können sie enthalten. Ein Spitzenwert kann Auswendiglernen statt Können bedeuten.
Dein Fall kommt nicht vor. «Deutsche Verwaltungs-E-Mail, freundlich kürzen» steht in keinem Benchmark. Englische Logik-Scores sagen darüber wenig.
Quantisierung fehlt. Getestet wird meist das unkomprimierte Modell — du fährst Q4. Der Abstand zweier Modelle kann nach Quantisierung anders aussehen.

Deshalb die Kursregel: Benchmarks für die Vorauswahl (grober Filter), dein Prüfungsbogen aus Mission 2 für die Entscheidung.

Vertiefung: Warum «Open Weights» nicht «Open Source» ist

Bei offenen Modellen bekommst du die fertigen Gewichte — nicht die Trainingsdaten und selten den vollständigen Trainingscode. Das ist, als bekämst du den gebackenen Kuchen, aber nicht das Rezept. Für die Nutzung ist das meist egal; für die Beurteilung («womit wurde trainiert?») und manche Lizenzfragen nicht. Die präzise Bezeichnung ist darum «Open Weights», auch wenn umgangssprachlich alle «Open Source» sagen.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Ein Modell führt eine Benchmark-Rangliste an. Was folgt daraus für dich?

Welche vier Angaben liest du zuerst in einer Modellkarte?

Warum ist «Open Weights» die genauere Bezeichnung als «Open Source»?

Das kann ich jetzt

Ich kenne die etablierten offenen Modellfamilien und ihren Grundcharakter.
Ich lese Modellkarten mit dem Vier-Punkte-Blick (Grösse, Sprachen, Kontext, Lizenz).
Ich nutze Benchmarks als Filter — und entscheide mit dem eigenen Prüfungsbogen.

Nächster Schritt: Der Modell-Finder giesst dein neues Wissen in ein interaktives Werkzeug.