Modellfamilien und Benchmarks richtig lesen
Wer baut die grossen offenen Modellfamilien — und warum eine Rangliste allein nie deine Entscheidung treffen sollte.
Die grossen offenen Familien
Diese Übersicht nennt die etablierten Familien und ihren Charakter — bewusst ohne Versionsnummern und Ranglistenplätze, denn die ändern sich laufend. Aktuelle Kandidaten samt Prüfdatum liefert der Technologiekatalog (Einordnung der Tabelle: etablierte Familienprofile, Stand Kurserstellung Juli 2026; Status: plausibel, per Websuche grob bestätigt, nicht jede Familie selbst getestet).
| Familie | Herkunft | Bekannt für |
|---|---|---|
| Llama | Meta (USA) | der Wegbereiter offener Modelle; riesiges Ökosystem, viele Grössen |
| Qwen | Alibaba (China) | breite Grössenpalette, stark bei Mehrsprachigkeit und Code |
| Mistral | Mistral AI (Frankreich) | effiziente Modelle, europäischer Anbieter, gute EU-Sprachen |
| Gemma | Google (USA) | kompakte Modelle mit starker Qualität pro Grösse |
| Phi | Microsoft (USA) | sehr kleine Modelle, erstaunlich fähig für ihre Grösse |
| DeepSeek | DeepSeek (China) | offene Reasoning-Pioniere, starke Logik |
| Granite | IBM (USA) | auf Unternehmens- und Agenten-Einsatz ausgerichtet |
Dazu kommen Spezialisten-Familien für Embeddings, Spracherkennung (Whisper-Umfeld), Sprachausgabe und Bildgenerierung — sie tauchen in den passenden Modulen auf.
Die Modellkarte: der Beipackzettel
Jedes seriöse Modell hat eine Modellkarte (englisch model card) — die Produktseite beim Anbieter bzw. auf Hugging Face. Lies darin gezielt vier Dinge: Grösse und Varianten (welche Parameterzahlen, welche Quantisierungen), Sprachen (ist Deutsch ausdrücklich dabei?), Kontextlänge (wie viel passt hinein?) und Lizenz (was darfst du damit?). Fünf Minuten Modellkarte ersparen dir Stunden Fehlversuche.
Benchmarks: nützlich, aber mit drei Fussnoten
Benchmarks sind standardisierte Testaufgaben (Wissen, Logik, Mathematik, Code), deren Prozentwerte Modelle vergleichbar machen sollen. Nützlich als Vorauswahl — aber:
- Teaching to the test. Benchmark-Aufgaben sind öffentlich; Trainingsdaten können sie enthalten. Ein Spitzenwert kann Auswendiglernen statt Können bedeuten.
- Dein Fall kommt nicht vor. «Deutsche Verwaltungs-E-Mail, freundlich kürzen» steht in keinem Benchmark. Englische Logik-Scores sagen darüber wenig.
- Quantisierung fehlt. Getestet wird meist das unkomprimierte Modell — du fährst Q4. Der Abstand zweier Modelle kann nach Quantisierung anders aussehen.
Deshalb die Kursregel: Benchmarks für die Vorauswahl (grober Filter), dein Prüfungsbogen aus Mission 2 für die Entscheidung.
Vertiefung: Warum «Open Weights» nicht «Open Source» ist
Bei offenen Modellen bekommst du die fertigen Gewichte — nicht die Trainingsdaten und selten den vollständigen Trainingscode. Das ist, als bekämst du den gebackenen Kuchen, aber nicht das Rezept. Für die Nutzung ist das meist egal; für die Beurteilung («womit wurde trainiert?») und manche Lizenzfragen nicht. Die präzise Bezeichnung ist darum «Open Weights», auch wenn umgangssprachlich alle «Open Source» sagen.
Kurz geprüft
3 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich kenne die etablierten offenen Modellfamilien und ihren Grundcharakter.
- Ich lese Modellkarten mit dem Vier-Punkte-Blick (Grösse, Sprachen, Kontext, Lizenz).
- Ich nutze Benchmarks als Filter — und entscheide mit dem eigenen Prüfungsbogen.
Nächster Schritt: Der Modell-Finder giesst dein neues Wissen in ein interaktives Werkzeug.