Zwei Modelle im Vergleich
Dieselben fünf Aufgaben, zwei Modelle — am Ende weisst du aus eigener Erfahrung, was Modellwahl wirklich bedeutet.
Warum vergleichen statt glauben?
Im Netz streiten sich Menschen, welches Modell «das beste» ist. Die ehrliche Antwort: Es hängt von der Aufgabe, der Sprache und deinem Gerät ab — und du kannst das selbst messen, in einer Dreiviertelstunde. Genau das machst du jetzt. Der Testablauf, den du dabei lernst, begleitet dich durch den ganzen Kurs: Er ist dein Werkzeug gegen Marketing und Halluzinations-Hörensagen.
Schritt 1: Ein zweites Modell holen
Du hast ein Modell der 3–4B-Klasse aus Mission 1. Lade jetzt einen Konkurrenten derselben Klasse einer anderen Modellfamilie (Kandidaten und die Q4-Regel: siehe Mission 1, Schritt 2). Beispiel: Hast du Llama 3.2 3B, nimm Qwen3 4B oder Gemma 3 4B — oder umgekehrt.
Erwartetes Ergebnis: In deiner Modellliste liegen zwei Modelle vergleichbarer Grösse aus verschiedenen Familien.
Schritt 2: Der Prüfungsbogen
Beide Modelle bekommen exakt dieselben fünf Aufgaben — jede prüft eine andere Fähigkeit. Öffne für jedes Modell einen frischen Chat (kein Verlauf, der hineinfunkt) und kopiere:
Erkläre einem zehnjährigen Kind in vier Sätzen, was ein Impfstoff macht.
Fasse in drei Stichpunkten zusammen: Die Sitzung vom Dienstag wird auf Donnerstag 14 Uhr verschoben, weil zwei Teilnehmende krank sind. Raum bleibt B12. Bitte die Unterlagen trotzdem bis Mittwochabend einreichen.
Schreibe eine höfliche E-Mail auf Deutsch: Du kündigst dein Zeitungsabo per Ende Monat und bittest um eine Bestätigung.
Anna ist doppelt so alt wie Ben. Zusammen sind sie 36. Wie alt ist Ben? Zeige den Rechenweg.
Nenne drei Fragen, die ich einem Handwerker stellen sollte, bevor ich eine Offerte für ein Badezimmer unterschreibe.
Schritt 3: Bewerten wie ein Profi
Notiere pro Modell und Aufgabe drei Dinge (eine einfache Tabelle auf Papier oder in
KI-Experimente\Notizen genügt):
- Qualität (1–5): Stimmt der Inhalt? Bei Aufgabe 4 zählt nur das korrekte Resultat (Ben ist 12) samt nachvollziehbarem Weg.
- Deutsch (1–5): Klingt es natürlich — oder nach Übersetzungsautomat? Kleine Modelle unterscheiden sich hier oft am deutlichsten.
- Tempo (gefühlt): flüssig / okay / zäh. (Exakt gemessen wird in Mission 3.)
Schritt 4: Speicher im Blick
Öffne während eines Durchlaufs den Task-Manager (Ctrl + Shift + Esc → Leistung → Arbeitsspeicher) und wechsle das Modell: Du siehst, wie beim Laden des einen Modells Speicher belegt und beim Entladen wieder frei wird — die Zahlen aus Kernmodul 2 live. Zwei Modelle gleichzeitig geladen zu lassen kostet entsprechend doppelt — auf 16 GB keine gute Idee.
Schritt 5: Dein Urteil
Zähle die Punkte zusammen und entscheide: Welches Modell ist ab jetzt dein Standard? Das andere darfst du behalten (Zweitmeinung!) oder löschen (Rücksetzweg: Modell in der Modellliste löschen — gibt sofort ~2 GB frei).
Halte im Notizordner fest: «Mein Standard ist X, weil …» — dieser eine Satz ist das wertvollste Ergebnis der Mission. Du hast jetzt etwas, das die wenigsten KI-Nutzer haben: eine selbst gemessene Begründung.
Fehlerbehebung
- Beide Modelle wirken gleich gut: Glückwunsch — dann entscheide nach Tempo und Deutsch. Unterschiede werden bei schwierigeren Aufgaben (Kernmodul 3) deutlicher.
- Ein Modell antwortet auf Englisch: Ergänze die Aufgabe um «Antworte auf Deutsch.» Merkt es sich das nicht, ist das ein legitimer Minuspunkt in der Deutsch-Spalte.
- Zu wenig Speicherplatz: Erst das Mission-1-Modell behalten, den Konkurrenten testen, danach eines der beiden löschen.
Kurz geprüft
3 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich vergleiche Modelle fair: gleiche Aufgaben, frischer Chat, mehrere Kriterien, Wiederholung.
- Ich habe die Speicherwirkung des Modell-Ladens live beobachtet.
- Ich habe einen begründeten Standard gewählt — und weiss, warum «bestes Modell» ohne Kontext eine leere Aussage ist.