Labor 9 · freiwillig

Multi-Agenten und Modellrouting

Mehrere Spezialmodelle zusammenschalten: ein kleines sortiert, ein grosses entscheidet. Du probierst Routing praktisch aus — und lernst, wann das alles unnötige Komplexität ist.

Dauer: ca. 75 Minuten
Lernziel: Du hast ein Zweistufen-Routing (kleines Modell sortiert, grosses entscheidet) selbst durchgespielt und kannst begründen, wann Multi-Modell-Aufbauten lohnen — und wann nicht.
Voraussetzungen: KM6 (Agentenschleife, Stufenregel) · KM3 (Modellwahl) · zwei installierte Modelle verschiedener Grösse (Mission 2)
Kosten: CHF 0 — läuft mit deinen vorhandenen Modellen
Lernwert: ★★★★☆ (4 von 5)
Spassfaktor: ★★★★☆ (4 von 5)

Das Experiment

KM6 endet mit einer Warnung: Multi-Agenten sind mächtig und um Grössenordnungen schwerer zu beherrschen. Dieses Labor löst das Versprechen von damals ein — du erlebst beide Seiten selbst. Kernidee Modellrouting: Nicht jede Teilaufgabe verdient das grösste Modell. Ein kleines, schnelles Modell übernimmt das Sortieren, das grosse, langsame nur die Fälle, die es wirklich braucht — dasselbe Prinzip wie Triage am Spitalempfang: Die erfahrene Ärztin sieht nur, wen die Pflege ihr zuweist.

Warum überhaupt mehrere Modelle?

Aus KM1 kennst du die Spezialisten: Sprach-, Vision-, Embedding-Modelle. Aus KM2/KM3 weisst du: Gross heisst langsam und speicherhungrig. Routing verbindet beides:

Teilaufgabe	Passendes Modell	Warum
Klassifizieren, Sortieren, Filtern	klein (1–4B)	einfache Muster, hohes Volumen — Tempo zählt
Schwierige Entscheidung, langer Text	gross (7B+)	Qualität zählt, kommt selten vor
«Was ist auf dem Bild?»	Vision-Modell	Spezialfähigkeit, durch Grösse nicht ersetzbar
Ähnliches wiederfinden	Embedding-Modell	die RAG-Maschinerie aus KM5

Genau so arbeiten übrigens auch professionelle Systeme: Der Router entscheidet zuerst, welches Modell antwortet (Grundprinzip; konkrete Produkte ändern sich schnell — Kategorien im Technologiekatalog).

Teil 1: Routing von Hand erleben (ca. 40 Min.)

Du spielst den Router selbst — mit deinen zwei Modellen aus Mission 2 (ein kleines, ein grösseres). Aufgabe: zehn kurze Kundennachrichten sortieren und beantworten.

Testdaten anlegen: Schreibe zehn fiktive Nachrichten in eine Textdatei — acht simple (Öffnungszeiten, Adressänderung, Danke) und zwei heikle (verärgerte Reklamation mit Rechtsdrohung, unklares Anliegen mit Widersprüchen). Fiktiv heisst: keine echten Namen.
Stufe 1 — das kleine Modell klassifiziert. Frischer Chat mit dem kleinen Modell, Systemprompt:

Du bist ein Sortierer. Antworte pro Nachricht mit genau einem Wort: EINFACH (Standardanliegen, kurze Antwort reicht) oder SCHWIERIG (Reklamation, Rechtsfragen, Unklares, Emotionales). Keine Begründung.

Füttere die zehn Nachrichten einzeln ein und notiere die Einstufung. Miss nebenbei die Antwortzeit gefühlt mit — das kleine Modell sollte praktisch sofort reagieren (Mission-3-Blick: Tokens pro Sekunde). 3. Stufe 2 — das grosse Modell übernimmt nur SCHWIERIG. Für die als SCHWIERIG markierten Nachrichten wechselst du in einen Chat mit dem grossen Modell und lässt eine sorgfältige Antwort entwerfen. 4. Kontrollpunkt: Vergleiche mit deiner eigenen Einschätzung. Wie viele der zehn hat das kleine Modell richtig einsortiert? Ein einzelner Fehler ist normal — merken: Der Router ist die kritischste Stelle im System. Sortiert er falsch, bekommt die Rechtsdrohung eine Standardantwort.

Teil 2: Dasselbe als Multi-Agenten-Muster gedacht (ca. 20 Min.)

Was du eben von Hand getan hast, ist das Lehrbuchmuster Dispatcher → Spezialist. Weitere verbreitete Muster, jeweils mit derselben Frage «Was passiert, wenn Stufe 1 irrt?»:

Kette (Pipeline): Rechercheur → Schreiber → Prüfer. Stark für Fliessbandarbeit; Fehler der ersten Station fliessen ungebremst weiter.
Kritiker-Duo: Einer erzeugt, einer prüft dagegen. Hebt die Qualität messbar — verdoppelt aber Laufzeit und Speicherbedarf (zwei Modelle gleichzeitig: KM2-Speicherfrage!).
Lokal/Cloud-Routing: Alltägliches lokal, Heikles bewusst nie in die Cloud — oder umgekehrt Grosses in die Cloud, Privates lokal. Die Abwägungskriterien kennst du aus Lokal oder Cloud?; neu ist nur, dass ein Router sie pro Anfrage anwendet.

Skizziere dein Nachrichten-System aus Teil 1 einmal im Agenten-Architektur-Planer: Der Router ist dort schlicht ein weiteres Werkzeug mit eigenen Berechtigungen — und denselben Sicherheitsfragen wie in KM8: Was darf die Stufe 2 automatisch, wo braucht es deine Freigabe?

Wann lohnt es sich — und wann nicht?

Die KM6-Stufenregel gilt weiter: die niedrigste ausreichende Stufe. Routing lohnt, wenn alle drei Punkte zutreffen:

Hohes Volumen an einfachen Fällen (sonst kann gleich das grosse Modell alles machen),
messbarer Unterschied zwischen kleinem und grossem Modell auf den schweren Fällen (dein Mission-2-Prüfungsbogen!),
erträgliche Folgen eines Router-Fehlers — oder eine Freigabe-Schranke davor.

Fehlt einer, ist die klügere Architektur fast immer: ein gutes Modell, sauber konfiguriert. Das ist keine Niederlage, sondern das Kursprinzip «Übererfüllung ist kein Qualitätsmerkmal» in Aktion.

Vertiefung: Warum nicht einfach das grosse Modell alles fragen?

Weil die Kosten nicht linear sind: Auf einem 16-GB-Gerät bedeutet «das grosse Modell für alles» oft, dass es gar nicht dauerhaft geladen bleiben kann, sobald noch anderes läuft (KM2). Das kleine Modell hält den Alltag flüssig und lässt dem grossen den Speicherplatz für seinen seltenen Auftritt. Auf einer Workstation mit viel VRAM kehrt sich das Argument um — dort ist Routing häufig tatsächlich überflüssig. Architektur folgt Hardware.

Risiken

Falsch-Sortierung: Der Router ist ein kleines Modell mit allen Schwächen kleiner Modelle. Kritische Kategorien (Recht, Geld, Gesundheit) gehören nie hinter einen ungeprüften Router.
Speicher-Überbuchung: Zwei geladene Modelle können ein 16-GB-Gerät ins Auslagern zwingen — dann ist das «schnelle» System langsamer als ein einzelnes Modell (KM2-Offloading).
Schein-Professionalität: Ein komplexes Diagramm fühlt sich nach Fortschritt an. Miss stattdessen: Ist das Ergebnis besser als mit einem Modell? Wenn nein — zurückbauen.

Erweiterungen

Automatisieren: Baue den Handrouter aus Teil 1 in deinen Mission-5-Agenten ein — die Klassifikationsfrage ist ein zweiter API-Aufruf mit anderem Systemprompt (KM4: lokale API).
Vision dazu: Ein Vision-Modell beschreibt eingehende Bilder, der Text-Router sortiert die Beschreibung — praktisch aufgebaut in Labor 4.
Embedding-Routing: Statt eines Sprachmodells entscheidet Ähnlichkeitssuche (KM5), in welche Schublade eine Nachricht gehört — schneller, aber starrer.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Wozu das kleine Modell, wenn das grosse doch alles besser kann?

Die gefährlichste Stelle im Zweistufen-System ist …

Wann ist «ein einziges gutes Modell» die bessere Architektur?

Das kann ich jetzt

Ich habe ein Zweistufen-Routing mit zwei lokalen Modellen selbst durchgespielt und die Trefferquote des Routers geprüft.
Ich kenne die gängigen Multi-Agenten-Muster (Dispatcher, Kette, Kritiker-Duo, Lokal/Cloud-Routing) samt ihrer gemeinsamen Schwachstelle: der stillen Fehlentscheidung einer frühen Stufe.
Ich entscheide mit drei klaren Bedingungen, ob sich Mehrstufigkeit lohnt — und baue zurück, wenn sie nichts messbar verbessert.