RAG verstehen: Wie deine Dokumente zur Wissensquelle werden
Chunking, Embeddings, Vektorsuche — die Maschinerie hinter «Chat mit meinen Dateien», verständlich erklärt. Und wann langer Kontext oder Fine-Tuning die bessere Wahl wäre.
Das Problem, das RAG löst
Dein Modell kennt deine Unterlagen nicht — sie waren nie im Training. Alles in den Kontext werfen? Bei einem Ordner voller PDFs scheitert das an Grösse, Tempo und der «Lost in the Middle»-Schwäche (Kontext-Rechner!). RAG löst das mit einem Bibliothekars-Trick: erst die richtigen Seiten heraussuchen, dann antworten.
Die Pipeline in vier Stationen
- Zerlegen (Chunking): Dokumente werden in handliche Abschnitte geschnitten («Chunks», oft wenige hundert Tokens, leicht überlappend, damit an den Schnittkanten kein Sinn verloren geht).
- Einbetten: Ein Embedding-Modell verwandelt jeden Chunk in einen Zahlenvektor, der die Bedeutung trägt. Gespeichert wird das in einer Vektordatenbank — einem Speicher, der «Was liegt in der Nähe dieses Vektors?» extrem schnell beantwortet.
- Suchen (semantische Suche): Deine Frage wird ebenfalls eingebettet; die Datenbank liefert die bedeutungsähnlichsten Chunks — auch wenn kein einziges Wort übereinstimmt («Zahnarztrechnung» findet «offener Betrag Dentalklinik»).
- Antworten: Frage plus Fundstellen wandern gemeinsam ins Kontextfenster; das Modell formuliert die Antwort aus den Fundstellen — und kann sie als Quellen nennen.
RAG, langer Kontext oder Fine-Tuning?
Drei Wege, einem Modell «dein Wissen» zu geben — mit klaren Einsatzgebieten:
| Ansatz | Gut für | Grenzen |
|---|---|---|
| Langer Kontext (Datei einfach anhängen) | einzelne, überschaubare Dokumente | Speicher/Tempo; Übersehen in der Mitte |
| RAG | viele/grosse Dokumente, wechselnder Bestand, Quellenangaben | Aufwand für gute Zerlegung und Suche |
| Fine-Tuning / LoRA | Stil, Ton, Fachsprache dauerhaft einprägen | lernt Verhalten, ist aber der falsche Weg für nachschlagbares Wissen; Aufwand |
LoRA (Low-Rank Adaptation) sei kurz eingeordnet: ein Sparverfahren, das beim Nachtrainieren nur kleine Zusatzmatrizen lernt statt aller Parameter — so wird Fine-Tuning auch auf bescheidener Hardware denkbar (QLoRA: dasselbe auf quantisierten Modellen). Für «meine Dokumente befragen» bleibt RAG trotzdem die richtige Wahl: Wissen ändert sich, Quellen sollen zitierbar sein — beides kann Fine-Tuning nicht.
Vertiefung: Was ist mit «Memory»?
Assistenten mit «Gedächtnis» speichern Fakten über dich (Vorlieben, Projekte) und spielen sie künftigen Gesprächen zu — technisch meist ein Mini-RAG über den eigenen Notizen oder schlicht ein wachsender Systemprompt. Es ist Komfort, kein neues Verfahren: Auch Memory muss ins Kontextfenster passen und kann veralten. Bei Agenten (ab Kernmodul 6) wird Memory wichtig — und bekommt dort klare Regeln.
Kurz geprüft
3 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich erkläre die RAG-Pipeline in vier Stationen und weiss, dass die Suchqualität entscheidet.
- Ich wähle begründet zwischen langem Kontext, RAG und Fine-Tuning/LoRA.
- Ich kann «Memory» einordnen — Komfortfunktion mit Kontextfenster-Grenzen.
Nächster Schritt: In Mission 4 hast du das praktisch erlebt — die Lektion «Deinen Wissensassistenten pflegen» macht ihn verlässlich.