Zum Inhalt springen
Lokale KI lernen
Modul 5: Erklärlektion

RAG verstehen: Wie deine Dokumente zur Wissensquelle werden

Chunking, Embeddings, Vektorsuche — die Maschinerie hinter «Chat mit meinen Dateien», verständlich erklärt. Und wann langer Kontext oder Fine-Tuning die bessere Wahl wäre.

Dauer
ca. 30 Minuten
Lernziel
Du kannst die RAG-Pipeline (Zerlegen, Einbetten, Suchen, Antworten) erklären und RAG gegen langen Kontext und Fine-Tuning abgrenzen.
Voraussetzungen
Kernmodul 1 · ideal: Mission 4

Das Problem, das RAG löst

Dein Modell kennt deine Unterlagen nicht — sie waren nie im Training. Alles in den Kontext werfen? Bei einem Ordner voller PDFs scheitert das an Grösse, Tempo und der «Lost in the Middle»-Schwäche (Kontext-Rechner!). RAG löst das mit einem Bibliothekars-Trick: erst die richtigen Seiten heraussuchen, dann antworten.

Die Pipeline in vier Stationen

1 · ZerlegenDokumente → Chunks2 · EinbettenChunk → Zahlenvektor3 · Suchenähnlichste Chunks4 · AntwortenFrage + Fundstellen → LLM
Die RAG-Pipeline: zerlegen, einbetten, suchen, antworten — Station 1–2 einmalig pro Dokument, Station 3–4 bei jeder Frage.
  1. Zerlegen (Chunking): Dokumente werden in handliche Abschnitte geschnitten («Chunks», oft wenige hundert Tokens, leicht überlappend, damit an den Schnittkanten kein Sinn verloren geht).
  2. Einbetten: Ein Embedding-Modell verwandelt jeden Chunk in einen Zahlenvektor, der die Bedeutung trägt. Gespeichert wird das in einer Vektordatenbank — einem Speicher, der «Was liegt in der Nähe dieses Vektors?» extrem schnell beantwortet.
  3. Suchen (semantische Suche): Deine Frage wird ebenfalls eingebettet; die Datenbank liefert die bedeutungsähnlichsten Chunks — auch wenn kein einziges Wort übereinstimmt («Zahnarztrechnung» findet «offener Betrag Dentalklinik»).
  4. Antworten: Frage plus Fundstellen wandern gemeinsam ins Kontextfenster; das Modell formuliert die Antwort aus den Fundstellen — und kann sie als Quellen nennen.

RAG, langer Kontext oder Fine-Tuning?

Drei Wege, einem Modell «dein Wissen» zu geben — mit klaren Einsatzgebieten:

Ansatz Gut für Grenzen
Langer Kontext (Datei einfach anhängen) einzelne, überschaubare Dokumente Speicher/Tempo; Übersehen in der Mitte
RAG viele/grosse Dokumente, wechselnder Bestand, Quellenangaben Aufwand für gute Zerlegung und Suche
Fine-Tuning / LoRA Stil, Ton, Fachsprache dauerhaft einprägen lernt Verhalten, ist aber der falsche Weg für nachschlagbares Wissen; Aufwand

LoRA (Low-Rank Adaptation) sei kurz eingeordnet: ein Sparverfahren, das beim Nachtrainieren nur kleine Zusatzmatrizen lernt statt aller Parameter — so wird Fine-Tuning auch auf bescheidener Hardware denkbar (QLoRA: dasselbe auf quantisierten Modellen). Für «meine Dokumente befragen» bleibt RAG trotzdem die richtige Wahl: Wissen ändert sich, Quellen sollen zitierbar sein — beides kann Fine-Tuning nicht.

Vertiefung: Was ist mit «Memory»?

Assistenten mit «Gedächtnis» speichern Fakten über dich (Vorlieben, Projekte) und spielen sie künftigen Gesprächen zu — technisch meist ein Mini-RAG über den eigenen Notizen oder schlicht ein wachsender Systemprompt. Es ist Komfort, kein neues Verfahren: Auch Memory muss ins Kontextfenster passen und kann veralten. Bei Agenten (ab Kernmodul 6) wird Memory wichtig — und bekommt dort klare Regeln.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Dein RAG-Assistent findet eine Info nicht, die nachweislich im PDF steht. Wo suchst du den Fehler zuerst?
Warum findet semantische Suche «Dentalklinik, offener Betrag» zur Frage nach der «Zahnarztrechnung»?
Du willst, dass dein Assistent dauerhaft in deinem Schreibstil formuliert. Welcher Ansatz passt?

Das kann ich jetzt

  • Ich erkläre die RAG-Pipeline in vier Stationen und weiss, dass die Suchqualität entscheidet.
  • Ich wähle begründet zwischen langem Kontext, RAG und Fine-Tuning/LoRA.
  • Ich kann «Memory» einordnen — Komfortfunktion mit Kontextfenster-Grenzen.

Nächster Schritt: In Mission 4 hast du das praktisch erlebt — die Lektion «Deinen Wissensassistenten pflegen» macht ihn verlässlich.