Lokale KI lernen · Kernmodul 5

Eigene Dokumente, Wissen und RAG

Dein Wissen für die KI nutzbar machen — lokal.

Stand: 4. Juli 2026

Lektion 1: RAG verstehen: Wie deine Dokumente zur Wissensquelle werden

Erklärlektion· ca. 30 Minuten · Lernziel: Du kannst die RAG-Pipeline (Zerlegen, Einbetten, Suchen, Antworten) erklären und RAG gegen langen Kontext und Fine-Tuning abgrenzen.

Das Problem, das RAG löst

Dein Modell kennt deine Unterlagen nicht — sie waren nie im Training. Alles in den Kontext werfen? Bei einem Ordner voller PDFs scheitert das an Grösse, Tempo und der «Lost in the Middle»-Schwäche (Kontext-Rechner!). RAG löst das mit einem Bibliothekars-Trick: erst die richtigen Seiten heraussuchen, dann antworten.

Die Pipeline in vier Stationen

Die RAG-Pipeline: zerlegen, einbetten, suchen, antworten — Station 1–2 einmalig pro Dokument, Station 3–4 bei jeder Frage.

Zerlegen (Chunking): Dokumente werden in handliche Abschnitte geschnitten («Chunks», oft wenige hundert Tokens, leicht überlappend, damit an den Schnittkanten kein Sinn verloren geht).
Einbetten: Ein Embedding-Modell verwandelt jeden Chunk in einen Zahlenvektor, der die Bedeutung trägt. Gespeichert wird das in einer Vektordatenbank — einem Speicher, der «Was liegt in der Nähe dieses Vektors?» extrem schnell beantwortet.
Suchen (semantische Suche): Deine Frage wird ebenfalls eingebettet; die Datenbank liefert die bedeutungsähnlichsten Chunks — auch wenn kein einziges Wort übereinstimmt («Zahnarztrechnung» findet «offener Betrag Dentalklinik»).
Antworten: Frage plus Fundstellen wandern gemeinsam ins Kontextfenster; das Modell formuliert die Antwort aus den Fundstellen — und kann sie als Quellen nennen.

RAG, langer Kontext oder Fine-Tuning?

Drei Wege, einem Modell «dein Wissen» zu geben — mit klaren Einsatzgebieten:

Ansatz	Gut für	Grenzen
Langer Kontext (Datei einfach anhängen)	einzelne, überschaubare Dokumente	Speicher/Tempo; Übersehen in der Mitte
RAG	viele/grosse Dokumente, wechselnder Bestand, Quellenangaben	Aufwand für gute Zerlegung und Suche
Fine-Tuning / LoRA	Stil, Ton, Fachsprache dauerhaft einprägen	lernt Verhalten, ist aber der falsche Weg für nachschlagbares Wissen; Aufwand

LoRA (Low-Rank Adaptation) sei kurz eingeordnet: ein Sparverfahren, das beim Nachtrainieren nur kleine Zusatzmatrizen lernt statt aller Parameter — so wird Fine-Tuning auch auf bescheidener Hardware denkbar (QLoRA: dasselbe auf quantisierten Modellen). Für «meine Dokumente befragen» bleibt RAG trotzdem die richtige Wahl: Wissen ändert sich, Quellen sollen zitierbar sein — beides kann Fine-Tuning nicht.

Vertiefung: Was ist mit «Memory»?

Assistenten mit «Gedächtnis» speichern Fakten über dich (Vorlieben, Projekte) und spielen sie künftigen Gesprächen zu — technisch meist ein Mini-RAG über den eigenen Notizen oder schlicht ein wachsender Systemprompt. Es ist Komfort, kein neues Verfahren: Auch Memory muss ins Kontextfenster passen und kann veralten. Bei Agenten (ab Kernmodul 6) wird Memory wichtig — und bekommt dort klare Regeln.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Dein RAG-Assistent findet eine Info nicht, die nachweislich im PDF steht. Wo suchst du den Fehler zuerst?

Warum findet semantische Suche «Dentalklinik, offener Betrag» zur Frage nach der «Zahnarztrechnung»?

Du willst, dass dein Assistent dauerhaft in deinem Schreibstil formuliert. Welcher Ansatz passt?

Das kann ich jetzt

Ich erkläre die RAG-Pipeline in vier Stationen und weiss, dass die Suchqualität entscheidet.
Ich wähle begründet zwischen langem Kontext, RAG und Fine-Tuning/LoRA.
Ich kann «Memory» einordnen — Komfortfunktion mit Kontextfenster-Grenzen.

Nächster Schritt: In Mission 4 hast du das praktisch erlebt — die Lektion «Deinen Wissensassistenten pflegen» macht ihn verlässlich.

Lektion 2: Deinen Wissensassistenten verlässlich machen

Entscheidungslektion· ca. 25 Minuten · Lernziel: Du legst Betriebsregeln für deinen lokalen Wissensassistenten fest: Quellenpflicht, Unsicherheitsmarkierung, Aktualisierungsroutine und Dokumentenhygiene.

Vom Experiment zum Werkzeug

Mission 4 hat funktioniert — jetzt kommt die Frage, die über den Dauereinsatz entscheidet: Wie verhindere ich, dass mein Assistent mich selbstbewusst anlügt? Die Antwort sind vier Betriebsregeln. Sie gelten für jedes RAG-Werkzeug, von LM Studio bis zu den Spezialisten wie AnythingLLM oder GPT4All.

Regel 1: Quellenpflicht im Systemprompt

Verankere die Quellenpflicht dauerhaft (Baustein für deine systemprompts.md aus KM4):

Antworte nur auf Grundlage der bereitgestellten Dokumente. Nenne zu jeder Aussage die Fundstelle (Dokumentname, wenn möglich Abschnitt). Wenn die Dokumente eine Frage nicht beantworten, sage genau das — ergänze fehlendes Wissen nicht aus deinem Gedächtnis, ausser ich bitte ausdrücklich darum.

Der letzte Halbsatz ist der wichtigste: Er zieht die Grenze zwischen «steht in meinen Unterlagen» und «meint das Modell» — die zwei Wissenssorten, die du nie vermischen willst.

Regel 2: Unsicherheit sichtbar machen

Ergänze: «Wenn Fundstellen einander widersprechen oder unvollständig wirken, weise ausdrücklich darauf hin.» Ein guter Assistent sagt «Dokument A nennt 30 Tage, Dokument B 14 — bitte prüfen» statt stillschweigend eines auszuwählen. Teste das mit zwei absichtlich widersprüchlichen Textdateien — ein Fünf-Minuten-Experiment, das dir zeigt, wie dein Werkzeug mit Konflikten umgeht.

Regel 3: Dokumentenhygiene

Die Suche findet, was da ist — auch Veraltetes. Deshalb:

Ein Wissensordner, bewusst befüllt. Nicht «alles rein»: Jedes zusätzliche irrelevante Dokument verwässert die Suche.
Veraltetes raus oder markieren. Alte Versionen löschen oder mit Präfix (ALT_...) kennzeichnen und den Assistenten anweisen, solche Dateien zu ignorieren.
Sprechende Dateinamen (Mietvertrag_Musterstrasse_2024.pdf statt scan_final2.pdf) — sie sind oft Teil der Metadaten, die die Suche und die Quellenangabe nutzt.
Gescannte PDFs prüfen: ohne Textebene (OCR) sind sie für RAG unsichtbar — der Markiertest aus Mission 4.

Regel 4: Aktualisierungsroutine

Wissensbestände leben. Lege einen einfachen Rhythmus fest: Neue Dokumente in den Wissensordner → Index des Werkzeugs aktualisieren (je nach Programm automatisch beim Anhängen oder per «Re-Index») → eine Stichprobenfrage zu den neuen Inhalten. Drei Minuten, die verhindern, dass du wochenlang gegen einen veralteten Index fragst.

Vertiefung: Wann lohnt ein RAG-Spezialwerkzeug?

Der Dokumenten-Chat in LM Studio ist für Einzeldokumente und schnelle Fragen gebaut. Spezialisten wie AnythingLLM oder GPT4All verwalten dauerhafte Wissensräume: ganze Ordner, getrennte Themenbereiche, einstellbare Embedding-Modelle, sichtbare Fundstellen. Wechsle, wenn du regelmässig denselben Bestand befragst — die Betriebsregeln dieser Lektion nimmst du unverändert mit. (Werkzeugprofile: Technologiekatalog.)

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Dein Assistent beantwortet eine Frage, obwohl deine Dokumente dazu nichts enthalten. Welche Regel greift?

Zwei Dokumentversionen nennen verschiedene Kündigungsfristen. Was soll der Assistent tun?

Warum verschlechtert «einfach alles in den Wissensordner» die Antworten?

Das kann ich jetzt

Ich verankere Quellenpflicht und Unsicherheitsmarkierung im Systemprompt.
Ich halte meinen Wissensordner sauber: bewusst befüllt, Veraltetes markiert, Scans mit OCR.
Ich habe eine Aktualisierungsroutine — und weiss, dass RAG findet, nicht prüft.

Nächster Schritt: Kernmodul 6 — vom Assistenten, der antwortet, zum Agenten, der handelt.

Druckansicht: Eigene Dokumente, Wissen und RAG

Lektion 1: RAG verstehen: Wie deine Dokumente zur Wissensquelle werden

Das Problem, das RAG löst

Die Pipeline in vier Stationen

RAG, langer Kontext oder Fine-Tuning?

Kurz geprüft

Das kann ich jetzt

Lektion 2: Deinen Wissensassistenten verlässlich machen

Vom Experiment zum Werkzeug

Regel 1: Quellenpflicht im Systemprompt

Regel 2: Unsicherheit sichtbar machen

Regel 3: Dokumentenhygiene

Regel 4: Aktualisierungsroutine

Kurz geprüft

Das kann ich jetzt