Lokale KI lernen · Kernmodul 5
Eigene Dokumente, Wissen und RAG
Dein Wissen für die KI nutzbar machen — lokal.
Stand: 4. Juli 2026
Lektion 1: RAG verstehen: Wie deine Dokumente zur Wissensquelle werden
Das Problem, das RAG löst
Dein Modell kennt deine Unterlagen nicht — sie waren nie im Training. Alles in den Kontext werfen? Bei einem Ordner voller PDFs scheitert das an Grösse, Tempo und der «Lost in the Middle»-Schwäche (Kontext-Rechner!). RAG löst das mit einem Bibliothekars-Trick: erst die richtigen Seiten heraussuchen, dann antworten.
Die Pipeline in vier Stationen
- Zerlegen (Chunking): Dokumente werden in handliche Abschnitte geschnitten («Chunks», oft wenige hundert Tokens, leicht überlappend, damit an den Schnittkanten kein Sinn verloren geht).
- Einbetten: Ein Embedding-Modell verwandelt jeden Chunk in einen Zahlenvektor, der die Bedeutung trägt. Gespeichert wird das in einer Vektordatenbank — einem Speicher, der «Was liegt in der Nähe dieses Vektors?» extrem schnell beantwortet.
- Suchen (semantische Suche): Deine Frage wird ebenfalls eingebettet; die Datenbank liefert die bedeutungsähnlichsten Chunks — auch wenn kein einziges Wort übereinstimmt («Zahnarztrechnung» findet «offener Betrag Dentalklinik»).
- Antworten: Frage plus Fundstellen wandern gemeinsam ins Kontextfenster; das Modell formuliert die Antwort aus den Fundstellen — und kann sie als Quellen nennen.
RAG, langer Kontext oder Fine-Tuning?
Drei Wege, einem Modell «dein Wissen» zu geben — mit klaren Einsatzgebieten:
| Ansatz | Gut für | Grenzen |
|---|---|---|
| Langer Kontext (Datei einfach anhängen) | einzelne, überschaubare Dokumente | Speicher/Tempo; Übersehen in der Mitte |
| RAG | viele/grosse Dokumente, wechselnder Bestand, Quellenangaben | Aufwand für gute Zerlegung und Suche |
| Fine-Tuning / LoRA | Stil, Ton, Fachsprache dauerhaft einprägen | lernt Verhalten, ist aber der falsche Weg für nachschlagbares Wissen; Aufwand |
LoRA (Low-Rank Adaptation) sei kurz eingeordnet: ein Sparverfahren, das beim Nachtrainieren nur kleine Zusatzmatrizen lernt statt aller Parameter — so wird Fine-Tuning auch auf bescheidener Hardware denkbar (QLoRA: dasselbe auf quantisierten Modellen). Für «meine Dokumente befragen» bleibt RAG trotzdem die richtige Wahl: Wissen ändert sich, Quellen sollen zitierbar sein — beides kann Fine-Tuning nicht.
Vertiefung: Was ist mit «Memory»?
Assistenten mit «Gedächtnis» speichern Fakten über dich (Vorlieben, Projekte) und spielen sie künftigen Gesprächen zu — technisch meist ein Mini-RAG über den eigenen Notizen oder schlicht ein wachsender Systemprompt. Es ist Komfort, kein neues Verfahren: Auch Memory muss ins Kontextfenster passen und kann veralten. Bei Agenten (ab Kernmodul 6) wird Memory wichtig — und bekommt dort klare Regeln.
Kurz geprüft
3 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich erkläre die RAG-Pipeline in vier Stationen und weiss, dass die Suchqualität entscheidet.
- Ich wähle begründet zwischen langem Kontext, RAG und Fine-Tuning/LoRA.
- Ich kann «Memory» einordnen — Komfortfunktion mit Kontextfenster-Grenzen.
Nächster Schritt: In Mission 4 hast du das praktisch erlebt — die Lektion «Deinen Wissensassistenten pflegen» macht ihn verlässlich.
Lektion 2: Deinen Wissensassistenten verlässlich machen
Vom Experiment zum Werkzeug
Mission 4 hat funktioniert — jetzt kommt die Frage, die über den Dauereinsatz entscheidet: Wie verhindere ich, dass mein Assistent mich selbstbewusst anlügt? Die Antwort sind vier Betriebsregeln. Sie gelten für jedes RAG-Werkzeug, von LM Studio bis zu den Spezialisten wie AnythingLLM oder GPT4All.
Regel 1: Quellenpflicht im Systemprompt
Verankere die Quellenpflicht dauerhaft (Baustein für deine systemprompts.md aus
KM4):
Antworte nur auf Grundlage der bereitgestellten Dokumente. Nenne zu jeder Aussage die Fundstelle (Dokumentname, wenn möglich Abschnitt). Wenn die Dokumente eine Frage nicht beantworten, sage genau das — ergänze fehlendes Wissen nicht aus deinem Gedächtnis, ausser ich bitte ausdrücklich darum.
Der letzte Halbsatz ist der wichtigste: Er zieht die Grenze zwischen «steht in meinen Unterlagen» und «meint das Modell» — die zwei Wissenssorten, die du nie vermischen willst.
Regel 2: Unsicherheit sichtbar machen
Ergänze: «Wenn Fundstellen einander widersprechen oder unvollständig wirken, weise ausdrücklich darauf hin.» Ein guter Assistent sagt «Dokument A nennt 30 Tage, Dokument B 14 — bitte prüfen» statt stillschweigend eines auszuwählen. Teste das mit zwei absichtlich widersprüchlichen Textdateien — ein Fünf-Minuten-Experiment, das dir zeigt, wie dein Werkzeug mit Konflikten umgeht.
Regel 3: Dokumentenhygiene
Die Suche findet, was da ist — auch Veraltetes. Deshalb:
- Ein Wissensordner, bewusst befüllt. Nicht «alles rein»: Jedes zusätzliche irrelevante Dokument verwässert die Suche.
- Veraltetes raus oder markieren. Alte Versionen löschen oder mit Präfix (
ALT_...) kennzeichnen und den Assistenten anweisen, solche Dateien zu ignorieren. - Sprechende Dateinamen (
Mietvertrag_Musterstrasse_2024.pdfstattscan_final2.pdf) — sie sind oft Teil der Metadaten, die die Suche und die Quellenangabe nutzt. - Gescannte PDFs prüfen: ohne Textebene (OCR) sind sie für RAG unsichtbar — der Markiertest aus Mission 4.
Regel 4: Aktualisierungsroutine
Wissensbestände leben. Lege einen einfachen Rhythmus fest: Neue Dokumente in den Wissensordner → Index des Werkzeugs aktualisieren (je nach Programm automatisch beim Anhängen oder per «Re-Index») → eine Stichprobenfrage zu den neuen Inhalten. Drei Minuten, die verhindern, dass du wochenlang gegen einen veralteten Index fragst.
Vertiefung: Wann lohnt ein RAG-Spezialwerkzeug?
Der Dokumenten-Chat in LM Studio ist für Einzeldokumente und schnelle Fragen gebaut. Spezialisten wie AnythingLLM oder GPT4All verwalten dauerhafte Wissensräume: ganze Ordner, getrennte Themenbereiche, einstellbare Embedding-Modelle, sichtbare Fundstellen. Wechsle, wenn du regelmässig denselben Bestand befragst — die Betriebsregeln dieser Lektion nimmst du unverändert mit. (Werkzeugprofile: Technologiekatalog.)
Kurz geprüft
3 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich verankere Quellenpflicht und Unsicherheitsmarkierung im Systemprompt.
- Ich halte meinen Wissensordner sauber: bewusst befüllt, Veraltetes markiert, Scans mit OCR.
- Ich habe eine Aktualisierungsroutine — und weiss, dass RAG findet, nicht prüft.
Nächster Schritt: Kernmodul 6 — vom Assistenten, der antwortet, zum Agenten, der handelt.