Glossar
Jeder Fachbegriff des Kurses wird genau einmal ausführlich erklärt — hier findest du alle Erklärungen gesammelt. Lektionen verlinken direkt auf diese Einträge.
Agent
Ein KI-System, das nicht nur antwortet, sondern selbstständig Schritte plant und Werkzeuge benutzt, um ein Ziel zu erreichen.
Ein Chatbot beantwortet Fragen. Ein Agent bekommt eine Aufgabe («Fasse alle neuen Dateien in diesem Ordner zusammen»), zerlegt sie in Schritte, benutzt dafür Tools — etwa Dateizugriff oder eine Websuche — prüft die Zwischenergebnisse und arbeitet weiter, bis die Aufgabe erledigt ist.
Diese Selbstständigkeit macht Agenten nützlich und zugleich riskant: Ein Agent, der Dateien schreiben darf, kann auch Fehler machen. Deshalb gehören zu jedem Agentenprojekt in diesem Kurs minimale Berechtigungen, Protokolle und ein Not-Aus.
Verwandt: sprachmodell · tool
API
Eine Programmierschnittstelle — die «Steckdose», über die Programme einander Funktionen anbieten.
API steht für englisch Application Programming Interface. Über eine API kann ein Programm ein anderes nutzen, ohne dessen Oberfläche zu bedienen: Dein Agent fragt die lokale KI über deren API an, ein Wetterdienst liefert Daten über seine API.
Im Kurs begegnet dir vor allem die lokale API deines KI-Programms (siehe Kernmodul 4): Sie läuft auf
localhost, verlässt dein Gerät nicht und macht deine lokale KI für andere Programme nutzbar — die Grundlage jedes Agenten.Embedding
Die Umwandlung von Text in einen Zahlenvektor, der die Bedeutung erfasst — Grundlage der semantischen Suche.
Ein Embedding-Modell verwandelt einen Text in eine lange Zahlenreihe (einen Vektor). Der Clou: Inhaltlich ähnliche Texte bekommen ähnliche Zahlenreihen — «Rechnung vom Zahnarzt» und «Dentalklinik, offener Betrag» landen nahe beieinander, obwohl kein Wort übereinstimmt.
So findet die Dokumentensuche in RAG-Systemen passende Stellen nach Bedeutung statt nur nach Stichwörtern. Embedding-Modelle sind klein und laufen problemlos lokal.
Verwandt: rag
Halluzination
Eine überzeugend klingende, aber falsche Aussage eines Sprachmodells — die wichtigste Schwäche, die du kennen musst.
Ein Sprachmodell erzeugt Text, der zu den gelernten Mustern passt — es «weiss» nicht im menschlichen Sinn, was wahr ist. Fehlt ihm Wissen, erfindet es mitunter Namen, Zahlen, Quellen oder Programmierbefehle, und zwar im selben selbstbewussten Ton wie bei korrekten Antworten.
Kleinere lokale Modelle halluzinieren tendenziell häufiger als grosse Cloud-Modelle. Die Gegenmittel lernst du im Kurs: kritisches Gegenprüfen wichtiger Angaben, Quellen mitliefern lassen (z. B. per RAG) und Aufgaben so stellen, dass das Modell bei Unsicherheit «weiss nicht» sagen darf.
Verwandt: sprachmodell · rag
Human in the Loop
Das Prinzip, dass ein Mensch kritische Schritte einer Automatisierung freigeben muss, bevor sie ausgeführt werden.
Wörtlich «der Mensch in der Schleife»: Der Agent arbeitet selbstständig, hält aber vor heiklen Aktionen an — E-Mail senden, Datei löschen, etwas kaufen — und wartet auf dein Ja.
Im Kurs ist das keine Option, sondern Grundausstattung: Jedes Agentenprojekt definiert, welche Aktionen freigabepflichtig sind. Die Kunst liegt im Mass — wer alles freigeben muss, schaltet die Freigaben irgendwann genervt ab. Wenige, gut gewählte Freigabepunkte schützen besser als viele lästige.
Inferenz
Das Anwenden eines fertig trainierten Modells — also das, was passiert, wenn du eine Frage stellst und eine Antwort bekommst.
In der KI-Welt gibt es zwei grundverschiedene Vorgänge: Training (das Modell lernt aus riesigen Datenmengen — dauert Wochen und braucht ganze Rechenzentren) und Inferenz (das fertige Modell beantwortet deine Anfrage — dauert Sekunden).
Wenn du lokale KI betreibst, machst du ausschliesslich Inferenz. Das ist die gute Nachricht: Dafür reicht deutlich bescheidenere Hardware als für das Training, das die Modellhersteller bereits erledigt haben.
Verwandt: sprachmodell · training
Kontextfenster
Das «Kurzzeitgedächtnis» eines Sprachmodells — die maximale Textmenge (in Tokens), die es beim Antworten gleichzeitig berücksichtigen kann.
Alles, was das Modell für eine Antwort «vor Augen» hat, muss ins Kontextfenster passen: die Systemanweisung, der bisherige Gesprächsverlauf, eingefügte Dokumente und die entstehende Antwort selbst. Was nicht hineinpasst, existiert für das Modell schlicht nicht.
Typische Grössen reichen von 4’096 Tokens bei älteren kleinen Modellen bis zu über einer Million bei aktuellen Spitzenmodellen. Wichtig: Ein grosses Kontextfenster kostet Arbeitsspeicher und Rechenzeit, und Modelle übersehen Inhalte in der Mitte sehr langer Eingaben häufiger als am Anfang oder Ende. Ausprobieren kannst du das Ganze im Kontext-Rechner.
Verwandt: token · sprachmodell
Lokale KI
KI-Modelle, die vollständig auf deinem eigenen Gerät laufen — ohne dass deine Eingaben ins Internet übertragen werden.
Bei Cloud-KI (etwa ChatGPT im Browser) wird jede Eingabe an Server des Anbieters geschickt und dort verarbeitet. Bei lokaler KI passiert alles auf deinem Rechner: Das Modell liegt als Datei auf deiner Festplatte, die Berechnung übernimmt dein Prozessor oder deine Grafikkarte.
Die wichtigsten Folgen: Deine Daten bleiben bei dir, es funktioniert offline, und es kostet nichts pro Anfrage. Dafür sind lokale Modelle kleiner und meist weniger leistungsfähig als die grossen Cloud-Modelle — für viele Alltagsaufgaben reicht das aber erstaunlich gut.
Verwandt: sprachmodell · inferenz · quantisierung
MCP
Das Model Context Protocol — ein offener Standard, der KI-Modellen Werkzeuge und Datenquellen in einheitlicher Form anbietet.
Bevor es MCP gab, musste jede Werkzeug-Anbindung (Dateien, Kalender, Datenbank …) für jedes KI-Programm neu gebaut werden. MCP (eingeführt von Anthropic, inzwischen breit unterstützt) standardisiert das: Ein MCP-Server bietet Werkzeuge in einheitlicher Form an, jedes MCP-fähige Programm kann sie nutzen — wie ein Norm-Stecker für KI-Werkzeuge.
Für dich heisst das: Ein einmal eingerichteter MCP-Server (etwa für deinen Notizordner) funktioniert in verschiedenen Agenten-Umgebungen. Sicherheit bleibt Thema: Jeder MCP-Server ist ein Stück Software mit genau den Rechten, die du ihm gibst.
Not-Aus
Ein immer verfügbarer Mechanismus, der einen Agenten sofort und vollständig stoppt.
Jede Maschine mit Eigenleben braucht einen roten Knopf. Für Agenten heisst das konkret: ein Weg, der sofort wirkt (Prozess beenden, Stopp-Datei, Schalter in der Oberfläche), immer erreichbar ist (auch wenn der Agent beschäftigt ist) und vollständig stoppt (keine halb ausgeführten Aktionen weiterlaufen lässt).
Im Kurs bauen wir den Not-Aus von Anfang an ein — nicht weil Agenten böse wären, sondern weil Fehler passieren und ein Agent in einer Endlosschleife sonst munter weiterarbeitet.
Verwandt: human-in-the-loop · agent
Parameter
Die beim Training gelernten Zahlenwerte eines Modells — ihre Anzahl (z. B. 4B = 4 Milliarden) ist das gängige Mass für die Modellgrösse.
Man kann sich Parameter als Millionen winziger Stellschrauben vorstellen, die beim Training so lange justiert werden, bis das Modell Sprache gut vorhersagt. Das «B» in Modellnamen wie «Llama 3.2 3B» steht für englisch billion, also Milliarden Parameter.
Mehr Parameter bedeuten grob: mehr Wissen und bessere Sprachfähigkeit, aber auch mehr Speicherbedarf und langsamere Antworten. Für ein Notebook mit 16 GB Arbeitsspeicher sind Modelle mit etwa 3–8 Milliarden Parametern (in komprimierter Form, siehe Quantisierung) der realistische Bereich.
Verwandt: sprachmodell · quantisierung
Quantisierung
Ein Kompressionsverfahren, das die Zahlen eines Modells gröber speichert — das Modell wird viel kleiner und schneller, bei meist geringem Qualitätsverlust.
Die Parameter eines Modells sind Zahlen. Ursprünglich werden sie sehr genau gespeichert (16 Bit pro Zahl, «FP16»). Quantisierung rundet sie auf gröbere Stufen — bei der verbreiteten 4-Bit-Quantisierung («Q4») braucht jede Zahl nur noch einen Viertel des Platzes.
Als grobe Näherung (abhängig von Architektur und Kontext): Ein Modell in Q4 belegt ungefähr Parameterzahl in Milliarden × 0,5–0,6 GB Speicher. Ein 4B-Modell passt so in etwa 2–2,5 GB — machbar für ein normales Notebook. In Modellbibliotheken begegnen dir Kürzel wie Q4_K_M, Q5, Q8: höhere Zahl = genauer, aber grösser und langsamer.
RAG
«Retrieval-Augmented Generation» — die KI sucht zuerst passende Stellen in deinen Dokumenten und formuliert die Antwort dann daraus.
Statt zu hoffen, dass das Modell etwas über deine privaten Unterlagen «weiss» (kann es nicht — sie waren nie im Training), geht RAG in zwei Schritten vor: Suchen (englisch retrieval): Zu deiner Frage werden die relevantesten Abschnitte aus deinen Dokumenten herausgesucht. Antworten (englisch generation): Diese Abschnitte werden dem Modell zusammen mit deiner Frage ins Kontextfenster gelegt.
Das Ergebnis: Antworten, die auf deinen echten Inhalten beruhen und Quellen nennen können. RAG ist das Herzstück von Kernmodul 5 und Mission 4.
Verwandt: kontextfenster · halluzination · embedding
RAM
Der Arbeitsspeicher deines Rechners — er bestimmt, wie grosse Modelle du überhaupt laden kannst.
RAM (englisch Random Access Memory) ist das Kurzzeitgedächtnis des Computers: Alles, was gerade läuft, liegt hier. Ein lokales Sprachmodell muss beim Arbeiten komplett im Speicher liegen — dein RAM (oder VRAM) setzt also die harte Obergrenze für die Modellgrösse.
Faustregel für ein 16-GB-Notebook: Windows und die üblichen Programme belegen bereits mehrere GB; realistisch bleiben etwa 6–10 GB für Modell und Kontext frei. Deshalb starten wir im Kurs mit kompakten Modellen der 3–4-Milliarden-Parameter-Klasse.
Verwandt: vram · unified-memory
Sprachmodell (LLM)
Ein KI-Programm, das aus riesigen Textmengen gelernt hat, Sprache fortzusetzen — und dadurch Fragen beantworten, schreiben und zusammenfassen kann.
Die Abkürzung LLM steht für englisch Large Language Model, «grosses Sprachmodell». Im Kern macht ein Sprachmodell immer dasselbe: Es schätzt, welches Token als Nächstes am wahrscheinlichsten folgt — Token für Token, bis die Antwort fertig ist. Dass daraus verständliche Erklärungen, Übersetzungen oder Programmcode entstehen, liegt an der enormen Menge an Mustern, die das Modell beim Training aus Texten gelernt hat.
ChatGPT, Claude und ähnliche Dienste setzen sehr grosse Sprachmodelle in Rechenzentren ein. Lokale Sprachmodelle sind kleiner, laufen dafür direkt auf deinem Gerät — darum geht es in diesem Kurs.
Systemprompt
Eine versteckte Grundanweisung, die dem Modell vor jedem Gespräch mitgegeben wird — sie prägt Ton, Rolle und Regeln der Antworten.
«Du bist ein hilfsbereiter Assistent. Antworte auf Deutsch und halte dich kurz.» — so könnte ein einfacher Systemprompt aussehen. Er steht unsichtbar am Anfang des Kontextfensters und gilt für das ganze Gespräch.
Bei lokaler KI bestimmst du den Systemprompt selbst — ein mächtiger Hebel: Damit machst du aus demselben Modell einen nüchternen Übersetzer, einen geduldigen Lehrer oder einen strengen Korrektor. Du experimentierst damit ab Mission 1.
Verwandt: kontextfenster · sprachmodell
Token
Das kleinste Textstück, mit dem ein Sprachmodell arbeitet — oft ein Wortteil, manchmal ein ganzes Wort oder ein Satzzeichen.
Sprachmodelle lesen Text nicht Buchstabe für Buchstabe und auch nicht Wort für Wort, sondern in Tokens. Häufige Wörter wie «und» sind ein einzelnes Token; seltene oder zusammengesetzte Wörter werden in mehrere Tokens zerlegt («Dampfschifffahrt» etwa in drei bis vier Stücke).
Als grobe Näherung gilt für englische Texte: 1 Token ≈ 4 Zeichen ≈ ¾ Wort (Angabe von OpenAI). Deutsche Texte brauchen wegen der längeren Wörter meist mehr Tokens pro Wort — je nach Modell grob 1 Token ≈ 0,5–0,7 Wörter. Der genaue Wert hängt vom Tokenizer des jeweiligen Modells ab.
Verwandt: kontextfenster · sprachmodell
Tool
Eine Fähigkeit, die einem KI-Modell zusätzlich gegeben wird — etwa Dateien lesen, im Web suchen oder eine Nachricht senden.
Ein Sprachmodell allein kann nur Text erzeugen. Erst Tools (englisch für «Werkzeuge») verbinden es mit der Welt: ein Tool zum Lesen von Dateien, eines für die Websuche, eines zum Senden von Nachrichten. Das Modell entscheidet, wann es welches Tool aufruft; ausgeführt wird der Aufruf von der umgebenden Software.
Im Kurs verwenden wir für die interaktiven Rechner der Plattform bewusst das deutsche Wort «Werkzeug» — «Tool» meint hier immer diese technische Fähigkeit von Agenten.
Verwandt: agent
Training
Der Lernvorgang, bei dem ein Modell aus riesigen Datenmengen seine Parameter entwickelt — extrem rechenaufwendig, wird von den Modellherstellern erledigt.
Beim Training verarbeitet das entstehende Modell gewaltige Textmengen und passt seine Parameter Schritt für Schritt an, bis seine Vorhersagen gut sind. Das erfordert spezialisierte Rechenzentren, Monate Zeit und Budgets in Millionenhöhe.
Für dich als Anwender wichtig: Du musst nie selbst trainieren. Du lädst fertig trainierte Modelle herunter und nutzt sie (Inferenz). Später im Kurs lernst du leichtgewichtige Anpassungsverfahren wie LoRA kennen — auch die sind aber optional.
Trigger
Das Ereignis, das eine Automatisierung startet — eine neue Datei, eine Nachricht, ein Zeitpunkt.
Jede Automatisierung braucht einen Auslöser: «jeden Morgen um 7 Uhr» (Zeit-Trigger), «wenn eine Datei im Ordner landet» (Ereignis-Trigger) oder «wenn eine Anfrage von aussen eintrifft» (siehe Webhook).
Beim Entwerfen eines Agenten oder Workflows ist der Trigger die erste Designfrage — und eine Sicherheitsfrage: Was kann den Trigger alles auslösen, und will ich das wirklich jedes Mal?
Unified Memory
Gemeinsamer Speicher für Prozessor und Grafikeinheit in einem Chip — das Konzept hinter der KI-Stärke der Apple-Silicon-Macs.
Bei klassischen PCs sind Arbeitsspeicher (RAM) und Grafikspeicher (VRAM) getrennt. Bei Unified Memory teilen sich Prozessor und Grafikeinheit denselben, schnell angebundenen Speicher — ein Mac mit 32 GB Unified Memory kann davon einen grossen Teil für ein KI-Modell verwenden.
Das erklärt, warum Apple-Silicon-Macs für lokale KI beliebt sind: Sie bieten viel nutzbaren, schnellen Speicher ohne separate Grafikkarte. Details und Grenzen behandelt das Entdecker-Labor «Mac mini und Mac Studio für lokale KI».
VRAM
Der eigene Speicher der Grafikkarte — für lokale KI oft wichtiger als die Rechenleistung selbst.
VRAM (englisch Video RAM, Grafikspeicher) sitzt direkt auf der Grafikkarte und ist extrem schnell angebunden. Passt ein Modell vollständig in den VRAM, läuft es um ein Vielfaches schneller, als wenn es aus dem normalen Arbeitsspeicher bedient werden muss.
Wichtig: VRAM und RAM sind getrennte Speicher — 16 GB RAM plus 8 GB VRAM ergeben nicht 24 GB für ein einzelnes Modell. Notebooks ohne eigene Grafikkarte haben gar keinen dedizierten VRAM; dort rechnet der Prozessor mit dem normalen Arbeitsspeicher — langsamer, aber es funktioniert.
Verwandt: ram · unified-memory · quantisierung
Webhook
Eine Webadresse, die ein System bereitstellt, damit andere Systeme ihm Ereignisse melden können — «Ruf mich an, wenn etwas passiert».
Statt ständig nachzufragen («Gibt es was Neues? Und jetzt?»), stellt ein System eine Empfangsadresse bereit: den Webhook. Das andere System schickt dorthin eine kurze Nachricht, sobald etwas passiert — etwa «neue Nachricht im Chat eingetroffen».
Für lokale Automatisierung wichtig: Ein Webhook ist eine offene Tür. Wer die Adresse kennt, kann den Trigger auslösen — deshalb gehören Webhooks abgesichert (Geheimnisse, Signaturen) und nur bewusst ins Internet.
Workflow
Eine fest definierte Abfolge von Arbeitsschritten, die immer gleich abläuft — im Gegensatz zum Agenten, der seinen Weg selbst plant.
«Wenn eine E-Mail mit Anhang kommt → Anhang speichern → Zusammenfassung erstellen → Notiz ablegen»: Das ist ein Workflow — jeder Schritt und jede Verzweigung wurde von einem Menschen festgelegt. Workflows sind vorhersehbar, testbar und deshalb oft die bessere Wahl als ein Agent.
Ein Workflow kann KI-Schritte enthalten («KI-gestützter Workflow»), bleibt aber auf Schienen. Erst wenn das System selbst entscheidet, welche Schritte es in welcher Reihenfolge geht, sprechen wir von einem Agenten.