Modul 1: Erklärlektion

Was ist lokale KI — und wie «denkt» ein Sprachmodell?

Du nutzt ChatGPT oder Claude — aber was passiert dabei eigentlich? Und was ändert sich, wenn die KI auf deinem eigenen Notebook läuft?

Dauer: ca. 25 Minuten
Lernziel: Du kannst erklären, was ein Sprachmodell ist, was Tokens und das Kontextfenster bedeuten und worin sich lokale KI von Cloud-KI unterscheidet.
Voraussetzungen: keine — du kannst direkt loslegen

Zwei Wege für dieselbe Frage

Wenn du ChatGPT etwas fragst, verlässt deine Eingabe dein Gerät: Sie wird verschlüsselt an ein Rechenzentrum geschickt, dort von einem sehr grossen Sprachmodell verarbeitet, und die Antwort kommt zurück. Das funktioniert hervorragend — hat aber drei Haken: Es braucht Internet, deine Inhalte liegen beim Anbieter, und die Spielregeln (Preise, Funktionen, Limits) bestimmt jemand anderes.

Lokale KI dreht das um: Das Modell liegt als Datei auf deiner Festplatte, gerechnet wird auf deinem Prozessor. Keine Übertragung, kein Konto, keine Kosten pro Frage.

Cloud-KI schickt deine Eingabe ins Rechenzentrum — lokale KI verarbeitet sie direkt auf deinem Gerät.

Wie ein Sprachmodell arbeitet: immer nur das nächste Stück

Der Begriff klingt gross, der Kern ist verblüffend einfach: Ein Sprachmodell schätzt, welches Textstück als Nächstes am wahrscheinlichsten folgt. Dann hängt es dieses Stück an und schätzt wieder. Aus Millionen solcher Mini-Entscheidungen entsteht eine flüssige Antwort.

Diese Textstücke heissen Tokens — oft Wortteile, manchmal ganze Wörter oder Satzzeichen. Probiere es aus:

Tipp einen Satz — so ähnlich zerlegt ihn ein Sprachmodell:

Veranschaulichung mit vereinfachter Zerlegung — echte Tokenizer arbeiten ähnlich, aber nicht identisch. Kurze, häufige Wörter bleiben ganz; lange Wörter zerfallen in Stücke.

Zwei Dinge lohnt es sich zu merken:

Deutsch «kostet» mehr. Die meisten Modelle wurden überwiegend mit englischem Text trainiert und zerlegen deutsche Wörter in mehr Tokens. Derselbe Inhalt verbraucht auf Deutsch also mehr Platz — und Platz ist begrenzt, wie du gleich siehst.
Das Modell rechnet, es versteht nicht wie ein Mensch. Es hat beim Training Muster aus riesigen Textmengen gelernt. Meist trifft es damit ins Schwarze — aber es kann auch selbstbewusst danebenliegen.

Das Kurzzeitgedächtnis: das Kontextfenster

Alles, was das Modell beim Antworten berücksichtigt — deine Frage, der bisherige Verlauf, eingefügte Dokumente, die entstehende Antwort — muss gleichzeitig in sein Kontextfenster passen, gemessen in Tokens. Was nicht hineinpasst, existiert für das Modell nicht. Darum «vergisst» ein Chat irgendwann den Anfang eines langen Gesprächs.

Wie viel Text in gängige Kontextgrössen passt, zeigt dir der Kontext-Rechner interaktiv — inklusive der Gründe, warum ein riesiges Kontextfenster allein noch kein gutes Verständnis garantiert.

Warum können Modelle unterschiedlich viel?

Die Grösse eines Modells wird in Parametern gemessen — den beim Training gelernten Zahlenwerten. Modellnamen tragen die Zahl meist im Namen: «3B» bedeutet 3 Milliarden Parameter (englisch billion).

Grössenklasse	Beispiel-Einsatz	Realistisch auf …
1–4B	Alltagsfragen, Zusammenfassungen, Übersetzungen	Notebook mit 8–16 GB RAM
7–14B	anspruchsvollere Texte, einfaches Programmieren	16–32 GB RAM oder Grafikkarte
30–70B+	komplexe Aufgaben, hohe Genauigkeit	Workstation, Mac mit viel Speicher

Diese Einordnung ist bewusst grob — sie hängt von der Quantisierung ab, einem Kompressionsverfahren, das Modelle auf einen Bruchteil ihrer Grösse schrumpft. Dank Quantisierung läuft ein 4B-Modell in etwa 2–2,5 GB Speicher: machbar für dein Notebook. Die genaue Rechnerei kommt in Kernmodul 2 (Hardware).

Vertiefung: Training und Inferenz — wer macht eigentlich was?

Das Training — das Lernen aus riesigen Datenmengen — haben die Modellhersteller bereits erledigt; es kostet Rechenzentren, Monate und Millionen. Was du auf deinem Notebook machst, ist ausschliesslich Inferenz: das fertige Modell anwenden. Das ist um Grössenordnungen genügsamer — deshalb funktioniert lokale KI überhaupt auf normaler Hardware.

Lokal, Cloud — oder beides?

Ehrliche Antwort: Es ist kein Entweder-oder. So entscheiden Profis:

Lokal, wenn Daten privat bleiben sollen (Tagebuch, Finanzen, Kundendaten), wenn du offline arbeitest oder viel automatisieren willst, ohne pro Anfrage zu bezahlen.
Cloud, wenn maximale Qualität zählt — etwa für komplexe Recherchen oder heikle, lange Texte.
Hybrid ist der Alltag vieler Nutzer: lokale KI für Routine und Privates, Cloud für die schweren Brocken. Später im Kurs baust du sogar Agenten, die selbst entscheiden, wohin eine Aufgabe geht.

Kurz geprüft

4 Fragen zum Festigen — Feedback kommt sofort.

Was macht ein Sprachmodell im Kern, während es antwortet?

Dein Chat «vergisst» den Anfang eines langen Gesprächs. Woran liegt das am ehesten?

Warum verbraucht deutscher Text meist mehr Tokens als englischer?

Ein lokales Modell nennt dir selbstbewusst eine Quellenangabe. Was tust du?

Das kann ich jetzt

Ich kann erklären, was ein Sprachmodell im Kern tut — und warum es trotzdem überzeugend falsch liegen kann.
Ich weiss, was Tokens sind und warum deutscher Text mehr davon braucht.
Ich kann das Kontextfenster als «Kurzzeitgedächtnis» einordnen und kenne seine Grenzen.
Ich kann begründen, wann lokale KI, wann Cloud-KI und wann eine Mischung sinnvoll ist.

Nächster Schritt: In Mission 1 bringst du deine erste lokale KI zum Laufen — das Gelernte siehst du dort live.