Was ist lokale KI — und wie «denkt» ein Sprachmodell?
Du nutzt ChatGPT oder Claude — aber was passiert dabei eigentlich? Und was ändert sich, wenn die KI auf deinem eigenen Notebook läuft?
Zwei Wege für dieselbe Frage
Wenn du ChatGPT etwas fragst, verlässt deine Eingabe dein Gerät: Sie wird verschlüsselt an ein Rechenzentrum geschickt, dort von einem sehr grossen Sprachmodell verarbeitet, und die Antwort kommt zurück. Das funktioniert hervorragend — hat aber drei Haken: Es braucht Internet, deine Inhalte liegen beim Anbieter, und die Spielregeln (Preise, Funktionen, Limits) bestimmt jemand anderes.
Lokale KI dreht das um: Das Modell liegt als Datei auf deiner Festplatte, gerechnet wird auf deinem Prozessor. Keine Übertragung, kein Konto, keine Kosten pro Frage.
Wie ein Sprachmodell arbeitet: immer nur das nächste Stück
Der Begriff klingt gross, der Kern ist verblüffend einfach: Ein Sprachmodell schätzt, welches Textstück als Nächstes am wahrscheinlichsten folgt. Dann hängt es dieses Stück an und schätzt wieder. Aus Millionen solcher Mini-Entscheidungen entsteht eine flüssige Antwort.
Diese Textstücke heissen Tokens — oft Wortteile, manchmal ganze Wörter oder Satzzeichen. Probiere es aus:
Veranschaulichung mit vereinfachter Zerlegung — echte Tokenizer arbeiten ähnlich, aber nicht identisch. Kurze, häufige Wörter bleiben ganz; lange Wörter zerfallen in Stücke.
Zwei Dinge lohnt es sich zu merken:
- Deutsch «kostet» mehr. Die meisten Modelle wurden überwiegend mit englischem Text trainiert und zerlegen deutsche Wörter in mehr Tokens. Derselbe Inhalt verbraucht auf Deutsch also mehr Platz — und Platz ist begrenzt, wie du gleich siehst.
- Das Modell rechnet, es versteht nicht wie ein Mensch. Es hat beim Training Muster aus riesigen Textmengen gelernt. Meist trifft es damit ins Schwarze — aber es kann auch selbstbewusst danebenliegen.
Das Kurzzeitgedächtnis: das Kontextfenster
Alles, was das Modell beim Antworten berücksichtigt — deine Frage, der bisherige Verlauf, eingefügte Dokumente, die entstehende Antwort — muss gleichzeitig in sein Kontextfenster passen, gemessen in Tokens. Was nicht hineinpasst, existiert für das Modell nicht. Darum «vergisst» ein Chat irgendwann den Anfang eines langen Gesprächs.
Wie viel Text in gängige Kontextgrössen passt, zeigt dir der Kontext-Rechner interaktiv — inklusive der Gründe, warum ein riesiges Kontextfenster allein noch kein gutes Verständnis garantiert.
Warum können Modelle unterschiedlich viel?
Die Grösse eines Modells wird in Parametern gemessen — den beim Training gelernten Zahlenwerten. Modellnamen tragen die Zahl meist im Namen: «3B» bedeutet 3 Milliarden Parameter (englisch billion).
| Grössenklasse | Beispiel-Einsatz | Realistisch auf … |
|---|---|---|
| 1–4B | Alltagsfragen, Zusammenfassungen, Übersetzungen | Notebook mit 8–16 GB RAM |
| 7–14B | anspruchsvollere Texte, einfaches Programmieren | 16–32 GB RAM oder Grafikkarte |
| 30–70B+ | komplexe Aufgaben, hohe Genauigkeit | Workstation, Mac mit viel Speicher |
Diese Einordnung ist bewusst grob — sie hängt von der Quantisierung ab, einem Kompressionsverfahren, das Modelle auf einen Bruchteil ihrer Grösse schrumpft. Dank Quantisierung läuft ein 4B-Modell in etwa 2–2,5 GB Speicher: machbar für dein Notebook. Die genaue Rechnerei kommt in Kernmodul 2 (Hardware).
Vertiefung: Training und Inferenz — wer macht eigentlich was?
Das Training — das Lernen aus riesigen Datenmengen — haben die Modellhersteller bereits erledigt; es kostet Rechenzentren, Monate und Millionen. Was du auf deinem Notebook machst, ist ausschliesslich Inferenz: das fertige Modell anwenden. Das ist um Grössenordnungen genügsamer — deshalb funktioniert lokale KI überhaupt auf normaler Hardware.
Lokal, Cloud — oder beides?
Ehrliche Antwort: Es ist kein Entweder-oder. So entscheiden Profis:
- Lokal, wenn Daten privat bleiben sollen (Tagebuch, Finanzen, Kundendaten), wenn du offline arbeitest oder viel automatisieren willst, ohne pro Anfrage zu bezahlen.
- Cloud, wenn maximale Qualität zählt — etwa für komplexe Recherchen oder heikle, lange Texte.
- Hybrid ist der Alltag vieler Nutzer: lokale KI für Routine und Privates, Cloud für die schweren Brocken. Später im Kurs baust du sogar Agenten, die selbst entscheiden, wohin eine Aufgabe geht.
Kurz geprüft
4 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich kann erklären, was ein Sprachmodell im Kern tut — und warum es trotzdem überzeugend falsch liegen kann.
- Ich weiss, was Tokens sind und warum deutscher Text mehr davon braucht.
- Ich kann das Kontextfenster als «Kurzzeitgedächtnis» einordnen und kenne seine Grenzen.
- Ich kann begründen, wann lokale KI, wann Cloud-KI und wann eine Mischung sinnvoll ist.
Nächster Schritt: In Mission 1 bringst du deine erste lokale KI zum Laufen — das Gelernte siehst du dort live.