Zum Inhalt springen
Lokale KI lernen

Druckansicht: Lokale KI wirklich verstehen

Diese Ansicht enthält alle bisher produzierten Lektionen des Moduls in Lesereihenfolge. Über den Druckdialog deines Browsers («Als PDF speichern») erhältst du eine PDF-Datei.

Lokale KI lernen · Kernmodul 1

Lokale KI wirklich verstehen

Sprachmodelle, Tokens, Kontext, Quantisierung — ohne Fachchinesisch.

Stand: 4. Juli 2026

Lektion 1: Was ist lokale KI — und wie «denkt» ein Sprachmodell?

Erklärlektion· ca. 25 Minuten · Lernziel: Du kannst erklären, was ein Sprachmodell ist, was Tokens und das Kontextfenster bedeuten und worin sich lokale KI von Cloud-KI unterscheidet.

Zwei Wege für dieselbe Frage

Wenn du ChatGPT etwas fragst, verlässt deine Eingabe dein Gerät: Sie wird verschlüsselt an ein Rechenzentrum geschickt, dort von einem sehr grossen Sprachmodell verarbeitet, und die Antwort kommt zurück. Das funktioniert hervorragend — hat aber drei Haken: Es braucht Internet, deine Inhalte liegen beim Anbieter, und die Spielregeln (Preise, Funktionen, Limits) bestimmt jemand anderes.

Lokale KI dreht das um: Das Modell liegt als Datei auf deiner Festplatte, gerechnet wird auf deinem Prozessor. Keine Übertragung, kein Konto, keine Kosten pro Frage.

Dein GerätFrage tippenInternetRechenzentrumsehr grosses Modell= Cloud-KIDein GerätFrage → Modell auf der Festplatte → Antwort= lokale KI: alles bleibt bei dir
Cloud-KI schickt deine Eingabe ins Rechenzentrum — lokale KI verarbeitet sie direkt auf deinem Gerät.

Wie ein Sprachmodell arbeitet: immer nur das nächste Stück

Der Begriff klingt gross, der Kern ist verblüffend einfach: Ein Sprachmodell schätzt, welches Textstück als Nächstes am wahrscheinlichsten folgt. Dann hängt es dieses Stück an und schätzt wieder. Aus Millionen solcher Mini-Entscheidungen entsteht eine flüssige Antwort.

Diese Textstücke heissen Tokens — oft Wortteile, manchmal ganze Wörter oder Satzzeichen. Probiere es aus:

Veranschaulichung mit vereinfachter Zerlegung — echte Tokenizer arbeiten ähnlich, aber nicht identisch. Kurze, häufige Wörter bleiben ganz; lange Wörter zerfallen in Stücke.

Zwei Dinge lohnt es sich zu merken:

  • Deutsch «kostet» mehr. Die meisten Modelle wurden überwiegend mit englischem Text trainiert und zerlegen deutsche Wörter in mehr Tokens. Derselbe Inhalt verbraucht auf Deutsch also mehr Platz — und Platz ist begrenzt, wie du gleich siehst.
  • Das Modell rechnet, es versteht nicht wie ein Mensch. Es hat beim Training Muster aus riesigen Textmengen gelernt. Meist trifft es damit ins Schwarze — aber es kann auch selbstbewusst danebenliegen.

Das Kurzzeitgedächtnis: das Kontextfenster

Alles, was das Modell beim Antworten berücksichtigt — deine Frage, der bisherige Verlauf, eingefügte Dokumente, die entstehende Antwort — muss gleichzeitig in sein Kontextfenster passen, gemessen in Tokens. Was nicht hineinpasst, existiert für das Modell nicht. Darum «vergisst» ein Chat irgendwann den Anfang eines langen Gesprächs.

Wie viel Text in gängige Kontextgrössen passt, zeigt dir der Kontext-Rechner interaktiv — inklusive der Gründe, warum ein riesiges Kontextfenster allein noch kein gutes Verständnis garantiert.

Warum können Modelle unterschiedlich viel?

Die Grösse eines Modells wird in Parametern gemessen — den beim Training gelernten Zahlenwerten. Modellnamen tragen die Zahl meist im Namen: «3B» bedeutet 3 Milliarden Parameter (englisch billion).

Grössenklasse Beispiel-Einsatz Realistisch auf …
1–4B Alltagsfragen, Zusammenfassungen, Übersetzungen Notebook mit 8–16 GB RAM
7–14B anspruchsvollere Texte, einfaches Programmieren 16–32 GB RAM oder Grafikkarte
30–70B+ komplexe Aufgaben, hohe Genauigkeit Workstation, Mac mit viel Speicher

Diese Einordnung ist bewusst grob — sie hängt von der Quantisierung ab, einem Kompressionsverfahren, das Modelle auf einen Bruchteil ihrer Grösse schrumpft. Dank Quantisierung läuft ein 4B-Modell in etwa 2–2,5 GB Speicher: machbar für dein Notebook. Die genaue Rechnerei kommt in Kernmodul 2 (Hardware).

Vertiefung: Training und Inferenz — wer macht eigentlich was?

Das Training — das Lernen aus riesigen Datenmengen — haben die Modellhersteller bereits erledigt; es kostet Rechenzentren, Monate und Millionen. Was du auf deinem Notebook machst, ist ausschliesslich Inferenz: das fertige Modell anwenden. Das ist um Grössenordnungen genügsamer — deshalb funktioniert lokale KI überhaupt auf normaler Hardware.

Lokal, Cloud — oder beides?

Ehrliche Antwort: Es ist kein Entweder-oder. So entscheiden Profis:

  • Lokal, wenn Daten privat bleiben sollen (Tagebuch, Finanzen, Kundendaten), wenn du offline arbeitest oder viel automatisieren willst, ohne pro Anfrage zu bezahlen.
  • Cloud, wenn maximale Qualität zählt — etwa für komplexe Recherchen oder heikle, lange Texte.
  • Hybrid ist der Alltag vieler Nutzer: lokale KI für Routine und Privates, Cloud für die schweren Brocken. Später im Kurs baust du sogar Agenten, die selbst entscheiden, wohin eine Aufgabe geht.

Kurz geprüft

4 Fragen zum Festigen — Feedback kommt sofort.

Was macht ein Sprachmodell im Kern, während es antwortet?
Dein Chat «vergisst» den Anfang eines langen Gesprächs. Woran liegt das am ehesten?
Warum verbraucht deutscher Text meist mehr Tokens als englischer?
Ein lokales Modell nennt dir selbstbewusst eine Quellenangabe. Was tust du?

Das kann ich jetzt

  • Ich kann erklären, was ein Sprachmodell im Kern tut — und warum es trotzdem überzeugend falsch liegen kann.
  • Ich weiss, was Tokens sind und warum deutscher Text mehr davon braucht.
  • Ich kann das Kontextfenster als «Kurzzeitgedächtnis» einordnen und kenne seine Grenzen.
  • Ich kann begründen, wann lokale KI, wann Cloud-KI und wann eine Mischung sinnvoll ist.

Nächster Schritt: In Mission 1 bringst du deine erste lokale KI zum Laufen — das Gelernte siehst du dort live.

Lektion 2: Modellarten: Vom Rohmodell zum Spezialisten

Erklärlektion· ca. 25 Minuten · Lernziel: Du kannst die wichtigsten Modellarten unterscheiden und weisst, welche Art für welche Aufgabe gedacht ist.

Warum es nicht «das eine» Modell gibt

Wer zum ersten Mal eine Modellbibliothek öffnet, sieht kryptische Namen wie Qwen3-4B-Instruct-Q4_K_M oder nomic-embed-text. Die gute Nachricht: Dahinter steckt ein System. Jeder Namensteil beantwortet eine Frage — wer hat es gebaut, wie gross ist es, wofür ist es gedacht, wie stark ist es komprimiert? Die Grösse und die Kompression (Parameter, Quantisierung) kennst du schon. Diese Lektion erklärt den Teil «wofür gedacht».

Die Familie im Überblick

Basismodellsetzt nur Text fortInstruct-Modellfolgt Anweisungen — dein Chat-StandardReasoning-Modell«denkt» sichtbar in ZwischenschrittenVisionversteht BilderEmbeddingText → ZahlenvektorAudiohören / sprechen… und die Spezialisten neben der Sprachfamilie:
Aus dem Basismodell werden durch Nachschulung Assistenten — daneben gibt es Spezialisten für Bilder, Suche und Sprache.

Basis-, Instruct- und Reasoning-Modelle

  • Basismodell (englisch base model): das Rohprodukt aus dem Training. Es kann nur eines — Text plausibel fortsetzen. Fragst du «Was ist die Hauptstadt der Schweiz?», antwortet es womöglich mit weiteren Quizfragen statt mit «Bern». Für den Alltag ungeeignet; du wirst es selten direkt nutzen.
  • Instruct-Modell: ein Basismodell, das zusätzlich mit Frage-Antwort-Beispielen nachgeschult wurde, bis es Anweisungen befolgt. Das ist der Standard für Chat und fast alles in diesem Kurs. Steht im Namen «Instruct» oder «Chat» — oder gar nichts, weil es heute der Normalfall ist.
  • Reasoning-Modell: eine neuere Gattung, die vor der Antwort sichtbar Zwischenschritte erzeugt («denkt laut»). Stärker bei Logik-, Rechen- und Planungsaufgaben — dafür deutlich langsamer und gesprächiger, weil die Denk-Tokens ebenfalls erzeugt und gespeichert werden müssen. Für schnelle Alltagsfragen ist es die falsche Wahl.

Die Spezialisten

  • Vision-Modelle (auch: multimodale Modelle) verstehen zusätzlich Bilder: Sie beschreiben Fotos, lesen Screenshots oder erkennen Objekte. «Multimodal» heisst allgemein: mehrere Eingabearten (Text, Bild, teils Audio) in einem Modell.
  • Embedding-Modelle erzeugen keine Antworten, sondern Zahlenvektoren für die Bedeutungssuche — das Rückgrat von RAG. Sie sind winzig (oft unter 1 GB) und laufen nebenher.
  • Audio-Modelle: Spracherkennung (gesprochene Sprache → Text, bekanntestes Beispiel die Whisper-Familie) und Sprachausgabe (Text → gesprochene Sprache). Beides lokal machbar — Kernmodul 9 widmet sich dem ausführlich.
Vertiefung: Mixture of Experts (MoE) — gross und trotzdem flott?

Manche Modelle tragen Namenszusätze wie «A3B»: Das Modell hat insgesamt viele Milliarden Parameter, aktiviert pro Token aber nur einen Bruchteil davon — spezialisierte «Experten», zwischen denen ein Verteiler wählt. Vorteil: Antwortqualität eines grossen Modells bei der Rechenlast eines kleineren. Haken für lokale Nutzung: Im Speicher liegen trotzdem alle Experten — der RAM-Bedarf richtet sich nach der Gesamtgrösse, das Tempo eher nach den aktiven Parametern.

Namen lesen — eine kleine Übung

Nimm Qwen3-4B-Instruct-Q4_K_M auseinander:

Namensteil Bedeutung
Qwen3 Modellfamilie und Generation (Hersteller: Alibaba)
4B 4 Milliarden Parameter — kompakte Klasse
Instruct folgt Anweisungen, für Chat gedacht
Q4_K_M 4-Bit-Quantisierung, mittlere Variante

Mit diesem Raster kannst du ab sofort fast jeden Modellnamen entschlüsseln — und erkennst auf einen Blick, ob ein Fund zu deinem Gerät und deiner Aufgabe passt.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Du willst auf deinem Notebook alltägliche Texte zusammenfassen. Welche Modellart?
Wann lohnt sich ein Reasoning-Modell?
Was verrät dir «Q4_K_M» in einem Modellnamen?

Das kann ich jetzt

  • Ich kann Basis-, Instruct- und Reasoning-Modelle unterscheiden und weiss, dass Instruct mein Standard ist.
  • Ich kenne die Spezialisten (Vision, Embedding, Audio) und ihren Zweck.
  • Ich kann Modellnamen wie Qwen3-4B-Instruct-Q4_K_M vollständig entschlüsseln.
  • Ich weiss, was Mixture of Experts bedeutet — und warum der RAM-Bedarf trotzdem hoch bleibt.

Nächster Schritt: Die Lektion «Genauigkeit gegen Grösse» zeigt, wie du die Quantisierungsstufe bewusst wählst.

Lektion 3: Genauigkeit gegen Grösse: Quantisierung bewusst wählen

Erklärlektion· ca. 20 Minuten · Lernziel: Du kannst Quantisierungsstufen einordnen, ihren Speicherbedarf grob abschätzen und für dein Gerät eine sinnvolle Stufe wählen.

Der Handel: Präzision gegen Platz

Die Grundidee kennst du aus dem Glossar: Quantisierung speichert die gelernten Zahlen eines Modells gröber, damit es kleiner und schneller wird. Diese Lektion macht daraus ein praktisches Entscheidungswerkzeug — denn beim Herunterladen musst du jedes Mal eine Stufe wählen.

Stell dir die Parameter als Farbtöne eines Gemäldes vor: Das Original (FP16) kennt 65’536 Abstufungen pro Farbe. Q8 rundet auf 256 Stufen — kaum jemand sieht einen Unterschied. Q4 rundet auf 16 Stufen — aus der Nähe erkennst du Vergröberungen, das Motiv bleibt aber klar. So ähnlich verhält es sich mit der Antwortqualität.

Die Stufen im Überblick

Grundlage der Grössenangaben ist die Näherungsformel (Annahme: reine Modellgewichte, ohne Kontext; tatsächliche Dateien weichen je nach Architektur etwas ab): Speicher ≈ Parameterzahl × Bytes pro Parameter.

Stufe Bits pro Zahl 4B-Modell braucht ≈ 8B-Modell braucht ≈ Wann sinnvoll?
FP16 / BF16 16 ~8 GB ~16 GB Original-Präzision — Referenz und Weitertraining, lokal selten nötig
Q8 / INT8 8 ~4 GB ~8 GB fast verlustfrei, wenn reichlich Speicher da ist
Q6 6 ~3 GB ~6 GB guter Mittelweg nach oben
Q5 5 ~2,7 GB ~5,4 GB spürbar kleiner, Qualität noch sehr nah an Q8
Q4 4 ~2,3 GB ~4,7 GB der Alltags-Standard für Notebooks
Q3 und tiefer ≤3 ~1,8 GB ~3,5 GB Notlösung — Qualitätsverlust wird deutlich

(Werte gerundet; Kürzel wie «K_M» bezeichnen Feinvarianten derselben Stufe — im Zweifel die mit «M» nehmen.)

Die wichtigste Praxisregel

Wenn Speicher knapp ist, konkurrieren zwei Strategien: ein grösseres Modell stärker komprimieren oder ein kleineres Modell weniger komprimieren. Die Erfahrung vieler Nutzer (Einordnung: verbreitete Community-Faustregel, nicht selbst systematisch getestet):

Ein mittleres Modell in Q4/Q5 schlägt meist ein grosses Modell in Q2/Q3. Unterhalb von Q4 bricht die Qualität überproportional ein.

Deshalb unsere Kursempfehlung: Q4 als Standard, Q5/Q6 wenn der Speicher locker reicht, Q8 nur bei viel Reserve — und Q2/Q3 lieber meiden, statt dich über wirre Antworten zu ärgern.

Vertiefung: Warum schadet das Runden so wenig?

Ein Modell mit Milliarden Parametern ist erstaunlich redundant: Viele Zahlen tragen wenig Einzelverantwortung, Wissen ist über unzählige Verbindungen verteilt. Moderne Verfahren quantisieren zudem nicht stur, sondern schützen empfindliche Bereiche (daher die Feinvarianten wie K_M). Erst wenn die Stufen zu grob werden — unterhalb von etwa 4 Bit — häufen sich Rundungsfehler zu sichtbaren Denkfehlern.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Du hast 16 GB RAM und willst ein 8B-Modell nutzen. Welche Stufe ist der vernünftige Start?
Was beschreibt die Näherung «Parameterzahl × Bytes pro Parameter»?
8 GB frei, zwei Kandidaten: 14B in Q3 oder 8B in Q5. Was probierst du zuerst?

Das kann ich jetzt

  • Ich kann die Stufen FP16/BF16, Q8/INT8, Q6, Q5, Q4, Q3 einordnen.
  • Ich schätze den Speicherbedarf eines Modells mit der Näherungsformel selbst ab.
  • Ich wähle Q4 als Standard und weiss, wann sich eine höhere Stufe lohnt — und warum ich Q2/Q3 meide.

Nächster Schritt: Kernmodul 2 übersetzt das in Hardware-Wissen: RAM, VRAM und die Frage, was dein Gerät wirklich kann.