Zum Inhalt springen
Lokale KI lernen
Mission 1

Meine erste lokale KI

In etwa einer Stunde läuft auf deinem Notebook eine KI, die komplett offline arbeitet — und du verstehst, was dabei passiert.

Dauer
ca. 60 Minuten
Lernziel
Eine lokale KI läuft auf deinem Gerät, du hast offline mit ihr gechattet und kennst ihre Grenzen.
Voraussetzungen
Windows-Notebook mit 16 GB RAM (weniger geht, siehe Hinweise) · ca. 10 GB freier Speicherplatz · Internet für den einmaligen Download

Das Ziel dieser Mission

Am Ende dieser Mission tippst du eine Frage in ein Chatfenster — ohne Internetverbindung — und bekommst eine Antwort, berechnet von deinem eigenen Prozessor. Kein Konto, kein Abo, keine Datenübertragung. Nebenbei siehst du zum ersten Mal live, was du in Kernmodul 1 über Modelle und Tokens gelernt hast.

Noch nicht gemacht? Die Praxislektion «Dein Notebook KI-bereit machen» erklärt die Download-Grundregeln und den Rücksetzweg — beides setzen wir hier voraus.

Schritt 1: Die Software — unsere Standardwahl

Es gibt mehrere gute Programme für lokale KI (der Vergleich folgt in Kernmodul 4). Für den Einstieg nutzt dieser Kurs LM Studio: eine grafische Anwendung mit eingebauter Modellsuche, die ohne Terminal auskommt und auf Windows, Mac und Linux läuft.

Die wichtigsten Fakten (anhand der offiziellen Dokumentation geprüft, Stand 02.07.2026):

  • Empfohlen sind mindestens 16 GB RAM — genau dein Setup.
  • Auf x64-Prozessoren wird AVX2 vorausgesetzt (Prozessoren ab ca. 2013–2015 haben das).
  • Der Download ist kostenlos und erfolgt ausschliesslich über lmstudio.ai.

So gehst du vor:

  1. Öffne https://lmstudio.ai und lade den Windows-Installer herunter.
  2. Starte die Datei und folge dem Installationsassistenten (Standardeinstellungen sind in Ordnung).
  3. Beim ersten Start bietet dir LM Studio typischerweise ein kleines Einsteigermodell an — du kannst es annehmen oder erst einmal ablehnen; wir wählen unser Modell in Schritt 2 bewusst selbst.

Erwartetes Ergebnis: LM Studio startet und zeigt eine aufgeräumte Oberfläche mit Chat-Bereich und einer Modellsuche.

Schritt 2: Ein passendes Modell herunterladen

Jetzt kommt die wichtigste Entscheidung: Welches Modell? Für ein 16-GB-Notebook ohne eigene Grafikkarte gilt die Faustregel aus Kernmodul 1: kompakte Modelle mit 3–4 Milliarden Parametern in 4-Bit- Quantisierung («Q4»). Die belegen grob 2–2,5 GB und lassen dem System Luft.

Bewährte Kandidaten dieser Klasse sind zum Beispiel Llama 3.2 3B, Gemma 3 4B oder Qwen3 4B (Einordnung: plausibel und verbreitet, aber nicht jede Variante selbst getestet — welche Version dir die Suche anzeigt, kann sich seit Kurserstellung geändert haben).

So gehst du vor:

  1. Öffne in LM Studio die Modellsuche und suche nach einem der Kandidaten, z. B. llama 3.2.
  2. Wähle in den Download-Optionen eine Q4-Variante (z. B. «Q4_K_M»). Die offizielle LM-Studio-Doku empfiehlt 4-Bit oder höher, wenn dein Gerät es schafft.
  3. Starte den Download und beobachte die Dateigrösse — sie sollte im Bereich von etwa 2 GB liegen. Deutlich grösser (8+ GB)? Dann hast du eine grössere Variante erwischt — für den ersten Versuch lieber abbrechen und die kleinere wählen.

Schritt 3: Der erste Chat — noch mit Internet

Lade das Modell im Chat-Bereich (Modell auswählen → laden; das Laden dauert je nach Gerät einige Sekunden bis Minuten, weil die ganze Datei in den Arbeitsspeicher wandert).

Stelle dann drei Testfragen, die verschiedene Fähigkeiten zeigen:

Erkläre mir in drei Sätzen, warum der Himmel blau ist.
Fasse zusammen: Ein Kunde beschwert sich, dass seine Bestellung Nr. 4711 vom 12. Juni noch nicht angekommen ist. Er bittet um Rückerstattung oder Neulieferung bis Ende Woche.
Schreibe eine freundliche Absage auf eine Einladung zum Grillfest am Samstag.

Beobachte dabei zwei Dinge: die Geschwindigkeit (Antworten erscheinen Token für Token — genau die Vorhersage-Schleife aus Kernmodul 1) und die Qualität (für solche Alltagsaufgaben sind kleine Modelle erstaunlich brauchbar).

Schritt 4: Der Beweis — offline chatten

Jetzt der Moment, für den sich die Mission lohnt:

  1. Trenne die Internetverbindung: Klick auf das Netzwerksymbol in der Taskleiste → Flugzeugmodus einschalten (oder WLAN ausschalten).
  2. Stelle im Chat eine neue Frage.
  3. Die Antwort kommt — dein Notebook denkt selbst.

Erwartetes Ergebnis: Der Chat funktioniert im Flugzeugmodus genau wie vorher. Alles, was du eintippst, verlässt dein Gerät nicht — es gibt schlicht keine Verbindung, über die es abfliessen könnte. Schalte das WLAN danach wieder ein.

Grenzen ehrlich einordnen

Damit die Begeisterung realistisch bleibt — dein 3–4B-Modell wird:

  • langsamer antworten als ChatGPT (dein Prozessor gegen ein Rechenzentrum — fair ist das nicht);
  • öfter danebenliegen, besonders bei Fakten, Zahlen und Nischenwissen (Halluzinationen treffen kleine Modelle häufiger);
  • kürzeren Atem haben: Das Kontextfenster ist meist kleiner konfiguriert als bei Cloud-Diensten.

Wofür es sich trotzdem sofort lohnt: Zusammenfassen, Umformulieren, Übersetzen, Ideen sammeln, Textentwürfe — alles, was privat bleiben soll. In Mission 2 vergleichst du dann zwei Modelle systematisch.

Fehlerbehebung

  • Das Modell lädt nicht oder LM Studio meldet zu wenig Speicher: Schliesse speicherhungrige Programme (Browser mit vielen Tabs!) und versuche es erneut. Hilft das nicht, wähle eine kleinere Modellvariante (z. B. 1B statt 3B).
  • Antworten sind extrem langsam (mehrere Minuten): Vermutlich ist das Modell zu gross für deinen RAM und wird auf die Festplatte ausgelagert. Kleinere Variante wählen — lieber flott und klein als quälend und gross.
  • LM Studio startet gar nicht: Prüfe die AVX2-Anforderung (siehe Fehlerbehebung der Praxislektion).

Rücksetzweg

Alles wieder loswerden? Der allgemeine Rückbau steht in «Dein Notebook KI-bereit machen», Schritt 5. Kurzfassung für diese Mission: Modell in LM Studio löschen (gibt sofort 2+ GB frei) → LM Studio über Einstellungen → Apps deinstallieren → notierten Modell-Ordner kontrollieren.

Vertiefung: Was ist da eigentlich heruntergeladen worden?

Die Modell-Datei (meist im GGUF-Format) enthält die Milliarden gelernten Parameter — komprimiert per Quantisierung. LM Studio lädt diese Zahlen in den Arbeitsspeicher und führt für jede Antwort die Token-für-Token-Vorhersage aus. Software und Modell sind getrennte Dinge: Ein Programm kann viele Modelle laden, ein Modell läuft in verschiedenen Programmen.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Warum wählen wir für ein 16-GB-Notebook ein 3–4B-Modell in Q4?
Woran erkennst du sicher, dass deine lokale KI keine Daten überträgt?
Dein kleines lokales Modell nennt ein Geschichtsdatum. Wie gehst du damit um?

Das kann ich jetzt

  • Ich habe KI-Software nach den Sicherheitsregeln installiert.
  • Ich kann ein Modell passend zu meinem RAM auswählen (Grössenklasse und Quantisierung).
  • Meine KI läuft nachweislich offline — ich habe es getestet.
  • Ich kenne die realistischen Stärken und Schwächen kleiner lokaler Modelle.