Zum Inhalt springen
Lokale KI lernen

Druckansicht: Sprache, Bilder, Messenger, Schnittstellen

Diese Ansicht enthält alle bisher produzierten Lektionen des Moduls in Lesereihenfolge. Über den Druckdialog deines Browsers («Als PDF speichern») erhältst du eine PDF-Datei.

Lokale KI lernen · Kernmodul 9

Sprache, Bilder, Messenger, Schnittstellen

Whisper, Kameras, Telegram und sichere Fernzugriffe.

Stand: 4. Juli 2026

Lektion 1: Sprache, Kameras, Messenger: Die Schnittstellenkarte

Entscheidungslektion· ca. 30 Minuten · Lernziel: Du kennst die Schnittstellen-Kategorien (Audio, Vision, Messenger, Fernzugriff), ihre Datenschutz-Profile und wählst für ein Projekt die passende Kombination.

Vier Sinneskanäle für deinen Assistenten

Ohren — Spracherkennung (STT, Speech-to-Text): Die Whisper-Modellfamilie (OpenAI, offen verfügbar) und ihre schnellen Ableger sind der De-facto-Standard für lokale Spracherkennung — mehrsprachig, auch Deutsch, in Grössen vom Notebook- bis zum Serverformat (Einordnung: etabliert; konkrete Varianten im Technologiekatalog). Dazu gehören zwei Hardware-Wahrheiten: Ein brauchbares Mikrofon schlägt jedes bessere Modell, und Wake Words («Hey Assistent…») sind eigene, kleine Dauerlauscher-Modelle — praktisch fürs Labor 3 (Sprachassistent).

Stimme — Sprachausgabe (TTS, Text-to-Speech): Lokal von «verständlich» bis «erstaunlich natürlich»; die Qualität wächst mit Modellgrösse und Rechenzeit. Für Statusmeldungen reicht Kleines, für Vorlese-Komfort lohnt der Vergleich per eigenem Ohr.

Augen — Kameras und Bildverständnis: Vision-Modelle (KM1) beschreiben Bilder, lesen Text (OCR) und erkennen Objekte — lokal machbar in der 4–12B-Klasse. Quellen: Webcam, Smartphone-Kamera, Dokumentenkamera. Rechtlich zwingend: Kameras, die Menschen erfassen, berühren Persönlichkeitsrechte — im Aussenraum und bei Gästen gilt: informieren, minimieren, lokal speichern (vertieft in Labor 4).

Draht zur Welt — Messenger und Oberflächen: Die Leiter aus Mission 6, geordnet nach Datenabfluss: lokale Weboberfläche (nichts verlässt das Haus) → Telegram-Bot (Meldungen via Serverdienst) → E-Mail (unverschlüsselt = Postkarte) → WhatsApp nur über die offizielle Business-API (Kostenmodell, Registrierung; die private-Konto-Regel aus Mission 6 gilt unverändert) → Discord/Slack für Gruppen.

Sicher von unterwegs: das VPN-Prinzip

Der grösste Anfängerfehler bei Fernzugriff: einen Port des Heimrouters ins Internet öffnen («Portfreigabe») — damit steht deine Weboberfläche jedem Scanner der Welt offen. Der sichere Standardweg ist ein VPN (Virtual Private Network): ein verschlüsselter Tunnel, durch den dein Handy so tut, als wäre es zuhause im Netz.

Praktisch heisst das heute meist: ein modernes Mesh-VPN wie Tailscale (oder selbstgehostete Alternativen wie WireGuard) — Geräte melden sich in einem privaten Netz an, erreichen einander verschlüsselt, und nichts lauscht öffentlich (Einordnung: etablierte Standardempfehlung; Produkte und Details gehören in Labor 8 und den Katalog). Merkregel:

Die Datenschutz-Matrix für deine Projektwahl

Schnittstelle Bleibt lokal? Typischer Einsatz
STT/TTS lokal (Whisper & Co.) ja Diktat, Sprachassistent (Labor 3)
Vision lokal ja Dokumente, Qualitätskontrolle (Labor 4)
Lokale Weboberfläche + VPN ja (Tunnel) Fernzugriff auf Chat/Agent
Telegram-Bot Meldungen via Server Status & Not-Aus (Mission 6)
WhatsApp Business API via Meta, Kosten Geschäftliche Erreichbarkeit
E-Mail via Provider Berichte, Wochenzusammenfassungen

Projektregel daraus: Inhalte lokal verarbeiten, nach aussen nur Ergebnisse und Status — und auch die nur so detailliert wie nötig (dein Mission-6-Prinzip, verallgemeinert).

Vertiefung: Warum Audio/Vision lokal so gut funktionieren

Spracherkennung und Bildverständnis sind enger umrissene Aufgaben als offenes Denken: Die Modelle sind kleiner, die Qualität lokaler Varianten liegt näher an der Cloud als bei grossen Sprachmodellen. Deshalb ist «Ohren und Augen lokal, schweres Denken wahlweise geroutet» (KM8) eine so beliebte Architektur — sie hält das Sensibelste (Stimme, Bilder aus der Wohnung) garantiert im Haus.

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Du willst von unterwegs auf deine lokale KI-Weboberfläche. Der sichere Weg?
Ein Bastelprojekt soll Kundengespräche transkribieren. Welche Architektur passt zum Datenschutz?
Was verlässt bei der Architektur «lokal verarbeiten, Status nach aussen» das Haus?

Das kann ich jetzt

  • Ich kenne die vier Sinneskanäle (STT, TTS, Vision, Messenger/Oberflächen) und ihre lokalen Möglichkeiten.
  • Ich wende das Fernzugriffs-Grundgesetz an: erst VPN-Tunnel, nie Portfreigaben für Heim-KI.
  • Ich entwerfe Projekte nach der Datenschutz-Matrix: Inhalte lokal, nach aussen nur Status.

Nächster Schritt: Kernmodul 10 — selbstständig weiterlernen: GitHub-Projekte finden und beurteilen.