Sprache, Kameras, Messenger: Die Schnittstellenkarte
Wie dein Assistent Ohren, Stimme, Augen und Fernzugriff bekommt — was heute lokal gut funktioniert, was Kompromisse kostet und wie du von unterwegs sicher nach Hause kommst.
Vier Sinneskanäle für deinen Assistenten
Ohren — Spracherkennung (STT, Speech-to-Text): Die Whisper-Modellfamilie (OpenAI, offen verfügbar) und ihre schnellen Ableger sind der De-facto-Standard für lokale Spracherkennung — mehrsprachig, auch Deutsch, in Grössen vom Notebook- bis zum Serverformat (Einordnung: etabliert; konkrete Varianten im Technologiekatalog). Dazu gehören zwei Hardware-Wahrheiten: Ein brauchbares Mikrofon schlägt jedes bessere Modell, und Wake Words («Hey Assistent…») sind eigene, kleine Dauerlauscher-Modelle — praktisch fürs Labor 3 (Sprachassistent).
Stimme — Sprachausgabe (TTS, Text-to-Speech): Lokal von «verständlich» bis «erstaunlich natürlich»; die Qualität wächst mit Modellgrösse und Rechenzeit. Für Statusmeldungen reicht Kleines, für Vorlese-Komfort lohnt der Vergleich per eigenem Ohr.
Augen — Kameras und Bildverständnis: Vision-Modelle (KM1) beschreiben Bilder, lesen Text (OCR) und erkennen Objekte — lokal machbar in der 4–12B-Klasse. Quellen: Webcam, Smartphone-Kamera, Dokumentenkamera. Rechtlich zwingend: Kameras, die Menschen erfassen, berühren Persönlichkeitsrechte — im Aussenraum und bei Gästen gilt: informieren, minimieren, lokal speichern (vertieft in Labor 4).
Draht zur Welt — Messenger und Oberflächen: Die Leiter aus Mission 6, geordnet nach Datenabfluss: lokale Weboberfläche (nichts verlässt das Haus) → Telegram-Bot (Meldungen via Serverdienst) → E-Mail (unverschlüsselt = Postkarte) → WhatsApp nur über die offizielle Business-API (Kostenmodell, Registrierung; die private-Konto-Regel aus Mission 6 gilt unverändert) → Discord/Slack für Gruppen.
Sicher von unterwegs: das VPN-Prinzip
Der grösste Anfängerfehler bei Fernzugriff: einen Port des Heimrouters ins Internet öffnen («Portfreigabe») — damit steht deine Weboberfläche jedem Scanner der Welt offen. Der sichere Standardweg ist ein VPN (Virtual Private Network): ein verschlüsselter Tunnel, durch den dein Handy so tut, als wäre es zuhause im Netz.
Praktisch heisst das heute meist: ein modernes Mesh-VPN wie Tailscale (oder selbstgehostete Alternativen wie WireGuard) — Geräte melden sich in einem privaten Netz an, erreichen einander verschlüsselt, und nichts lauscht öffentlich (Einordnung: etablierte Standardempfehlung; Produkte und Details gehören in Labor 8 und den Katalog). Merkregel:
Die Datenschutz-Matrix für deine Projektwahl
| Schnittstelle | Bleibt lokal? | Typischer Einsatz |
|---|---|---|
| STT/TTS lokal (Whisper & Co.) | ja | Diktat, Sprachassistent (Labor 3) |
| Vision lokal | ja | Dokumente, Qualitätskontrolle (Labor 4) |
| Lokale Weboberfläche + VPN | ja (Tunnel) | Fernzugriff auf Chat/Agent |
| Telegram-Bot | Meldungen via Server | Status & Not-Aus (Mission 6) |
| WhatsApp Business API | via Meta, Kosten | Geschäftliche Erreichbarkeit |
| via Provider | Berichte, Wochenzusammenfassungen |
Projektregel daraus: Inhalte lokal verarbeiten, nach aussen nur Ergebnisse und Status — und auch die nur so detailliert wie nötig (dein Mission-6-Prinzip, verallgemeinert).
Vertiefung: Warum Audio/Vision lokal so gut funktionieren
Spracherkennung und Bildverständnis sind enger umrissene Aufgaben als offenes Denken: Die Modelle sind kleiner, die Qualität lokaler Varianten liegt näher an der Cloud als bei grossen Sprachmodellen. Deshalb ist «Ohren und Augen lokal, schweres Denken wahlweise geroutet» (KM8) eine so beliebte Architektur — sie hält das Sensibelste (Stimme, Bilder aus der Wohnung) garantiert im Haus.
Kurz geprüft
3 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich kenne die vier Sinneskanäle (STT, TTS, Vision, Messenger/Oberflächen) und ihre lokalen Möglichkeiten.
- Ich wende das Fernzugriffs-Grundgesetz an: erst VPN-Tunnel, nie Portfreigaben für Heim-KI.
- Ich entwerfe Projekte nach der Datenschutz-Matrix: Inhalte lokal, nach aussen nur Status.
Nächster Schritt: Kernmodul 10 — selbstständig weiterlernen: GitHub-Projekte finden und beurteilen.