Labor 4 · freiwillig

Visuelle KI und Kameras

Deine lokale KI bekommt Augen: Bilder beschreiben, Text aus Fotos lesen, Qualität kontrollieren — direkt in LM Studio, ohne Cloud. Plus die Rechtslage, bevor eine Kamera auf Menschen zeigt.

Dauer: ca. 75 Minuten
Lernziel: Du betreibst ein Vision-Modell lokal in LM Studio, hast Bildbeschreibung, Texterkennung und eine Qualitätskontrolle praktisch geprüft — und kennst die Schweizer Grundregeln, bevor eine Kamera Personen erfasst.
Voraussetzungen: Mission 1 (LM Studio, Modelle laden) · KM3 (Modellwahl) · KM9 (Schnittstellenkarte: Vision-Grundlagen) · Webcam oder Smartphone-Kamera
Kosten: CHF 0 — vorhandene Webcam oder Smartphone-Kamera genügt
Lernwert: ★★★★★ (5 von 5)
Spassfaktor: ★★★★☆ (4 von 5)

Das Experiment

Aus KM1 kennst du Vision-Modelle als Kategorie, die Schnittstellenkarte hat sie als «Augen» deines Assistenten eingeordnet. Jetzt wird es konkret: Du lädst ein VLM (Vision-Language-Modell — ein Sprachmodell, das zusätzlich Bilder als Eingabe versteht) in LM Studio und prüfst an eigenen Fotos, was «lokale Augen» heute können — und wo sie selbstbewusst danebengreifen. Kein Bild verlässt dabei deinen Rechner.

Die Bausteine (Stand Juli 2026)

LM Studio nimmt Bilder direkt im Chat an (Büroklammer/Anhängen; unterstützt werden JPEG, PNG und WebP) — vorausgesetzt, das geladene Modell ist ein VLM. Vision-fähige Modelle erkennst du in der Modellsuche an der entsprechenden Kennzeichnung («vision»/«image input») (anhand offizieller Doku und Modellkatalog geprüft; die genaue Symbolik ändert sich mit den Versionen). Belegte Kandidaten für Notebooks:

Modellfamilie	Vision-fähige Grössen	Bemerkung
Gemma 3 (Google)	4B, 12B, 27B	die 1B-Variante ist reines Textmodell — Grösse beim Laden beachten
Qwen3-VL (Alibaba)	2B, 4B, 8B, 32B	Texterkennung offiziell in 32 Sprachen, auch bei Unschärfe/Schräglage
Qwen2.5-VL (Alibaba)	3B, 7B, 72B	Vorgänger; stark bei Layouts, Tabellen, Objektpositionen

(Grössen und Fähigkeiten laut offiziellen Modellkarten; Qualität auf deinem Gerät nicht vorab garantiert — genau das prüfst du gleich selbst.) Der Pionier LLaVA (2023) hat diese Klasse begründet, ist heute aber vor allem historisch interessant. Die KM3-Speicherregel gilt unverändert: Für ein 16-GB-Notebook ist die 2–4B-Klasse der richtige Start.

Teil 1: Die Augen testen (ca. 25 Min.)

Modell laden: Suche in LM Studio ein vision-fähiges Modell der 2–4B-Klasse (z. B. Gemma 3 4B oder Qwen3-VL 4B, Quantisierung wie gewohnt Q4). Kontrolle wie in Mission 1: Modell geladen, Chat antwortet auf Text.
Fünf Testbilder mit dem Smartphone knipsen und auf den Rechner kopieren — bewusst gemischt: ein Alltagsgegenstand, eine Raumszene, ein Foto mit Text (Buchseite, Etikett), ein Diagramm oder Fahrplan, etwas Kniffliges (Spiegelung, ungewohnte Perspektive). Keine Personen — warum, klärt der Rechtsteil unten.
Beschreiben lassen: Bild anhängen, Prompt:

Beschreibe dieses Bild präzis. Nenne danach getrennt: Was siehst du sicher, was vermutest du nur?

Kontrollpunkt: Vergleiche mit dem, was wirklich auf dem Bild ist. Die Trennfrage «sicher vs. vermutet» ist der wichtigste Teil des Prompts — sie zwingt das Modell, seine Halluzinationen (KM1) selbst zu sortieren. Notiere, wo es trotzdem selbstbewusst rät.

Teil 2: Text aus Bildern lesen (ca. 20 Min.)

OCR (Optical Character Recognition — Texterkennung aus Bildern) war jahrzehntelang Spezialsoftware; moderne VLMs können es nebenbei. Qwen3-VL gibt offiziell 32 Sprachen an, robust auch bei schwachem Licht und schrägen Aufnahmen (laut Modellkarte; anhand offizieller Doku geprüft). Dein Test:

Gedrucktes: Foto einer Buchseite oder Quittung anhängen — «Tippe den gesamten Text ab, Layout so gut wie möglich erhalten.» Prüfe Zahlen besonders: Ein verlesener Betrag ist schlimmer als ein fehlendes Wort.
Strukturiertes: Etikett oder Fahrplan — «Gib das Ergebnis als Tabelle aus.»
Handschrift (experimentell): Einkaufszettel fotografieren. Handschrift sichern die Modellkarten nicht zu — dein Ergebnis kann von brauchbar bis komisch reichen.

Praktische Anwendung sofort: Quittungen für die Spesenabrechnung abtippen, Visitenkarten erfassen, Whiteboard-Fotos in Text verwandeln — alles lokal, also auch mit vertraulichen Dokumenten (das RAG-Pendant für ganze Dokumentordner kennst du aus KM5).

Teil 3: Mini-Qualitätskontrolle (ca. 15 Min.)

Der Klassiker unter den Vision-Anwendungen: Soll-Ist-Vergleich. Du simulierst ihn mit zwei Fotos:

Fotografiere deinen Schreibtisch aufgeräumt (Soll) und einmal mit drei bewussten Abweichungen (Ist): Tasse steht da, Kabel quer, Buch fehlt.
Beide Bilder in einen Chat, Prompt:

Bild 1 ist der Sollzustand, Bild 2 der Istzustand. Liste alle Abweichungen auf. Wenn du unsicher bist, sag es.

Kontrollpunkt: Findet das Modell deine drei Abweichungen? Erfindet es welche dazu? Genau diese Fehlerarten (Übersehen vs. Erfinden) entscheiden, ob so eine Kontrolle je unbeaufsichtigt laufen dürfte — die KM8-Frage «Was kostet ein Fehler?» in Bildform.

Bevor eine Kamera auf Menschen zeigt: die Rechtslage (ca. 10 Min.)

Bis hierhin hast du Gegenstände fotografiert. Sobald eine Kamera Personen erkennbar erfasst, bearbeitest du Personendaten — dann gilt das Datenschutzgesetz, auch für Private und auch, wenn die Auswertung lokal läuft. Die Kernregeln des Eidgenössischen Datenschutz- und Öffentlichkeitsbeauftragten (EDÖB) für private Videoüberwachung (anhand der offiziellen EDÖB-Seiten geprüft):

Aufnahmebereich = eigenes Grundstück. Weder Nachbargrundstück noch öffentlicher Raum (Trottoir, Strasse) dürfen miterfasst werden.
Verhältnismässigkeit: Der Eingriff muss in vernünftigem Verhältnis zum Zweck stehen; mildere Mittel (Alarmanlage, besseres Schloss) haben Vorrang.
Transparenz: Betroffene müssen informiert sein, bevor sie den Bereich betreten — gut sichtbares Hinweisschild mit Verantwortlichem.
Speicherdauer: Aufnahmen nur so lange behalten wie nötig — in der Regel 24 Stunden.
Keine Veröffentlichung ohne Einwilligung — eigenhändige «Täterfahndung» im Internet ist widerrechtlich.

Dass die KI lokal läuft, ist datenschutzfreundlich — aber es ändert nichts an diesen Regeln: Sie hängen an der Aufnahme, nicht am Speicherort der Auswertung.

Vertiefung: Warum kleine VLMs lesen können, aber schlecht zählen

Ein VLM zerlegt das Bild in Bildhäppchen und übersetzt sie in dieselbe «Sprache», in der das Modell denkt (Tokens, KM1). Text im Bild ist dafür ideal: Buchstabenformen sind genau die Muster, auf die der Bildteil trainiert ist. Exaktes Zählen dagegen verlangt, viele gleich aussehende Häppchen einzeln zu verfolgen — dafür ist die Übersetzung zu grob. Deshalb: Lesen top, Zählen und Millimeter-Positionen mit Vorsicht.

Risiken

Selbstbewusste Bildfehler: Ein VLM beschreibt auch das flüssig, was es falsch sieht — bei Beträgen, Messwerten und Sicherheitsfragen (Herd aus?) bleibt der Mensch die letzte Instanz.
Personen im Bild: Schnell passiert (Spiegel, Fenster, Hintergrund) — für Experimente konsequent ohne Menschen arbeiten; für echte Kameraprojekte gilt der EDÖB-Abschnitt.
Schleichende Zweckausweitung: Die Kamera «für Pakete» beobachtet plötzlich auch die Nachbarskinder. Zweck vorher schriftlich festhalten — dieselbe Disziplin wie beim Agenten-Auftrag in KM7.

Erweiterungen

Vision + Agent: Dein Mission-5-Agent beschreibt neue Bilder im Eingangsordner — dieselbe API, das Bild wird der Anfrage als Base64 mitgegeben (Bauplan im Agenten-Planer skizzieren, KM7-Regeln gelten).
Vision + Routing: Das Vision-Modell beschreibt, das Textmodell aus Labor 9 sortiert die Beschreibung — die dort versprochene Erweiterung.
Ollama-Weg: Auch Ollama (Katalog) unterstützt Vision-Modelle offiziell — praktisch für den späteren Heimserver (Labor 8).

Kurz geprüft

3 Fragen zum Festigen — Feedback kommt sofort.

Deine lokale Kamera-KI wertet Aufnahmen aus, auf denen das Trottoir vor dem Haus zu sehen ist. Rechtlich …

Wofür sind kleine lokale VLMs laut deinem eigenen Test am ehesten verlässlich?

Warum verlangt der Test-Prompt die Trennung «sicher vs. vermutet»?

Das kann ich jetzt

Ich betreibe ein Vision-Modell lokal in LM Studio und weiss, woran ich vision-fähige Modelle erkenne und welche Grösse zu meinem Gerät passt.
Ich habe Bildbeschreibung, Texterkennung und einen Soll-Ist-Vergleich selbst geprüft und kenne die typischen Fehlerarten (Übersehen, Erfinden, falsches Zählen).
Ich kenne die EDÖB-Grundregeln für private Kameras (Aufnahmebereich, Transparenz, Speicherdauer) — und weiss, dass lokale Auswertung daran nichts ändert.