Mac mini und Mac Studio für lokale KI
Warum ein kleiner silberner Kasten mit 70B-Modellen umgehen kann, wo seine Grenzen liegen — und wann ein PC mit NVIDIA-Karte trotzdem die bessere Wahl ist.
Das Experiment
Du berätst drei fiktive Käuferinnen und Käufer (unten) und entscheidest je: Mac — und wenn ja, welcher — oder PC mit NVIDIA-Karte? Falls du selbst einen Apple-Silicon-Mac besitzt, kommt ein Messbonus dazu: dieselbe Tokens-pro-Sekunde-Messung wie in Mission 3, eingeordnet mit dem Bandbreiten-Wissen aus diesem Labor.
Warum Macs hier ein eigenes Labor bekommen, weisst du im Kern schon aus KM2: Unified Memory — CPU und GPU teilen sich einen gemeinsamen, schnell angebundenen Speichertopf. Dieses Labor liefert die konkreten Zahlen, Grenzen und Kaufentscheidungen dazu.
Die aktuelle Palette in Zahlen
Offizielle Apple-Angaben, anhand der Apple-Spezifikationsseiten geprüft am 02.07.2026 (RESEARCH_LOG #21). Preisrahmen: Labor 1 (UVP-Belege #18); Modellklassen als Q4-Näherung — dazu gleich mehr.
| Gerät · Chip | Unified Memory | Bandbreite | UVP-Anhalt (CHF) | Läuft gut (Q4) |
|---|---|---|---|---|
| Mac mini · M4 | 16–32 GB | 120 GB/s | ab 599 (16 GB) | 4–8B, mit 24–32 GB bis ~14B |
| Mac mini · M4 Pro | 24–64 GB | 273 GB/s | ab 1’399 | 14B flott, mit 64 GB bis ~32B |
| Mac Studio · M4 Max | 36–128 GB | 410–546 GB/s | ab 2’099 | 32B flott, mit 128 GB 70B+ |
| Mac Studio · M3 Ultra | 96–512 GB | 819 GB/s | ab 4’199 (96 GB) | 70B+ komfortabel |
Zwei Lesehilfen:
- Die Speicherspalte entscheidet, was läuft. Das ist die KM2-Logik: Das Modell muss in den (nutzbaren) Speicher passen.
- Die Bandbreitenspalte entscheidet, wie schnell es läuft. Auch das kennst du aus KM2: Beim Antworten wird das ganze Modell pro Token einmal durchgeschaufelt. Ein M4 Pro (273 GB/s) erzeugt Text darum spürbar flotter als ein M4 (120 GB/s) — beim identischen Modell. Der M3 Ultra (819 GB/s) spielt in der Liga grosser Grafikkarten.
Vertiefung: Wie viel vom Unified Memory bekommt das Modell wirklich?
Apple nennt keine offizielle Zahl; übereinstimmende Entwicklerquellen (Metal-API, llama.cpp-Projekt) beschreiben als Standard-Obergrenze rund 66–75 % des Unified Memory für die GPU — der Rest bleibt für System und Programme reserviert (Faustregel, RESEARCH_LOG #23). Praktisch: Ein 32-GB-Mac bietet dem Modell also grob 21–24 GB. Es gibt einen nicht offiziell unterstützten Systembefehl, der das Limit anhebt — für diesen Kurs raten wir davon ab: Wer sein System dafür umkonfigurieren muss, hat schlicht die nächstgrössere Speicherstufe gebraucht. Falls du es dennoch testest: Die Änderung ist nicht dauerhaft, ein Neustart setzt alles zurück.
Was läuft gut — nach Aufgabentyp
Einordnung nach Erfahrung der Community, Status: plausibel, nicht jede Kombination selbst getestet:
- Text (Chat, RAG, Agenten): die Paradedisziplin. Alles aus diesem Kurs läuft auf jedem Gerät der Tabelle — die Frage ist nur Modellgrösse und Tempo.
- Audio (Spracherkennung, z. B. Whisper): gut und effizient — beliebt gerade auf Macs, weil das Gerät dabei leise bleibt.
- Vision (Bilder verstehen): funktioniert mit den Vision-Modellen aus KM1 ordentlich; grössere Vision-Modelle profitieren von viel Speicher — hier spielt der Mac seine Stärke aus.
- Bildgenerierung: läuft, ist aber die Disziplin, in der NVIDIA-Karten dank ihres Software-Ökosystems (CUDA) meist deutlich vorne liegen. Wer primär Bilder erzeugen will, plant besser mit dem PC-Weg aus Labor 1.
Mac oder PC mit NVIDIA-Karte?
Die ehrliche Gegenüberstellung — beide Wege sind legitim:
| Kriterium | Mac (Unified Memory) | PC + NVIDIA-GPU |
|---|---|---|
| Grosse Modelle (70B+) bezahlbar | ✓ Speicher ist der Hebel (bis 512 GB) | teuer: mehrere GPUs nötig (Labor 1, Konfig. 8) |
| Tempo bei kleinen/mittleren Modellen | gut | bei passendem VRAM oft schneller (hohe GPU-Bandbreite) |
| Lautstärke, Stromverbrauch, Grösse | ✓ leise, sparsam, kompakt | Gaming-Kühlung, mehrere hundert Watt unter Last |
| Bildgenerierung, exotische Projekte | eingeschränkter | ✓ CUDA-Ökosystem, meiste Anleitungen zielen darauf |
| Aufrüstbarkeit | ✗ Speicher beim Kauf fixiert | ✓ GPU/RAM/SSD tauschbar |
| Komplettpaket ohne Bastelei | ✓ auspacken, loslegen | Auswahl und Zusammenbau gehören dazu |
Preis-Leistungs-Denkhilfe (Stand 02.07.2026, Labor-1-Belege): Für rund CHF 3’000–3’100 bekommst du entweder eine RTX 5090 mit 32 GB sehr schnellem VRAM (plus Unterbau nötig!) oder einen kompletten Mac mit ~64 GB nutzbarem Modellspeicher. Merksatz: NVIDIA kauft Tempo, Apple kauft Platz — welches Gut dir wichtiger ist, ergibt sich aus deiner Modellklassen-Ambition (KM3) und deinem Geduldsfaden.
Ausblick, klar als Gerücht gekennzeichnet: Stand 02.07.2026 stecken in Mac mini und Mac Studio weiterhin M4/M4 Pro bzw. M4 Max/M3 Ultra. M5-Chips existieren bereits im MacBook Pro; Branchenmedien erwarten M5-Versionen von mini und Studio im Lauf von 2026 (nicht offiziell bestätigt — RESEARCH_LOG #22). Wer nicht dringend kauft, prüft vor dem Kauf kurz, ob der Wechsel stattgefunden hat.
Das Experiment: drei Beratungsfälle
Entscheide je: welches Gerät, welche Speicherstufe, oder PC-Alternative? Begründe mit Speicher, Bandbreite, Lautstärke und Preis (Labor-1-Rahmen). Musterüberlegungen stehen aufklappbar darunter — erst selbst entscheiden!
- Sina will einen leisen Rechner fürs Wohnzimmerbüro: Alltag, Chat mit Dokumenten (KM5), 7–14B-Klasse, Budget CHF 1’000.
- Marco will in die 70B-Klasse für Textarbeit, hasst Lüfterlärm, Budget CHF 4’500.
- Ayla experimentiert mit Bildgenerierung und wechselnden GitHub-Projekten (KM10), Budget CHF 2’000, Lärm egal.
Musterüberlegungen (erst nach eigener Entscheidung öffnen)
Sina: Mac mini M4 mit 24 GB (CHF 999) — leise, genug nutzbarer Speicher für die 7–14B-Klasse. Die 16-GB-Stufe wäre der klassische Fehlkauf, der gebrauchte Gaming-PC (Labor 1) die lautere, aber schnellere Alternative. Marco: Mac Studio M3 Ultra 96 GB (CHF 4’199) — 70B (Q4) passt in den nutzbaren Speicher, 819 GB/s halten es flüssig, und das Gerät bleibt wohnzimmertauglich. Der PC-Weg (2 × RTX 3090) wäre billiger, aber laut und bastelintensiv. Ayla: PC mit 16-GB-NVIDIA-Karte (Labor 1, Konfiguration 5) — für Bildgenerierung und GitHub-Experimente ist das CUDA-Ökosystem der entscheidende Vorteil; ein Mac wäre hier die reibungsvollere Wahl.
Messbonus mit eigenem Mac: Wiederhole die Mission-3-Messung (Tokens pro Sekunde) mit deinem Standardmodell und ordne dein Ergebnis in die Bandbreiten-Tabelle ein. Liegt dein Tempo weit unter der Erwartung, prüfe zuerst, ob das Modell wirklich vollständig im Speicher liegt (KM2-Offloading-Falle).
Risiken
- Fehlkauf Speicherstufe: nicht korrigierbar — im Zweifel eine Stufe höher oder bewusst der aufrüstbare PC-Weg (Labor 1).
- Veraltete Angaben: Preise und Chip-Generationen dieser Seite sind datiert (02.07.2026). Vor dem Kauf: Apple-Specs-Seite und Preisvergleich selbst prüfen — Labor-1-Schritt 4 gilt auch hier.
- Ökosystem-Frust: Wer viel mit GitHub-Projekten experimentiert, trifft auf Anleitungen, die NVIDIA voraussetzen. Das ist kein Defekt des Macs — aber ein realer Zeitfaktor.
Erweiterungen
- Labor 8: Der sparsame, leise Mac mini ist ein natürlicher Heimserver-Kandidat.
- Eigener Vergleich: Wenn du Zugriff auf Mac und PC hast, fahre den Mission-2-Prüfungsbogen auf beiden mit demselben Modell — Tempo und Verhalten unterscheiden sich, die Qualität kaum.
- Preis-Log: Notiere die UVPs von heute und vergleiche beim nächsten Apple-Event.
Kurz geprüft
4 Fragen zum Festigen — Feedback kommt sofort.
Das kann ich jetzt
- Ich lese die Mac-Palette wie ein Datenblatt: Speicherstufe bestimmt die Modellklasse, Bandbreite das Tempo — und nutzbar sind grob zwei Drittel des Unified Memory.
- Ich kann Mac und PC-mit-NVIDIA für ein konkretes Profil gegeneinander abwägen («Tempo gegen Platz») und den klassischen Speicherstufen-Fehlkauf vermeiden.
- Ich weiss, welche Angaben dieser Seite datiert sind, und prüfe sie vor einem Kauf selbst.