Redis-Schöpfer antirez (Salvatore Sanfilippo) hat ds4 (DwarfStar 4) in einer Arbeitswoche aus rund 1.000 Zeilen reinem C herausgeschrieben. Damit läuft DeepSeek V4 Flash erstmals wirklich lokal auf dem Mac. Innerhalb von drei Wochen sammelte das Repository 11.500+ Sterne und 30 Mitwirkende. Die Hardwarehürde ist allerdings ebenso konkret: 96 GB Unified Memory sind die Untergrenze, 128 GB der angenehme Arbeitspunkt. In Euro entspricht das einem Mac Studio ab rund 4.000 € bis über 12.000 €. Dieser Artikel wiederholt das README nicht. Er beantwortet drei Fragen: warum ds4 kein weiterer llama.cpp-Wrapper ist, weshalb Apple Silicons UMA Metal als primäres Backend erzwingt und wie Sie ds4 heute betreiben können, ohne einen Top-Mac zu kaufen – indem Sie einen Hochspeicher-Mac-Knoten mieten.
ds4 wurde am 06.05.2026 öffentlich. Drei Wochen später sind es 11.500+ Sterne und 30 Mitwirkende, reines C unter MIT-Lizenz. Kaum eine Person, die lokale Inferenz verfolgt, hat das übersehen. Wesentlich weniger haben aber tatsächlich kompiliert, das GGUF heruntergeladen und den Server gestartet. Der Grund ist einfach: ds4 hebt die Latte so hoch, dass die meisten Macs durchfallen. Die folgenden sechs Symptome treffen praktisch jede Person, die ds4 ausprobieren möchte.
Standard-MacBook-Pro reicht nicht. 14"/16"-Modelle haben serienmäßig 16/24/36 GB. Schon die 81 GB der q2-Gewichte passen nicht hinein.
RAM-Upgrade ist teuer. Der Sprung von 64 GB auf 96 oder 128 GB verlangt einen M3/M4/M5 Max in Topkonfiguration. Die Mehrkosten liegen im vierstelligen Bereich.
Mac Studio ist keine Beiläufigkeit. 128-GB-Mac-Studio ab etwa 4.000 €, 512 GB für V4-Pro-Versuche jenseits 12.000 €. Für Einzelentwickler eine unangemessen hohe Investition.
Workstations mit Windows / Linux sind ein Umweg. Consumer-GPUs mit 24/32 GB VRAM tragen den Working Set nicht. DGX-Spark-Klassen bringen eigene Kosten und Betriebslast.
Ein Top-Mac geteilt im Team ist mühsam. Ein dauerhaft laufender ds4-Server belegt fast den gesamten Arbeitsspeicher. Mehrnutzerbetrieb wird zur Warteschlange und kontaminiert Sitzungszustände.
In sechs Monaten kann das Modell wechseln. ds4 ist laut Autor Alpha-Qualität, DeepSeek V4 Flash eine Preview. Ein 12.000-€-Mac „für das nächste Modellexperiment" trägt ein erhebliches Abschreibungsrisiko.
Die Bilanz dieser sechs Punkte ist eindeutig: die Software ist bereit, die Hardware nicht. ds4 hat „DeepSeek V4 Flash lokal auf dem Mac" von „unmöglich" auf „möglich" gehoben. Zwischen „möglich" und „für alle zugänglich" steht genau eine Mac-Studio-Rechnung.
Die Grenzen von ds4 zu kennen ist genauso wichtig wie zu wissen, was es leistet. antirez schreibt im README unzweideutig: kein generischer GGUF-Runner, kein Wrapper, kein Framework. ds4 macht eine Sache – DeepSeek V4 Flash auf Metal und CUDA korrekt und schnell ausführen – und treibt sie an die Grenze. Die folgende Tabelle stellt ds4 neben die bekannten lokalen Inferenzwege.
| Werkzeug | Modellabdeckung | Bestes Einsatzfeld | Schlüsselgrenze |
|---|---|---|---|
| ds4 (DwarfStar 4) | Nur DeepSeek V4 Flash | Maximaler Mac-Durchsatz für V4 Flash mit Coding-Agent im Dauerbetrieb | Einmodell, Alpha-Qualität, 96–128 GB Pflicht |
| llama.cpp | Fast alle GGUF-Familien | Modell pro Woche tauschen, breite Portabilität | Kein V4-Flash-spezifischer Pfad, keine vergleichbare Persistenz |
| Ollama | Gängige GGUFs, Einzeilen-Pull | Team-geteilte lokale Modelle hinter sauberer API | Mittelweg bei Tempo und Kontrolle, lange Kontexte uneinheitlich |
| vLLM / SGLang | HuggingFace-Gewichte breit | Cloud-Multi-GPU-Serving, geteilter Endpoint | Nicht für ein einzelnes Mac-System ausgelegt |
| Cloud-API (z. B. DeepSeek) | Vollpräziser V4 Flash / Pro | Hardware ignorieren, höchste Qualität | Daten verlassen das System; lange Sitzungen pro Token abgerechnet |
Drei reale Engineering-Entscheidungen heben ds4 ab. Erstens ein spezialisierter Graph-Executor rund um V4-Flashs Tensor-Layout, Tokenizer und MoE-Routing – schneller als jeder generische Runner. Zweitens eine asymmetrische 2-bit-Quantisierung: aggressive Niedrigpräzision dort, wo Schichten Rauschen vertragen (Routing-MoE-Experten: Gate IQ2_XXS, Down Q2_K), höhere Präzision auf dem kritischen Pfad. Ergebnis: 81 GB q2 passen in 128 GB UMA und treffen Tool-Calls zuverlässig. Drittens ein On-Disk-KV-Cache, der nach SHA1 der Token-IDs persistiert und Session-Wechsel sowie Serverneustarts überlebt. Ein teurer Erst-Prefill über 25k Tokens wird einmal bezahlt.
ds4 macht aus „V4 Flash auf dem Mac" eine engineering-fähige Strecke: nichts anderes tun und diese eine Strecke an die Grenze von Apple Silicon und CUDA bringen.
Die Backend-Reihenfolge in ds4 ist bewusst gewählt: Metal zuerst, dann CUDA (mit besonderem Fokus auf DGX Spark und GB10), ROCm nur in einem separaten Branch, CPU ausschließlich zur Korrektheitsprüfung. Diese Reihenfolge hängt direkt an Apple Silicons Unified Memory Architecture (UMA).
Auf dem Mac teilen sich CPU und GPU denselben physischen Arbeitsspeicher. Ein 81-GB-GGUF benötigt keinen Host-zu-Device-Transfer; Tensoren werden direkt vom Grafikteil gelesen. Aktivierungen, KV-Zustand und Tokenizer-Puffer liegen im selben Adressraum. Metal-Kernels greifen unmittelbar zu. Für ds4 – ein MoE-Engine, das pro Token einen großen, dünn besetzten Expertenpool berührt – senkt das Wegfallen dieser Kopien die untere Latenzgrenze direkt.
Diskrete GPUs halten hier nicht mit. Eine 32-GB-Consumer-Karte trägt den Working Set gar nicht, eine 80-GB-H100 verlangt nach Rechenzentrum samt Kühlung. „Mac auf dem Schreibtisch" lässt sich so nicht replizieren. Deshalb ist Metal an erster Stelle, und CUDA-Optimierung konzentriert sich auf DGX Spark und GB10, NVIDIA-Plattformen mit Unified-Memory-Charakteristik. Das Ziel: kein weiteres Inferenz-Framework, sondern die einzig verfügbare Consumer-Form, bei der eine GPU großen Speicher direkt anfassen kann, restlos ausnutzen.
# Auf einem Apple-Silicon-Mac (96/128 GB UMA): ds4 von Grund auf bauen und starten
git clone https://github.com/antirez/ds4.git
cd ds4
make # Standard: Metal-Backend
# V4 Flash q2-imatrix GGUF laden (~81 GB nach ./gguf/)
./download_model.sh q2-imatrix
# Server starten: 100k Kontext + 8 GB On-Disk-KV-Cache
./ds4-server --ctx 100000 \
--kv-disk-dir /tmp/ds4-kv \
--kv-disk-space-mb 8192
# Hört auf http://127.0.0.1:8000/v1/chat/completions (OpenAI-kompatibel)
Nach dem Start richten Sie die OpenAI-Base-URL Ihres Coding-Agents (Claude Code, Cursor, opencode) auf http://127.0.0.1:8000/v1. Sie erhalten einen vollständig offline arbeitenden V4-Flash-Endpoint, dessen Berechtigungsgrenze auf dem Rechner bleibt.
Bevor Sie Hardware kaufen oder mieten, rechnen Sie die Speicherbilanz nüchtern durch. Das q2-GGUF belegt rund 81 GB auf der SSD. Geladene Gewichte plus Aktivierungen, Tokenizer und Metal-Puffer machen 96 GB UMA zur dokumentierten Untergrenze; Berichte aus der Community zeigen sogar 250k Kontext. 128 GB sind das, was antirez tatsächlich empfiehlt. Wer Richtung 1M-Tokens-Kontext skaliert, braucht zusätzlich rund 22 GB allein für den Indexer und insgesamt etwa 26 GB. In 128 GB wird das eng. Praktisch komfortabel sind 100–300k Tokens auf 128 GB.
| Formfaktor | Unified Memory | ds4 (V4 Flash q2) lauffähig? | Realistisches Kontextfenster |
|---|---|---|---|
| MacBook Pro Standard (16–36 GB) | 16 / 24 / 36 GB | Nein, Gewichte passen nicht | — |
| MacBook Pro Mittelstufe (48–64 GB) | 48 / 64 GB | Nein, Gewichte füllen den Speicher | — |
| MacBook Pro M3/M4/M5 Max 96 GB | 96 GB | Knapp möglich, andere Schwergewichte beenden | Community: bis ~250k |
| Mac Studio / MacBook Pro 128 GB | 128 GB | Komfortabel, Reserve für Editor und Agent | 100–300k stabil |
| Mac Studio M3 Ultra 256 GB+ | 256 GB+ | Reichlich, lange Sitzungen + persistenter KV | Annäherung an 1M Tokens |
| Mac Studio M3 Ultra 512 GB (V4 Pro Versuch) | 512 GB | Nicht unterstützt – ds4 ist Flash-only | — |
Tipp: der On-Disk-KV-Cache spielt seine Stärke aus, wenn Sie --kv-disk-dir auf die interne SSD legen. Sitzungswechsel, Serverneustarts und Wiederverwendung am Folgetag ersparen tausende Prefill-Tokens. Das ist der entscheidende UX-Unterschied zu generischen Inferenz-Servern.
Hinweis: das README warnt deutlich, dass aktuelle macOS-Versionen den Kernel beim CPU-Pfad zum Absturz bringen können. Nutzen Sie das Metal-Backend; bauen Sie unter macOS niemals mit make cpu. Genau deshalb gibt es in der ds4-Roadmap keinen CPU-Fallback für Apple Silicon.
Die folgenden Zahlen stammen aus dem ds4-README, der DeepSeek-V4-Flash-Modellkarte auf Hugging Face und Community-Messungen. Sie beantworten genau eine Frage: „Wie weit reicht mein heutiger Mac eigentlich nicht?"
Übersetzt in Entscheidungen: Der Kauf eines Mac Studio Topkonfiguration funktioniert, kostet aber 7.500–12.000 € und bindet Kapital an eine Alpha-Engine und ein Preview-Modell. Eine Cloud-API liefert volle Präzision, jedoch verlassen Daten den Rechner und lange Sitzungen werden je Prefill abgerechnet; Agent und Berechtigungsgrenze liegen außerhalb. Für Entwicklerinnen und Entwickler, die ds4 + V4 Flash als echte lokale Inferenz wollen, ohne das Budget auf einen abschreibungsanfälligen Mac zu setzen, ist NodeMinis Mac-Mini-Cloud-Miete in der Regel die bessere Antwort: per SSH sofort einsatzbereit, nach Gebrauch stoppen, Daten bleiben in Ihrer dedizierten Instanz – relevant im DSGVO-Kontext für klare Verantwortlichkeiten. Specs und Preise auf der Mietpreisseite, Abrechnungsdetails unter SLA und Commitment.
Die folgende Reihenfolge ist der kürzeste Weg von „kein Top-Mac" zu „OpenAI-kompatibler V4-Flash-Endpoint auf meinem Tisch". Jeder Schritt adressiert eine zuvor besprochene Einschränkung. End-to-End unter zwei Stunden.
Spezifikation ab 128 GB ableiten. 2-bit-Gewichte mit ~100k Kontext brauchen 128 GB für Komfort. Wer Richtung 1M Tokens will, plant 256 GB+. 96 GB sind keine Sparoption, wenn IDE, Agent und Browser gleichzeitig laufen sollen.
Hochspeicher-Mac-Knoten bei NodeMini buchen. Speicher, Region und Laufzeit auf der Bestellseite wählen. Bereitstellung im Sekundenbereich, SSH-Schlüsselpaar wird ausgeliefert, danach ssh user@host.
Auf dem Knoten klonen, Abhängigkeiten installieren, bauen. git clone https://github.com/antirez/ds4.git && cd ds4 && make. Auf Apple Silicon greift standardmäßig Metal. Niemals make cpu unter macOS – das README warnt explizit vor Kernel-Abstürzen.
q2-imatrix-GGUF laden und On-Disk-KV-Cache konfigurieren. Mit beiliegendem download_model.sh die Variante q2 / q2-imatrix / q4 ziehen. --kv-disk-dir auf einen festen SSD-Pfad zeigen, --kv-disk-space-mb auf 8–32 GB setzen, damit der Cache wirklich greift.
ds4-Server an den Coding-Agent koppeln. ./ds4-server --ctx 200000 --kv-disk-dir ... --kv-disk-space-mb 16384 starten. Base-URL von Claude Code, Cursor oder opencode auf http://127.0.0.1:8000/v1 setzen, vorzugsweise über SSH-Portweiterleitung – Port niemals öffentlich machen. OpenAI- und Anthropic-Tool-Protokolle unterstützt ds4 nativ.
Zugriffstopologie verfestigen. SSH-Public-Key plus privaten Tunnel wie Tailscale machen aus dem Knoten einen Zero-Trust-Endpoint. In Phasen ohne Nutzung Maschine stoppen – Abrechnung pausiert. Für Dauerbetrieb launchd-Unit beim Boot starten lassen, kombiniert mit persistentem KV-Cache: am nächsten Tag direkt weiterarbeiten.
Vergleicht man das mit dem Kauf eines Mac Studio, treten drei reale Nachteile zutage: Abschreibung hängt an einer Alpha-Engine und einem Preview-Modell, ein dauerhafter ds4-Prozess konkurriert mit Alltagsaufgaben um RAM, und ein gemeinsamer Top-Mac im Team wird zur Warteschlange. Für Entwicklerinnen und Entwickler, die ds4 + V4 Flash als Alltagswerkzeug betreiben, das Abschreibungsrisiko aber bedarfsorientiert verteilen wollen, ist NodeMinis Mac-Mini-Cloud-Miete in der Regel die bessere Antwort. Sie passt zu den Argumenten von drei Jahren TCO-Vergleich und 24/7-Cloud-Mac-Automatisierung. Zugriffsdetails finden Sie im Hilfezentrum.
Aktuell nein. ds4 ist auf DeepSeek V4 Flash spezialisiert (284 B gesamt, 13 B aktiviert). Pro ist ein MoE mit 1,6 T Gesamt- und 49 B aktivierten Parametern und überschreitet quantisiert weiterhin den Unified Memory aktueller Macs. Pro bleibt Cloud-Werkzeug (vLLM / SGLang).
96 GB sind die dokumentierte Untergrenze. Community-Berichte zeigen 2-bit-Quants auf 96-GB-Macs, teils 250k Kontext. Im Alltag mit Editor und Agent empfiehlt antirez 128 GB. Wer Richtung 1M Tokens skaliert, braucht zusätzliche rund 26 GB. Sicher fährt man mit 256 GB+ Knoten – siehe Mietpreisseite.
Mieten Sie einen Hochspeicher-Mac-Knoten bei NodeMini. SSH-Login, git clone, make, GGUF laden, ./ds4-server starten – End-to-End unter zwei Stunden. Zugriff im Hilfezentrum, Always-On-Pattern mit Agent in 24/7-Cloud-Mac-Automatisierung. Daten bleiben in Ihrer dedizierten Instanz, was DSGVO-Verantwortlichkeiten klar regelt.