Reichen 96 GB wirklich, oder sind 128 GB Pflicht?

96 GB sind die dokumentierte Untergrenze. Community-Berichte zeigen 2-bit-Quants auf 96-GB-Macs, teils mit 250k Kontext. Für den Alltagsbetrieb mit Editor und Agent empfiehlt antirez 128 GB. Wer Richtung 1M Tokens skaliert, braucht zusätzliche rund 26 GB allein für den Indexer.

Ich besitze keinen Top-Mac. Wie probiere ich ds4 am schnellsten?

Mietet einen Hochspeicher-Mac-Knoten bei NodeMini. SSH-Login, git clone, make, GGUF laden, ./ds4-server starten – unter zwei Stunden. Specs und Preise auf der NodeMini-Mietpreisseite, Zugriffsdetails im Hilfezentrum. Daten verlassen Ihre dedizierte Instanz nicht, was im DSGVO-Kontext klare Verantwortlichkeiten schafft.

antirez ds4 bringt DeepSeek V4 Flash echt lokal auf den Mac
Die 96-GB-UMA-Mauer, On-Disk-KV-Cache und ein gemieteter Hochspeicher-Mac als Ausweg

Q: Kann ds4 DeepSeek V4 Pro ausführen?

Aktuell nein. ds4 ist ein auf DeepSeek V4 Flash spezialisierter Inferenz-Engine. Flash hat 284B Parameter gesamt und 13B aktiviert. Pro ist ein MoE mit 1,6T Gesamt- und 49B aktivierten Parametern und überschreitet auch quantisiert den Unified Memory aktueller Macs. Pro bleibt vorerst Sache von Cloud-vLLM oder SGLang.

Redis-Schöpfer antirez (Salvatore Sanfilippo) hat ds4 (DwarfStar 4) in einer Arbeitswoche aus rund 1.000 Zeilen reinem C herausgeschrieben. Damit läuft DeepSeek V4 Flash erstmals wirklich lokal auf dem Mac. Innerhalb von drei Wochen sammelte das Repository 11.500+ Sterne und 30 Mitwirkende. Die Hardwarehürde ist allerdings ebenso konkret: 96 GB Unified Memory sind die Untergrenze, 128 GB der angenehme Arbeitspunkt. In Euro entspricht das einem Mac Studio ab rund 4.000 € bis über 12.000 €. Dieser Artikel wiederholt das README nicht. Er beantwortet drei Fragen: warum ds4 kein weiterer llama.cpp-Wrapper ist, weshalb Apple Silicons UMA Metal als primäres Backend erzwingt und wie Sie ds4 heute betreiben können, ohne einen Top-Mac zu kaufen – indem Sie einen Hochspeicher-Mac-Knoten mieten.

11,5k Sterne in drei Wochen – dahinter steht eine Hardware-Mauer im fünfstelligen Bereich

ds4 wurde am 06.05.2026 öffentlich. Drei Wochen später sind es 11.500+ Sterne und 30 Mitwirkende, reines C unter MIT-Lizenz. Kaum eine Person, die lokale Inferenz verfolgt, hat das übersehen. Wesentlich weniger haben aber tatsächlich kompiliert, das GGUF heruntergeladen und den Server gestartet. Der Grund ist einfach: ds4 hebt die Latte so hoch, dass die meisten Macs durchfallen. Die folgenden sechs Symptome treffen praktisch jede Person, die ds4 ausprobieren möchte.

01
Standard-MacBook-Pro reicht nicht. 14"/16"-Modelle haben serienmäßig 16/24/36 GB. Schon die 81 GB der q2-Gewichte passen nicht hinein.
02
RAM-Upgrade ist teuer. Der Sprung von 64 GB auf 96 oder 128 GB verlangt einen M3/M4/M5 Max in Topkonfiguration. Die Mehrkosten liegen im vierstelligen Bereich.
03
Mac Studio ist keine Beiläufigkeit. 128-GB-Mac-Studio ab etwa 4.000 €, 512 GB für V4-Pro-Versuche jenseits 12.000 €. Für Einzelentwickler eine unangemessen hohe Investition.
04
Workstations mit Windows / Linux sind ein Umweg. Consumer-GPUs mit 24/32 GB VRAM tragen den Working Set nicht. DGX-Spark-Klassen bringen eigene Kosten und Betriebslast.
05
Ein Top-Mac geteilt im Team ist mühsam. Ein dauerhaft laufender ds4-Server belegt fast den gesamten Arbeitsspeicher. Mehrnutzerbetrieb wird zur Warteschlange und kontaminiert Sitzungszustände.
06
In sechs Monaten kann das Modell wechseln. ds4 ist laut Autor Alpha-Qualität, DeepSeek V4 Flash eine Preview. Ein 12.000-€-Mac „für das nächste Modellexperiment" trägt ein erhebliches Abschreibungsrisiko.

Die Bilanz dieser sechs Punkte ist eindeutig: die Software ist bereit, die Hardware nicht. ds4 hat „DeepSeek V4 Flash lokal auf dem Mac" von „unmöglich" auf „möglich" gehoben. Zwischen „möglich" und „für alle zugänglich" steht genau eine Mac-Studio-Rechnung.

ds4 ist kein weiteres llama.cpp: spezialisierter Graph, asymmetrische 2-bit-Quantisierung, On-Disk-KV-Cache

Die Grenzen von ds4 zu kennen ist genauso wichtig wie zu wissen, was es leistet. antirez schreibt im README unzweideutig: kein generischer GGUF-Runner, kein Wrapper, kein Framework. ds4 macht eine Sache – DeepSeek V4 Flash auf Metal und CUDA korrekt und schnell ausführen – und treibt sie an die Grenze. Die folgende Tabelle stellt ds4 neben die bekannten lokalen Inferenzwege.

Werkzeug	Modellabdeckung	Bestes Einsatzfeld	Schlüsselgrenze
ds4 (DwarfStar 4)	Nur DeepSeek V4 Flash	Maximaler Mac-Durchsatz für V4 Flash mit Coding-Agent im Dauerbetrieb	Einmodell, Alpha-Qualität, 96–128 GB Pflicht
llama.cpp	Fast alle GGUF-Familien	Modell pro Woche tauschen, breite Portabilität	Kein V4-Flash-spezifischer Pfad, keine vergleichbare Persistenz
Ollama	Gängige GGUFs, Einzeilen-Pull	Team-geteilte lokale Modelle hinter sauberer API	Mittelweg bei Tempo und Kontrolle, lange Kontexte uneinheitlich
vLLM / SGLang	HuggingFace-Gewichte breit	Cloud-Multi-GPU-Serving, geteilter Endpoint	Nicht für ein einzelnes Mac-System ausgelegt
Cloud-API (z. B. DeepSeek)	Vollpräziser V4 Flash / Pro	Hardware ignorieren, höchste Qualität	Daten verlassen das System; lange Sitzungen pro Token abgerechnet

Drei reale Engineering-Entscheidungen heben ds4 ab. Erstens ein spezialisierter Graph-Executor rund um V4-Flashs Tensor-Layout, Tokenizer und MoE-Routing – schneller als jeder generische Runner. Zweitens eine asymmetrische 2-bit-Quantisierung: aggressive Niedrigpräzision dort, wo Schichten Rauschen vertragen (Routing-MoE-Experten: Gate IQ2_XXS, Down Q2_K), höhere Präzision auf dem kritischen Pfad. Ergebnis: 81 GB q2 passen in 128 GB UMA und treffen Tool-Calls zuverlässig. Drittens ein On-Disk-KV-Cache, der nach SHA1 der Token-IDs persistiert und Session-Wechsel sowie Serverneustarts überlebt. Ein teurer Erst-Prefill über 25k Tokens wird einmal bezahlt.

ds4 macht aus „V4 Flash auf dem Mac" eine engineering-fähige Strecke: nichts anderes tun und diese eine Strecke an die Grenze von Apple Silicon und CUDA bringen.

Warum Metal das primäre Backend ist: Apple Silicons UMA ist der unfaire Vorteil

Die Backend-Reihenfolge in ds4 ist bewusst gewählt: Metal zuerst, dann CUDA (mit besonderem Fokus auf DGX Spark und GB10), ROCm nur in einem separaten Branch, CPU ausschließlich zur Korrektheitsprüfung. Diese Reihenfolge hängt direkt an Apple Silicons Unified Memory Architecture (UMA).

Auf dem Mac teilen sich CPU und GPU denselben physischen Arbeitsspeicher. Ein 81-GB-GGUF benötigt keinen Host-zu-Device-Transfer; Tensoren werden direkt vom Grafikteil gelesen. Aktivierungen, KV-Zustand und Tokenizer-Puffer liegen im selben Adressraum. Metal-Kernels greifen unmittelbar zu. Für ds4 – ein MoE-Engine, das pro Token einen großen, dünn besetzten Expertenpool berührt – senkt das Wegfallen dieser Kopien die untere Latenzgrenze direkt.

Diskrete GPUs halten hier nicht mit. Eine 32-GB-Consumer-Karte trägt den Working Set gar nicht, eine 80-GB-H100 verlangt nach Rechenzentrum samt Kühlung. „Mac auf dem Schreibtisch" lässt sich so nicht replizieren. Deshalb ist Metal an erster Stelle, und CUDA-Optimierung konzentriert sich auf DGX Spark und GB10, NVIDIA-Plattformen mit Unified-Memory-Charakteristik. Das Ziel: kein weiteres Inferenz-Framework, sondern die einzig verfügbare Consumer-Form, bei der eine GPU großen Speicher direkt anfassen kann, restlos ausnutzen.

bash

# Auf einem Apple-Silicon-Mac (96/128 GB UMA): ds4 von Grund auf bauen und starten
git clone https://github.com/antirez/ds4.git
cd ds4
make                        # Standard: Metal-Backend

# V4 Flash q2-imatrix GGUF laden (~81 GB nach ./gguf/)
./download_model.sh q2-imatrix

# Server starten: 100k Kontext + 8 GB On-Disk-KV-Cache
./ds4-server --ctx 100000 \
             --kv-disk-dir /tmp/ds4-kv \
             --kv-disk-space-mb 8192
# Hört auf http://127.0.0.1:8000/v1/chat/completions (OpenAI-kompatibel)

Nach dem Start richten Sie die OpenAI-Base-URL Ihres Coding-Agents (Claude Code, Cursor, opencode) auf http://127.0.0.1:8000/v1. Sie erhalten einen vollständig offline arbeitenden V4-Flash-Endpoint, dessen Berechtigungsgrenze auf dem Rechner bleibt.

Die Speicherrechnung: 96 GB Untergrenze, 128 GB Komfort, 1M Kontext kostet 26 GB extra

Bevor Sie Hardware kaufen oder mieten, rechnen Sie die Speicherbilanz nüchtern durch. Das q2-GGUF belegt rund 81 GB auf der SSD. Geladene Gewichte plus Aktivierungen, Tokenizer und Metal-Puffer machen 96 GB UMA zur dokumentierten Untergrenze; Berichte aus der Community zeigen sogar 250k Kontext. 128 GB sind das, was antirez tatsächlich empfiehlt. Wer Richtung 1M-Tokens-Kontext skaliert, braucht zusätzlich rund 22 GB allein für den Indexer und insgesamt etwa 26 GB. In 128 GB wird das eng. Praktisch komfortabel sind 100–300k Tokens auf 128 GB.

Formfaktor	Unified Memory	ds4 (V4 Flash q2) lauffähig?	Realistisches Kontextfenster
MacBook Pro Standard (16–36 GB)	16 / 24 / 36 GB	Nein, Gewichte passen nicht	—
MacBook Pro Mittelstufe (48–64 GB)	48 / 64 GB	Nein, Gewichte füllen den Speicher	—
MacBook Pro M3/M4/M5 Max 96 GB	96 GB	Knapp möglich, andere Schwergewichte beenden	Community: bis ~250k
Mac Studio / MacBook Pro 128 GB	128 GB	Komfortabel, Reserve für Editor und Agent	100–300k stabil
Mac Studio M3 Ultra 256 GB+	256 GB+	Reichlich, lange Sitzungen + persistenter KV	Annäherung an 1M Tokens
Mac Studio M3 Ultra 512 GB (V4 Pro Versuch)	512 GB	Nicht unterstützt – ds4 ist Flash-only	—

info

Tipp: der On-Disk-KV-Cache spielt seine Stärke aus, wenn Sie --kv-disk-dir auf die interne SSD legen. Sitzungswechsel, Serverneustarts und Wiederverwendung am Folgetag ersparen tausende Prefill-Tokens. Das ist der entscheidende UX-Unterschied zu generischen Inferenz-Servern.

warning

Hinweis: das README warnt deutlich, dass aktuelle macOS-Versionen den Kernel beim CPU-Pfad zum Absturz bringen können. Nutzen Sie das Metal-Backend; bauen Sie unter macOS niemals mit make cpu. Genau deshalb gibt es in der ds4-Roadmap keinen CPU-Fallback für Apple Silicon.

Belastbare Zahlen: Modellgröße, Quantisierungsvolumen und die Hardware-Mauer

Die folgenden Zahlen stammen aus dem ds4-README, der DeepSeek-V4-Flash-Modellkarte auf Hugging Face und Community-Messungen. Sie beantworten genau eine Frage: „Wie weit reicht mein heutiger Mac eigentlich nicht?"

Zahl 1 · Modellgröße: DeepSeek-V4-Flash hat 284 B Parameter gesamt, 13 B aktiviert, nativ 1M Tokens Kontext. V4-Pro ist 1,6 T gesamt / 49 B aktiviert. ds4 zielt aktuell nur auf Flash; Pro bleibt Cloud-Werkzeug (vLLM/SGLang).
Zahl 2 · Quantisierungsvolumen: das empfohlene q2-imatrix-GGUF liegt bei etwa 81 GB auf Disk. Trick: asymmetrische Verteilung – Routing-MoE-Experten erhalten IQ2_XXS (Gate) und Q2_K (Down), kritische Schichten bleiben präziser. Ergebnis: passt in 96–128 GB UMA und ruft Werkzeuge zuverlässig auf.
Zahl 3 · Speicherbudget: 1M Tokens Kontext kosten zusätzlich rund 26 GB (Indexer allein etwa 22 GB). Innerhalb 128 GB tragen Sie zusätzlich Gewichte, KV, OS und Anwendungen. Praktischer Komfort liegt bei 100–300k Tokens auf 128 GB.
Zahl 4 · Hardwarekosten: stabil lauffähige Formen: 96-GB-MacBook-Pro M3/M4/M5 Max ab ca. 4.500 €, 128-GB-Mac-Studio ab ca. 4.000 €, 256-GB-Mac-Studio-Ultra ab ca. 7.500 €, 512-GB-Mac-Studio M3 Ultra Topkonfiguration ab ca. 12.000 €. Das ist der Kapitaleinsatz für „neues Modell ausprobieren".
Zahl 5 · Projektstatus: erstellt am 06.05.2026, letzter Push am 24.05.2026, 11.593 Sterne, 30 Mitwirkende, reines C, MIT. Der Autor nennt den Code ausdrücklich Alpha. Interfaces und Gewichtsformate können sich in den nächsten Monaten ändern; ein dediziert für diesen Stack gekaufter 12.000-€-Mac hat keinen garantierten Wiederverkaufswert.

Übersetzt in Entscheidungen: Der Kauf eines Mac Studio Topkonfiguration funktioniert, kostet aber 7.500–12.000 € und bindet Kapital an eine Alpha-Engine und ein Preview-Modell. Eine Cloud-API liefert volle Präzision, jedoch verlassen Daten den Rechner und lange Sitzungen werden je Prefill abgerechnet; Agent und Berechtigungsgrenze liegen außerhalb. Für Entwicklerinnen und Entwickler, die ds4 + V4 Flash als echte lokale Inferenz wollen, ohne das Budget auf einen abschreibungsanfälligen Mac zu setzen, ist NodeMinis Mac-Mini-Cloud-Miete in der Regel die bessere Antwort: per SSH sofort einsatzbereit, nach Gebrauch stoppen, Daten bleiben in Ihrer dedizierten Instanz – relevant im DSGVO-Kontext für klare Verantwortlichkeiten. Specs und Preise auf der Mietpreisseite, Abrechnungsdetails unter SLA und Commitment.

Praxis: ds4 in sechs Schritten auf einem gemieteten Hochspeicher-Mac in Betrieb

Die folgende Reihenfolge ist der kürzeste Weg von „kein Top-Mac" zu „OpenAI-kompatibler V4-Flash-Endpoint auf meinem Tisch". Jeder Schritt adressiert eine zuvor besprochene Einschränkung. End-to-End unter zwei Stunden.

01
Spezifikation ab 128 GB ableiten. 2-bit-Gewichte mit ~100k Kontext brauchen 128 GB für Komfort. Wer Richtung 1M Tokens will, plant 256 GB+. 96 GB sind keine Sparoption, wenn IDE, Agent und Browser gleichzeitig laufen sollen.
02
Hochspeicher-Mac-Knoten bei NodeMini buchen. Speicher, Region und Laufzeit auf der Bestellseite wählen. Bereitstellung im Sekundenbereich, SSH-Schlüsselpaar wird ausgeliefert, danach ssh user@host.
03
Auf dem Knoten klonen, Abhängigkeiten installieren, bauen. git clone https://github.com/antirez/ds4.git && cd ds4 && make. Auf Apple Silicon greift standardmäßig Metal. Niemals make cpu unter macOS – das README warnt explizit vor Kernel-Abstürzen.
04
q2-imatrix-GGUF laden und On-Disk-KV-Cache konfigurieren. Mit beiliegendem download_model.sh die Variante q2 / q2-imatrix / q4 ziehen. --kv-disk-dir auf einen festen SSD-Pfad zeigen, --kv-disk-space-mb auf 8–32 GB setzen, damit der Cache wirklich greift.
05
ds4-Server an den Coding-Agent koppeln. ./ds4-server --ctx 200000 --kv-disk-dir ... --kv-disk-space-mb 16384 starten. Base-URL von Claude Code, Cursor oder opencode auf http://127.0.0.1:8000/v1 setzen, vorzugsweise über SSH-Portweiterleitung – Port niemals öffentlich machen. OpenAI- und Anthropic-Tool-Protokolle unterstützt ds4 nativ.
06
Zugriffstopologie verfestigen. SSH-Public-Key plus privaten Tunnel wie Tailscale machen aus dem Knoten einen Zero-Trust-Endpoint. In Phasen ohne Nutzung Maschine stoppen – Abrechnung pausiert. Für Dauerbetrieb launchd-Unit beim Boot starten lassen, kombiniert mit persistentem KV-Cache: am nächsten Tag direkt weiterarbeiten.

Vergleicht man das mit dem Kauf eines Mac Studio, treten drei reale Nachteile zutage: Abschreibung hängt an einer Alpha-Engine und einem Preview-Modell, ein dauerhafter ds4-Prozess konkurriert mit Alltagsaufgaben um RAM, und ein gemeinsamer Top-Mac im Team wird zur Warteschlange. Für Entwicklerinnen und Entwickler, die ds4 + V4 Flash als Alltagswerkzeug betreiben, das Abschreibungsrisiko aber bedarfsorientiert verteilen wollen, ist NodeMinis Mac-Mini-Cloud-Miete in der Regel die bessere Antwort. Sie passt zu den Argumenten von drei Jahren TCO-Vergleich und 24/7-Cloud-Mac-Automatisierung. Zugriffsdetails finden Sie im Hilfezentrum.

FAQ

Häufige Fragen

Aktuell nein. ds4 ist auf DeepSeek V4 Flash spezialisiert (284 B gesamt, 13 B aktiviert). Pro ist ein MoE mit 1,6 T Gesamt- und 49 B aktivierten Parametern und überschreitet quantisiert weiterhin den Unified Memory aktueller Macs. Pro bleibt Cloud-Werkzeug (vLLM / SGLang).

96 GB sind die dokumentierte Untergrenze. Community-Berichte zeigen 2-bit-Quants auf 96-GB-Macs, teils 250k Kontext. Im Alltag mit Editor und Agent empfiehlt antirez 128 GB. Wer Richtung 1M Tokens skaliert, braucht zusätzliche rund 26 GB. Sicher fährt man mit 256 GB+ Knoten – siehe Mietpreisseite.

Mieten Sie einen Hochspeicher-Mac-Knoten bei NodeMini. SSH-Login, git clone, make, GGUF laden, ./ds4-server starten – End-to-End unter zwei Stunden. Zugriff im Hilfezentrum, Always-On-Pattern mit Agent in 24/7-Cloud-Mac-Automatisierung. Daten bleiben in Ihrer dedizierten Instanz, was DSGVO-Verantwortlichkeiten klar regelt.