Le ds4 d'antirez fait tourner DeepSeek V4 Flash vraiment en local sur Mac
Mur des 96 Go UMA, cache KV sur disque, et un Mac distant comme contournement

Le créateur de Redis, antirez (Salvatore Sanfilippo), a livré ds4 (DwarfStar 4) en une semaine — environ mille lignes de C pur. C'est la première fois que DeepSeek V4 Flash tourne réellement en local sur Mac. En moins de trois semaines, le dépôt a recueilli 11 500+ étoiles et 30 contributeurs. Mais le ticket d'entrée matériel est tout aussi concret : 96 Go de mémoire unifiée comme plancher, 128 Go comme point de confort. Côté Mac Studio, cela représente une fourchette de 4 500 € à plus de 13 000 €. Cet article ne paraphrase pas le README. Il répond à trois questions : pourquoi ds4 n'est pas un énième wrapper de llama.cpp, pourquoi l'UMA d'Apple Silicon impose Metal comme back-end prioritaire, et comment faire tourner ds4 dès aujourd'hui sans acheter un Mac haut de gamme, en louant un nœud Mac distant à forte mémoire.

01

11,5k étoiles en trois semaines, et un mur matériel à cinq chiffres

ds4 est public depuis le 06/05/2026. En moins de trois semaines, le projet a réuni 11 500+ étoiles et 30 contributeurs, en C pur sous licence MIT. Peu d'observateurs de l'inférence locale ont raté la nouvelle. Beaucoup moins ont compilé, téléchargé le GGUF et démarré le serveur. La raison est concrète : ds4 met la barre tellement haut que la plupart des Mac ne passent pas. Voici les six obstacles que rencontre quasiment toute personne tentée par ds4.

  1. 01

    Le MacBook Pro de base manque de mémoire. Les 14"/16" standard embarquent 16/24/36 Go. Même les 81 Go des poids q2 n'y entrent pas.

  2. 02

    L'upgrade RAM coûte cher. Passer de 64 Go à 96 ou 128 Go exige un M3/M4/M5 Max en configuration haute. Le différentiel atteint plusieurs milliers d'euros.

  3. 03

    Un Mac Studio n'est pas un achat anodin. Un Mac Studio 128 Go démarre vers 4 500 €. Viser 512 Go pour tenter V4 Pro grimpe au-delà de 13 000 €. Pour un développeur indépendant, c'est rarement justifiable.

  4. 04

    Les stations Windows / Linux empruntent un détour. Les GPU grand public à 24/32 Go de VRAM ne portent pas le working set. Les boîtes type DGX Spark imposent leurs propres coûts et leur exploitation.

  5. 05

    Partager un seul Mac haut de gamme en équipe devient pénible. Un ds4-server persistant capte presque toute la mémoire ; la multi-utilisation se transforme en file d'attente et contamine les états de session.

  6. 06

    Dans six mois, le modèle aura peut-être changé. ds4 est décrit comme alpha par son auteur, et DeepSeek V4 Flash est une preview. Un Mac à 13 000 € « pour tester le prochain modèle » porte un risque d'amortissement réel.

Mises bout à bout, ces six observations donnent une conclusion claire : le logiciel est prêt, le matériel ne suit pas. ds4 a fait passer « DeepSeek V4 Flash en local sur Mac » de l'impossible au possible. Entre « possible » et « accessible à tous » s'intercale exactement la facture d'un Mac Studio.

02

ds4 n'est pas un autre llama.cpp : conception dédiée, quantification asymétrique 2 bits, cache KV sur disque

Connaître les limites de ds4 importe autant que d'en connaître les capacités. antirez l'écrit dans le README sans ambages : ce n'est pas un runner GGUF générique, ni un wrapper, ni un framework. ds4 fait une chose — exécuter DeepSeek V4 Flash sur Metal et CUDA avec précision et vitesse — et pousse cette chose à la limite. Le tableau ci-dessous compare ds4 aux outils d'inférence locale que vous connaissez déjà.

OutilCouverture modèleCas d'usage idéalLimite clé
ds4 (DwarfStar 4)DeepSeek V4 Flash uniquementTirer le maximum de V4 Flash sur Mac avec un agent de codage en continuMono-modèle, qualité alpha, 96–128 Go requis
llama.cppLa plupart des familles GGUFChanger de modèle chaque semaine, portabilité largePas de chemin spécialisé V4 Flash ni de persistance KV équivalente
OllamaGGUF courants, pull en une ligneModèles locaux partagés derrière une API propreCompromis sur vitesse et contrôle ; contextes longs inégaux
vLLM / SGLangPoids HuggingFace en majoritéServing multi-GPU cloud, endpoint partagéPas conçu pour un Mac unique
API cloud (ex. DeepSeek)V4 Flash / Pro pleine précisionOublier le matériel, viser la qualité maximaleLes données sortent du poste ; longues sessions facturées au token

Trois choix d'ingénierie distinguent ds4. Premièrement, un exécuteur de graphe spécialisé autour du layout tensoriel, du tokenizer et du routage MoE de V4 Flash — plus rapide qu'un runner générique. Deuxièmement, une quantification asymétrique 2 bits: précision agressive sur les couches qui tolèrent le bruit (experts MoE routés en IQ2_XXS pour la gate, Q2_K pour la down), précision plus élevée sur le chemin critique. Résultat : 81 Go en q2 entrent dans 128 Go UMA et l'appel d'outils reste fiable. Troisièmement, un cache KV sur disque indexé par le SHA1 des IDs de tokens, persistant à travers les changements de session et les redémarrages serveur. Le coûteux premier prefill de 25k tokens ne se paie qu'une fois.

ds4 transforme « V4 Flash sur Mac » d'un slogan en un parcours d'ingénierie : ne rien faire d'autre, et pousser ce seul parcours à la limite d'Apple Silicon et de CUDA.

03

Pourquoi Metal est le back-end prioritaire : l'UMA d'Apple Silicon est un avantage incomparable

L'ordre des back-ends dans ds4 est délibéré. Metal d'abord, puis CUDA (avec une attention particulière à DGX Spark et GB10), ROCm sur une branche séparée, CPU réservé à la vérification de correction. Cet ordre tient directement à l'Unified Memory Architecture (UMA) d'Apple Silicon.

Sur Mac, CPU et GPU partagent la même mémoire physique. Charger un GGUF de 81 Go ne nécessite pas de copie « hôte → device » : les tenseurs sont lus directement par le GPU. Activations, état KV et tampons du tokenizer cohabitent dans le même espace d'adressage et les kernels Metal opèrent sans étape intermédiaire. Pour ds4 — un moteur MoE qui frappe à chaque token un large pool d'experts éparses — supprimer cette copie abaisse directement le plancher de latence d'inférence.

Les GPU discrets ne peuvent égaler ce schéma. Une carte grand public de 32 Go ne contient même pas le working set ; une H100 80 Go suppose un châssis de centre de données et un refroidissement à l'avenant — difficile à reproduire dans le format « Mac sur le bureau ». C'est pourquoi antirez place Metal en tête et concentre l'optimisation CUDA sur DGX Spark et GB10, plateformes NVIDIA elles aussi à mémoire unifiée. L'objectif n'est pas un énième framework d'inférence, mais d'épuiser le seul format grand public où un GPU touche directement de la mémoire vaste.

bash
# Sur un Mac Apple Silicon (96/128 Go UMA) : construire et démarrer ds4
git clone https://github.com/antirez/ds4.git
cd ds4
make                        # Backend Metal par défaut

# Télécharger le GGUF q2-imatrix de V4 Flash (~81 Go dans ./gguf/)
./download_model.sh q2-imatrix

# Démarrer le serveur : 100k contexte + 8 Go de cache KV sur disque
./ds4-server --ctx 100000 \
             --kv-disk-dir /tmp/ds4-kv \
             --kv-disk-space-mb 8192
# Écoute sur http://127.0.0.1:8000/v1/chat/completions (compatible OpenAI)

Une fois en route, faites pointer la base URL OpenAI de votre agent de codage (Claude Code, Cursor, opencode) vers http://127.0.0.1:8000/v1. Vous obtenez un endpoint V4 Flash entièrement hors-ligne, dont la frontière de permissions reste sur la machine.

04

La facture mémoire : 96 Go plancher, 128 Go confort, 1M contexte = 26 Go en plus

Avant d'acheter ou de louer, refaites le calcul mémoire de ds4. Le GGUF q2 occupe environ 81 Go sur disque. Une fois en mémoire, avec activations, tokenizer et tampons Metal, 96 Go UMA constituent le plancher rapporté par la communauté, certains utilisateurs poussant le contexte à 250k. antirez recommande 128 Go comme point de confort. Si l'on vise 1M tokens (plafond de la série V4), il faut prévoir environ 22 Go rien que pour l'indexeur, soit ~26 Go au total ; sur 128 Go, c'est tendu. La fenêtre confortable sur 128 Go reste 100–300k tokens.

FormatMémoire unifiéeds4 (V4 Flash q2) ?Contexte pratique
MacBook Pro standard (16–36 Go)16 / 24 / 36 GoNon, les poids n'entrent pas
MacBook Pro intermédiaire (48–64 Go)48 / 64 GoNon, les poids saturent la mémoire
MacBook Pro M3/M4/M5 Max 96 Go96 GoJuste possible, fermer les autres applications lourdes~250k rapporté par la communauté
Mac Studio / MacBook Pro 128 Go128 GoConfortable, marge pour éditeur et agent100–300k stable
Mac Studio M3 Ultra 256 Go+256 Go+Large, longues sessions + KV persistantProche du million de tokens
Mac Studio M3 Ultra 512 Go (test V4 Pro)512 GoNon supporté — ds4 cible Flash uniquement
info

Astuce : le cache KV sur disque tient ses promesses quand --kv-disk-dir pointe vers le SSD interne du Mac. Changement de session, redémarrage serveur ou reprise le lendemain économisent des milliers de tokens de prefill. C'est la différence d'expérience la plus profonde avec un serveur d'inférence générique.

warning

Attention : le README indique clairement que les versions actuelles de macOS peuvent faire planter le noyau sur le chemin CPU. Utilisez Metal et ne construisez jamais avec make cpu sur macOS. C'est aussi pourquoi la roadmap ds4 ne prévoit pas de fallback CPU sur Apple Silicon.

05

Chiffres concrets : taille du modèle, volume de quantification, mur matériel

Les chiffres ci-dessous proviennent du README de ds4, de la carte modèle DeepSeek-V4-Flash sur Hugging Face et de mesures communautaires. Ils répondent à une seule question : « combien manque-t-il exactement à mon Mac ? »

  • Chiffre 1 · Taille du modèle : DeepSeek-V4-Flash, 284 B paramètres au total, 13 B activés, contexte natif 1M tokens. V4-Pro, 1,6 T au total, 49 B activés. ds4 ne cible aujourd'hui que Flash ; Pro reste l'apanage de vLLM / SGLang en cloud.
  • Chiffre 2 · Volume quantifié : le GGUF q2-imatrix recommandé pèse environ 81 Go sur disque. La clé est la distribution asymétrique : experts MoE routés en IQ2_XXS (gate) et Q2_K (down), couches critiques préservées en précision plus élevée. Conséquence : tient dans 96–128 Go UMA tout en appelant des outils de manière fiable.
  • Chiffre 3 · Budget mémoire : 1M tokens coûte environ 26 Go supplémentaires (indexeur seul ~22 Go). Avec poids, KV, OS et applications dans 128 Go, la zone pratique reste 100–300k tokens.
  • Chiffre 4 · Coût matériel : formats pour faire tourner ds4 confortablement : MacBook Pro M3/M4/M5 Max 96 Go à partir d'environ 5 000 €, Mac Studio 128 Go à partir d'environ 4 500 €, Mac Studio Ultra 256 Go à partir d'environ 8 000 €, Mac Studio M3 Ultra 512 Go au-delà de 13 000 €. Voilà le capital engagé pour « essayer un nouveau modèle ».
  • Chiffre 5 · État du projet : créé le 06/05/2026, dernier push le 24/05/2026, 11 593 étoiles, 30 contributeurs, C pur, MIT. L'auteur qualifie le code d'alpha ; interfaces et formats de poids peuvent évoluer dans les mois qui viennent. La valeur de revente d'un Mac à 13 000 € acheté pour cette pile n'est pas garantie.

Traduit en décision : acheter un Mac Studio haut de gamme fonctionne mais coûte 8 000–13 000 € immobilisés sur un moteur alpha et un modèle preview. L'API cloud apporte la précision pleine, mais les données quittent la machine, les longues sessions sont facturées prefill compris, agent et frontière de permissions échappent à votre contrôle. Pour les développeurs et créateurs qui veulent ds4 + V4 Flash en local réel sans miser leur budget sur un Mac aux perspectives de revente incertaines, la location Mac Mini cloud de NodeMini est généralement la meilleure réponse : accès SSH immédiat, arrêt à la demande, données dans votre instance dédiée. Spécifications et tarifs sur la page de tarifs, détails de facturation dans SLA et engagement.

06

Mise en pratique : six étapes pour exécuter ds4 sur un Mac distant à forte mémoire

La séquence suivante est le chemin le plus court de « pas de Mac haut de gamme » à « endpoint V4 Flash compatible OpenAI sur mon bureau ». Chaque étape répond à une contrainte évoquée plus haut. Bout en bout, en moins de deux heures.

  1. 01

    Dimensionner à partir de 128 Go. Quantification 2 bits + ~100k de contexte : 128 Go pour rester confortable. Pour viser 1M tokens, partez sur 256 Go+. 96 Go n'est pas une économie quand IDE, agent et navigateur tournent en parallèle.

  2. 02

    Provisionner un nœud Mac à forte mémoire chez NodeMini. Choisissez mémoire, région et durée sur la page de commande. Provisionnement en quelques secondes, paire de clés SSH livrée, connectez-vous avec ssh user@host.

  3. 03

    Cloner, installer les dépendances, compiler. git clone https://github.com/antirez/ds4.git && cd ds4 && make. Apple Silicon utilise Metal par défaut. Sur macOS, ne tentez pas make cpu : le README mentionne explicitement le risque de crash noyau.

  4. 04

    Récupérer le GGUF q2-imatrix et configurer le cache KV sur disque. Avec le download_model.sh fourni, prenez q2 / q2-imatrix / q4. --kv-disk-dir sur un chemin SSD fixe, --kv-disk-space-mb entre 8 et 32 Go pour que le cache disque opère réellement.

  5. 05

    Connecter ds4-server à votre agent de codage. Démarrez ./ds4-server --ctx 200000 --kv-disk-dir ... --kv-disk-space-mb 16384. Pointez la base URL OpenAI de Claude Code, Cursor ou opencode sur http://127.0.0.1:8000/v1 via tunnel SSH ; n'exposez jamais le port. ds4 supporte nativement les protocoles d'outils OpenAI et Anthropic.

  6. 06

    Verrouiller la topologie d'accès. Clés publiques SSH + tunnel privé type Tailscale rendent le nœud zero-trust. Arrêtez la machine quand elle ne sert pas : la facturation s'arrête. Pour un usage continu, déployez une unité launchd au démarrage, combinée au cache KV persistant : « reprenez le lendemain » devient évident.

Une fois ces six étapes franchies, l'option « achat Mac Studio » montre trois limites bien réelles : amortissement collé à un moteur alpha et un modèle preview, exécution prolongée de ds4 sur la machine personnelle en concurrence avec le travail quotidien, partage d'un Mac haut de gamme en équipe qui dégénère en file d'attente. Pour les développeurs et créateurs qui souhaitent intégrer ds4 + V4 Flash dans leur outillage quotidien tout en répartissant le risque d'amortissement à la demande, la location Mac Mini cloud de NodeMini est généralement la meilleure réponse. Elle s'aligne avec les analyses de TCO sur trois ans et l'automatisation Mac cloud 24/7. Détails d'accès sur le centre d'aide.

FAQ

Questions fréquentes

Pas aujourd'hui. ds4 est dédié à DeepSeek V4 Flash (284 B total, 13 B activés). Pro est un MoE 1,6 T / 49 B activés ; même quantifié il dépasse la mémoire unifiée d'un Mac courant. Pour Pro, vLLM ou SGLang en cloud restent la voie réaliste.

96 Go est le plancher documenté. La communauté rapporte du 2 bits sur Mac 96 Go, parfois jusqu'à 250k tokens. Pour un usage quotidien avec éditeur et agent, antirez recommande 128 Go. Pour pousser vers 1M tokens, prévoyez environ 26 Go en plus. Le choix sûr est un nœud 256 Go+ — voir la page de tarifs.

Louez un nœud Mac à forte mémoire chez NodeMini. SSH, git clone, make, GGUF, ./ds4-server : moins de deux heures bout en bout. Détails d'accès au centre d'aide, association avec un agent permanent dans l'automatisation Mac cloud 24/7.