Le créateur de Redis, antirez (Salvatore Sanfilippo), a livré ds4 (DwarfStar 4) en une semaine — environ mille lignes de C pur. C'est la première fois que DeepSeek V4 Flash tourne réellement en local sur Mac. En moins de trois semaines, le dépôt a recueilli 11 500+ étoiles et 30 contributeurs. Mais le ticket d'entrée matériel est tout aussi concret : 96 Go de mémoire unifiée comme plancher, 128 Go comme point de confort. Côté Mac Studio, cela représente une fourchette de 4 500 € à plus de 13 000 €. Cet article ne paraphrase pas le README. Il répond à trois questions : pourquoi ds4 n'est pas un énième wrapper de llama.cpp, pourquoi l'UMA d'Apple Silicon impose Metal comme back-end prioritaire, et comment faire tourner ds4 dès aujourd'hui sans acheter un Mac haut de gamme, en louant un nœud Mac distant à forte mémoire.
ds4 est public depuis le 06/05/2026. En moins de trois semaines, le projet a réuni 11 500+ étoiles et 30 contributeurs, en C pur sous licence MIT. Peu d'observateurs de l'inférence locale ont raté la nouvelle. Beaucoup moins ont compilé, téléchargé le GGUF et démarré le serveur. La raison est concrète : ds4 met la barre tellement haut que la plupart des Mac ne passent pas. Voici les six obstacles que rencontre quasiment toute personne tentée par ds4.
Le MacBook Pro de base manque de mémoire. Les 14"/16" standard embarquent 16/24/36 Go. Même les 81 Go des poids q2 n'y entrent pas.
L'upgrade RAM coûte cher. Passer de 64 Go à 96 ou 128 Go exige un M3/M4/M5 Max en configuration haute. Le différentiel atteint plusieurs milliers d'euros.
Un Mac Studio n'est pas un achat anodin. Un Mac Studio 128 Go démarre vers 4 500 €. Viser 512 Go pour tenter V4 Pro grimpe au-delà de 13 000 €. Pour un développeur indépendant, c'est rarement justifiable.
Les stations Windows / Linux empruntent un détour. Les GPU grand public à 24/32 Go de VRAM ne portent pas le working set. Les boîtes type DGX Spark imposent leurs propres coûts et leur exploitation.
Partager un seul Mac haut de gamme en équipe devient pénible. Un ds4-server persistant capte presque toute la mémoire ; la multi-utilisation se transforme en file d'attente et contamine les états de session.
Dans six mois, le modèle aura peut-être changé. ds4 est décrit comme alpha par son auteur, et DeepSeek V4 Flash est une preview. Un Mac à 13 000 € « pour tester le prochain modèle » porte un risque d'amortissement réel.
Mises bout à bout, ces six observations donnent une conclusion claire : le logiciel est prêt, le matériel ne suit pas. ds4 a fait passer « DeepSeek V4 Flash en local sur Mac » de l'impossible au possible. Entre « possible » et « accessible à tous » s'intercale exactement la facture d'un Mac Studio.
Connaître les limites de ds4 importe autant que d'en connaître les capacités. antirez l'écrit dans le README sans ambages : ce n'est pas un runner GGUF générique, ni un wrapper, ni un framework. ds4 fait une chose — exécuter DeepSeek V4 Flash sur Metal et CUDA avec précision et vitesse — et pousse cette chose à la limite. Le tableau ci-dessous compare ds4 aux outils d'inférence locale que vous connaissez déjà.
| Outil | Couverture modèle | Cas d'usage idéal | Limite clé |
|---|---|---|---|
| ds4 (DwarfStar 4) | DeepSeek V4 Flash uniquement | Tirer le maximum de V4 Flash sur Mac avec un agent de codage en continu | Mono-modèle, qualité alpha, 96–128 Go requis |
| llama.cpp | La plupart des familles GGUF | Changer de modèle chaque semaine, portabilité large | Pas de chemin spécialisé V4 Flash ni de persistance KV équivalente |
| Ollama | GGUF courants, pull en une ligne | Modèles locaux partagés derrière une API propre | Compromis sur vitesse et contrôle ; contextes longs inégaux |
| vLLM / SGLang | Poids HuggingFace en majorité | Serving multi-GPU cloud, endpoint partagé | Pas conçu pour un Mac unique |
| API cloud (ex. DeepSeek) | V4 Flash / Pro pleine précision | Oublier le matériel, viser la qualité maximale | Les données sortent du poste ; longues sessions facturées au token |
Trois choix d'ingénierie distinguent ds4. Premièrement, un exécuteur de graphe spécialisé autour du layout tensoriel, du tokenizer et du routage MoE de V4 Flash — plus rapide qu'un runner générique. Deuxièmement, une quantification asymétrique 2 bits: précision agressive sur les couches qui tolèrent le bruit (experts MoE routés en IQ2_XXS pour la gate, Q2_K pour la down), précision plus élevée sur le chemin critique. Résultat : 81 Go en q2 entrent dans 128 Go UMA et l'appel d'outils reste fiable. Troisièmement, un cache KV sur disque indexé par le SHA1 des IDs de tokens, persistant à travers les changements de session et les redémarrages serveur. Le coûteux premier prefill de 25k tokens ne se paie qu'une fois.
ds4 transforme « V4 Flash sur Mac » d'un slogan en un parcours d'ingénierie : ne rien faire d'autre, et pousser ce seul parcours à la limite d'Apple Silicon et de CUDA.
L'ordre des back-ends dans ds4 est délibéré. Metal d'abord, puis CUDA (avec une attention particulière à DGX Spark et GB10), ROCm sur une branche séparée, CPU réservé à la vérification de correction. Cet ordre tient directement à l'Unified Memory Architecture (UMA) d'Apple Silicon.
Sur Mac, CPU et GPU partagent la même mémoire physique. Charger un GGUF de 81 Go ne nécessite pas de copie « hôte → device » : les tenseurs sont lus directement par le GPU. Activations, état KV et tampons du tokenizer cohabitent dans le même espace d'adressage et les kernels Metal opèrent sans étape intermédiaire. Pour ds4 — un moteur MoE qui frappe à chaque token un large pool d'experts éparses — supprimer cette copie abaisse directement le plancher de latence d'inférence.
Les GPU discrets ne peuvent égaler ce schéma. Une carte grand public de 32 Go ne contient même pas le working set ; une H100 80 Go suppose un châssis de centre de données et un refroidissement à l'avenant — difficile à reproduire dans le format « Mac sur le bureau ». C'est pourquoi antirez place Metal en tête et concentre l'optimisation CUDA sur DGX Spark et GB10, plateformes NVIDIA elles aussi à mémoire unifiée. L'objectif n'est pas un énième framework d'inférence, mais d'épuiser le seul format grand public où un GPU touche directement de la mémoire vaste.
# Sur un Mac Apple Silicon (96/128 Go UMA) : construire et démarrer ds4
git clone https://github.com/antirez/ds4.git
cd ds4
make # Backend Metal par défaut
# Télécharger le GGUF q2-imatrix de V4 Flash (~81 Go dans ./gguf/)
./download_model.sh q2-imatrix
# Démarrer le serveur : 100k contexte + 8 Go de cache KV sur disque
./ds4-server --ctx 100000 \
--kv-disk-dir /tmp/ds4-kv \
--kv-disk-space-mb 8192
# Écoute sur http://127.0.0.1:8000/v1/chat/completions (compatible OpenAI)
Une fois en route, faites pointer la base URL OpenAI de votre agent de codage (Claude Code, Cursor, opencode) vers http://127.0.0.1:8000/v1. Vous obtenez un endpoint V4 Flash entièrement hors-ligne, dont la frontière de permissions reste sur la machine.
Avant d'acheter ou de louer, refaites le calcul mémoire de ds4. Le GGUF q2 occupe environ 81 Go sur disque. Une fois en mémoire, avec activations, tokenizer et tampons Metal, 96 Go UMA constituent le plancher rapporté par la communauté, certains utilisateurs poussant le contexte à 250k. antirez recommande 128 Go comme point de confort. Si l'on vise 1M tokens (plafond de la série V4), il faut prévoir environ 22 Go rien que pour l'indexeur, soit ~26 Go au total ; sur 128 Go, c'est tendu. La fenêtre confortable sur 128 Go reste 100–300k tokens.
| Format | Mémoire unifiée | ds4 (V4 Flash q2) ? | Contexte pratique |
|---|---|---|---|
| MacBook Pro standard (16–36 Go) | 16 / 24 / 36 Go | Non, les poids n'entrent pas | — |
| MacBook Pro intermédiaire (48–64 Go) | 48 / 64 Go | Non, les poids saturent la mémoire | — |
| MacBook Pro M3/M4/M5 Max 96 Go | 96 Go | Juste possible, fermer les autres applications lourdes | ~250k rapporté par la communauté |
| Mac Studio / MacBook Pro 128 Go | 128 Go | Confortable, marge pour éditeur et agent | 100–300k stable |
| Mac Studio M3 Ultra 256 Go+ | 256 Go+ | Large, longues sessions + KV persistant | Proche du million de tokens |
| Mac Studio M3 Ultra 512 Go (test V4 Pro) | 512 Go | Non supporté — ds4 cible Flash uniquement | — |
Astuce : le cache KV sur disque tient ses promesses quand --kv-disk-dir pointe vers le SSD interne du Mac. Changement de session, redémarrage serveur ou reprise le lendemain économisent des milliers de tokens de prefill. C'est la différence d'expérience la plus profonde avec un serveur d'inférence générique.
Attention : le README indique clairement que les versions actuelles de macOS peuvent faire planter le noyau sur le chemin CPU. Utilisez Metal et ne construisez jamais avec make cpu sur macOS. C'est aussi pourquoi la roadmap ds4 ne prévoit pas de fallback CPU sur Apple Silicon.
Les chiffres ci-dessous proviennent du README de ds4, de la carte modèle DeepSeek-V4-Flash sur Hugging Face et de mesures communautaires. Ils répondent à une seule question : « combien manque-t-il exactement à mon Mac ? »
Traduit en décision : acheter un Mac Studio haut de gamme fonctionne mais coûte 8 000–13 000 € immobilisés sur un moteur alpha et un modèle preview. L'API cloud apporte la précision pleine, mais les données quittent la machine, les longues sessions sont facturées prefill compris, agent et frontière de permissions échappent à votre contrôle. Pour les développeurs et créateurs qui veulent ds4 + V4 Flash en local réel sans miser leur budget sur un Mac aux perspectives de revente incertaines, la location Mac Mini cloud de NodeMini est généralement la meilleure réponse : accès SSH immédiat, arrêt à la demande, données dans votre instance dédiée. Spécifications et tarifs sur la page de tarifs, détails de facturation dans SLA et engagement.
La séquence suivante est le chemin le plus court de « pas de Mac haut de gamme » à « endpoint V4 Flash compatible OpenAI sur mon bureau ». Chaque étape répond à une contrainte évoquée plus haut. Bout en bout, en moins de deux heures.
Dimensionner à partir de 128 Go. Quantification 2 bits + ~100k de contexte : 128 Go pour rester confortable. Pour viser 1M tokens, partez sur 256 Go+. 96 Go n'est pas une économie quand IDE, agent et navigateur tournent en parallèle.
Provisionner un nœud Mac à forte mémoire chez NodeMini. Choisissez mémoire, région et durée sur la page de commande. Provisionnement en quelques secondes, paire de clés SSH livrée, connectez-vous avec ssh user@host.
Cloner, installer les dépendances, compiler. git clone https://github.com/antirez/ds4.git && cd ds4 && make. Apple Silicon utilise Metal par défaut. Sur macOS, ne tentez pas make cpu : le README mentionne explicitement le risque de crash noyau.
Récupérer le GGUF q2-imatrix et configurer le cache KV sur disque. Avec le download_model.sh fourni, prenez q2 / q2-imatrix / q4. --kv-disk-dir sur un chemin SSD fixe, --kv-disk-space-mb entre 8 et 32 Go pour que le cache disque opère réellement.
Connecter ds4-server à votre agent de codage. Démarrez ./ds4-server --ctx 200000 --kv-disk-dir ... --kv-disk-space-mb 16384. Pointez la base URL OpenAI de Claude Code, Cursor ou opencode sur http://127.0.0.1:8000/v1 via tunnel SSH ; n'exposez jamais le port. ds4 supporte nativement les protocoles d'outils OpenAI et Anthropic.
Verrouiller la topologie d'accès. Clés publiques SSH + tunnel privé type Tailscale rendent le nœud zero-trust. Arrêtez la machine quand elle ne sert pas : la facturation s'arrête. Pour un usage continu, déployez une unité launchd au démarrage, combinée au cache KV persistant : « reprenez le lendemain » devient évident.
Une fois ces six étapes franchies, l'option « achat Mac Studio » montre trois limites bien réelles : amortissement collé à un moteur alpha et un modèle preview, exécution prolongée de ds4 sur la machine personnelle en concurrence avec le travail quotidien, partage d'un Mac haut de gamme en équipe qui dégénère en file d'attente. Pour les développeurs et créateurs qui souhaitent intégrer ds4 + V4 Flash dans leur outillage quotidien tout en répartissant le risque d'amortissement à la demande, la location Mac Mini cloud de NodeMini est généralement la meilleure réponse. Elle s'aligne avec les analyses de TCO sur trois ans et l'automatisation Mac cloud 24/7. Détails d'accès sur le centre d'aide.
Pas aujourd'hui. ds4 est dédié à DeepSeek V4 Flash (284 B total, 13 B activés). Pro est un MoE 1,6 T / 49 B activés ; même quantifié il dépasse la mémoire unifiée d'un Mac courant. Pour Pro, vLLM ou SGLang en cloud restent la voie réaliste.
96 Go est le plancher documenté. La communauté rapporte du 2 bits sur Mac 96 Go, parfois jusqu'à 250k tokens. Pour un usage quotidien avec éditeur et agent, antirez recommande 128 Go. Pour pousser vers 1M tokens, prévoyez environ 26 Go en plus. Le choix sûr est un nœud 256 Go+ — voir la page de tarifs.
Louez un nœud Mac à forte mémoire chez NodeMini. SSH, git clone, make, GGUF, ./ds4-server : moins de deux heures bout en bout. Détails d'accès au centre d'aide, association avec un agent permanent dans l'automatisation Mac cloud 24/7.