Des centaines d'euros par mois en API Claude ou GPT, pendant que le code source et les échanges clients transitent par des serveurs tiers : ni le budget ni le RGPD ne suivent. En 2026, la voie pragmatique n'est pas de changer de cloud, mais de déployer Ollama avec Qwen3.5, Qwen2.5-coder et Gemma3 sur un Mac Mini M4 loué en exclusivité. Ce guide s'adresse aux développeurs et petites équipes qui préparent un déploiement LLM local : six freins courants, tableau 16/24/48 Go de mémoire unifiée avec Metal, commandes d'installation et branchement localhost:11434/v1, puis matrice TCO location vs achat vs GPU cloud et checklist en six étapes — données sous votre contrôle, sans compteur de tokens.
Les modèles open source ont rattrapé une partie de l'écart avec les modèles fermés : Qwen3.5 pour le raisonnement multilingue, Qwen2.5-coder pour l'autocomplétion, Gemma3 pour un excellent rapport taille/performance. Avec Ollama et Metal sur Apple Silicon, pas besoin de carte graphique dédiée — un Mac Mini M4 suffit pour des quantifications 7B–14B utilisables en production.
L'inférence locale transforme un coût variable au token en coût matériel prévisible et garde les données sur un disque que vous maîtrisez — essentiel pour la conformité RGPD lorsque des données personnelles ou des secrets métier sont en jeu. Veille du portable, VPS sans Metal, GPU cloud à l'heure : autant d'obstacles à un nœud 7×24. Voici les six objections les plus fréquentes :
Factures API imprévisibles : agents, embeddings RAG et IDE additionnent vite 200–2 000 €/mois.
RGPD et souveraineté : code, dossiers patients ou correspondance juridique via API US ? Sous-traitance, transferts hors UE et documentation deviennent bloquants.
Rate limits : erreurs 429, modèles dégradés, contexte tronqué — inacceptable en production.
Latence : chaque complétion IDE via Internet se ressent ; les pipelines RAG internes souffrent du RTT.
Dépendance éditeur : hausse de prix ou retrait de modèle ; localement, un Modelfile fige les versions.
Conclusion : l'entrée n'est plus « acheter un A100 » mais louer un Mac Mini M4 au mois — Metal inclus, pas de baie GPU.
L'architecture mémoire unifiée (UMA) d'Apple partage RAM entre CPU, GPU et Neural Engine. Ollama charge les poids GGUF via le backend Metal de llama.cpp — sans copies RAM/VRAM comme sur x86 + GPU dédié. Le Mac Mini M4 n'a pas de GPU séparé, mais 16 cœurs GPU et une bande passante mémoire élevée ; le goulot est presque toujours la capacité RAM.
Règle : poids du modèle + cache KV + macOS + daemon Ollama doivent rester en RAM physique. Dès le swap, les tokens/s chutent de 30+ à moins de 10. Tableau basé sur mesures communautaires 2026 (Q4_K_M) :
| RAM | Combinaison recommandée | tokens/s (typ.) | Usage |
|---|---|---|---|
| 16 Go | Qwen3.5:7b ou Gemma3:4b seul | 25–40 (7B Q4) | Assistant perso, questions code légères |
| 24 Go | Qwen3.5:9b + Qwen2.5-coder:7b alternés | 20–35 (9B Q4) | Développement quotidien, RAG moyen |
| 48 Go | Qwen3.5:14b ou Gemma3:12b + coder | 15–28 (14B Q4) | API d'équipe, agents long contexte |
« Sur M4, ce n'est pas CUDA qui compte, c'est la taille de l'UMA. 16 Go suffit, 24 Go est confortable, 48 Go permet plusieurs modèles chauds. »
Astuce : pour le code pur, Qwen2.5-coder:7b bat un 7B généraliste. Sur 24 Go, gardez le coder resident et utilisez Gemma3:4b pour le routage.
Sur macOS, application et CLI sont disponibles. À la remise du Mac loué : vérifier macOS 14+, installer Ollama. Les modèles vont dans ~/.ollama/models/ — pratique pour sauvegarde et migration entre périodes de location.
# Installation Ollama sur macOS curl -fsSL https://ollama.com/install.sh | sh # Vérifier version et Metal ollama --version ollama ps # Modèles recommandés 2026 ollama pull qwen3.5:9b ollama pull qwen2.5-coder:7b ollama pull gemma3:4b # Test interactif ollama run qwen3.5:9b "Explique en trois phrases pourquoi l'UMA du M4 convient aux LLM locaux"
Un Modelfile fige température, contexte et prompt système — utile pour des déploiements auditables au regard du RGPD :
# ~/Modelfile.qwen35-prod FROM qwen3.5:9b PARAMETER temperature 0.3 PARAMETER num_ctx 32768 SYSTEM "Assistant privé sur Mac Mini M4. Aucune fuite de données utilisateur." # ollama create qwen35-prod -f ~/Modelfile.qwen35-prod
Attention : sur 16 Go, ne chargez pas deux modèles 9B+ en parallèle. Utilisez OLLAMA_MAX_LOADED_MODELS=1 ou la décharge LRU d'Ollama (~5 min d'inactivité).
Ollama expose une API REST compatible OpenAI sur http://127.0.0.1:11434. Cursor, Continue, LangChain ou Dify n'ont besoin que d'une base_url modifiée — le chemin le plus court pour déplacer 80 % des appels cloud en local.
# Chat Completions (compatible OpenAI)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.5:9b",
"messages": [{"role": "user", "content": "Bonjour"}]
}'
# Lister les modèles locaux
curl http://localhost:11434/api/tags
# Limiter mémoire et parallélisme
export OLLAMA_MAX_LOADED_MODELS=2
export OLLAMA_NUM_PARALLEL=2
Qwen2.5-coder pour l'IDE, Qwen3.5:9b pour les agents, Gemma3:4b pour la classification. Ollama décharge les poids inactifs ; avec 48 Go, coder et généraliste restent chauds sans cold start de 10–30 s.
Comparaison matérielle sur 24 mois (qualitative ; tarifs sur tarifs location Mac Mini) :
| Option (24 mois) | Trésorerie | Metal / sans GPU | Données | Pour qui |
|---|---|---|---|---|
| Achat M4 (24 Go) | ~900–1 200 € unique | Metal natif | SSD local | Besoin 3+ ans, amortissement interne |
| Location Mac Mini M4 | mensuel, faible apport | même Metal | disque exclusif loué | test 30 j tokens/s et modèles |
| GPU cloud (A10/L4) | horaire + stockage | non (CUDA) | datacenter fournisseur | burst court, cloud accepté |
| API seule | par token variable | n/a | tierce partie | prototype, faible volume |
Ordre de grandeur : au-delà de ~150 €/mois d'API avec plus de 500 000 tokens/jour, M4 24 Go loué + Ollama se rentabilise souvent en 6–10 mois — hors coûts RGPD et rate limits.
Choisir la RAM : Qwen3.5:7b seul → 16 Go ; coder + 9b → 24 Go ; équipe multi-modèles → 48 Go.
Louer : Mac Mini M4 exclusif, accès SSH ou partage d'écran.
Installer Ollama : script curl officiel, puis ollama pull.
Service launchd : démarrage auto ; OLLAMA_HOST=127.0.0.1:11434, ne pas exposer nu sur Internet.
Outils : IDE et agents sur http://localhost:11434/v1, modèles séparés.
Sauvegarde : archiver ~/.ollama ; exporter Modelfiles avant fin de location.
VPS Linux en CPU-only ? Souvent un cinquième de la vitesse Metal M4. Portable en veille ? localhost:11434 tombe. GPU cloud à l'heure ? Une semaine d'agent continu peut dépasser un mois de location Mac.
Pour une inférence locale stable, conformité RGPD et API compatible OpenAI, la location Mac Mini M4 NodeMini bat le duo VPS bricolé + factures API croissantes. Louez un mois, benchmark Qwen3.5 et Qwen2.5-coder contre le cloud, puis décidez de l'achat — c'est l'entrée la plus rationnelle en LLM local en 2026.
Qwen3.5:7b ou 9b quantifié en modèle unique convient bien. Pour Gemma3 et Qwen2.5-coder ensemble, visez 24 Go minimum.
NodeMini loue des Mac Mini M4 exclusifs au mois ou trimestre. Détails sur tarifs location Mac Mini. Ollama n'impose aucun coût par token — seule la location matérielle est facturée.
Oui : URL http://localhost:11434/v1, clé ollama. Tunnel SSH sur le port 11434 à distance. Plus d'aide dans le centre d'aide.