Zéro facture API :
Qwen3.5 et Gemma3 avec Ollama sur Mac Mini M4 loué (guide 2026)

Des centaines d'euros par mois en API Claude ou GPT, pendant que le code source et les échanges clients transitent par des serveurs tiers : ni le budget ni le RGPD ne suivent. En 2026, la voie pragmatique n'est pas de changer de cloud, mais de déployer Ollama avec Qwen3.5, Qwen2.5-coder et Gemma3 sur un Mac Mini M4 loué en exclusivité. Ce guide s'adresse aux développeurs et petites équipes qui préparent un déploiement LLM local : six freins courants, tableau 16/24/48 Go de mémoire unifiée avec Metal, commandes d'installation et branchement localhost:11434/v1, puis matrice TCO location vs achat vs GPU cloud et checklist en six étapes — données sous votre contrôle, sans compteur de tokens.

01

Pourquoi l'inférence locale redevient pertinente en 2026

Les modèles open source ont rattrapé une partie de l'écart avec les modèles fermés : Qwen3.5 pour le raisonnement multilingue, Qwen2.5-coder pour l'autocomplétion, Gemma3 pour un excellent rapport taille/performance. Avec Ollama et Metal sur Apple Silicon, pas besoin de carte graphique dédiée — un Mac Mini M4 suffit pour des quantifications 7B–14B utilisables en production.

L'inférence locale transforme un coût variable au token en coût matériel prévisible et garde les données sur un disque que vous maîtrisez — essentiel pour la conformité RGPD lorsque des données personnelles ou des secrets métier sont en jeu. Veille du portable, VPS sans Metal, GPU cloud à l'heure : autant d'obstacles à un nœud 7×24. Voici les six objections les plus fréquentes :

  1. 01

    Factures API imprévisibles : agents, embeddings RAG et IDE additionnent vite 200–2 000 €/mois.

  2. 02

    RGPD et souveraineté : code, dossiers patients ou correspondance juridique via API US ? Sous-traitance, transferts hors UE et documentation deviennent bloquants.

  3. 03

    Rate limits : erreurs 429, modèles dégradés, contexte tronqué — inacceptable en production.

  4. 04

    Latence : chaque complétion IDE via Internet se ressent ; les pipelines RAG internes souffrent du RTT.

  5. 05

    Dépendance éditeur : hausse de prix ou retrait de modèle ; localement, un Modelfile fige les versions.

  6. 06

    Conclusion : l'entrée n'est plus « acheter un A100 » mais louer un Mac Mini M4 au mois — Metal inclus, pas de baie GPU.

02

Mémoire unifiée M4 et choix de modèles : 16, 24 ou 48 Go ?

L'architecture mémoire unifiée (UMA) d'Apple partage RAM entre CPU, GPU et Neural Engine. Ollama charge les poids GGUF via le backend Metal de llama.cpp — sans copies RAM/VRAM comme sur x86 + GPU dédié. Le Mac Mini M4 n'a pas de GPU séparé, mais 16 cœurs GPU et une bande passante mémoire élevée ; le goulot est presque toujours la capacité RAM.

Règle : poids du modèle + cache KV + macOS + daemon Ollama doivent rester en RAM physique. Dès le swap, les tokens/s chutent de 30+ à moins de 10. Tableau basé sur mesures communautaires 2026 (Q4_K_M) :

RAMCombinaison recommandéetokens/s (typ.)Usage
16 GoQwen3.5:7b ou Gemma3:4b seul25–40 (7B Q4)Assistant perso, questions code légères
24 GoQwen3.5:9b + Qwen2.5-coder:7b alternés20–35 (9B Q4)Développement quotidien, RAG moyen
48 GoQwen3.5:14b ou Gemma3:12b + coder15–28 (14B Q4)API d'équipe, agents long contexte

« Sur M4, ce n'est pas CUDA qui compte, c'est la taille de l'UMA. 16 Go suffit, 24 Go est confortable, 48 Go permet plusieurs modèles chauds. »

info

Astuce : pour le code pur, Qwen2.5-coder:7b bat un 7B généraliste. Sur 24 Go, gardez le coder resident et utilisez Gemma3:4b pour le routage.

03

Installer Ollama et tirer les modèles

Sur macOS, application et CLI sont disponibles. À la remise du Mac loué : vérifier macOS 14+, installer Ollama. Les modèles vont dans ~/.ollama/models/ — pratique pour sauvegarde et migration entre périodes de location.

bash
# Installation Ollama sur macOS
curl -fsSL https://ollama.com/install.sh | sh

# Vérifier version et Metal
ollama --version
ollama ps

# Modèles recommandés 2026
ollama pull qwen3.5:9b
ollama pull qwen2.5-coder:7b
ollama pull gemma3:4b

# Test interactif
ollama run qwen3.5:9b "Explique en trois phrases pourquoi l'UMA du M4 convient aux LLM locaux"

Modelfile pour une prod reproductible

Un Modelfile fige température, contexte et prompt système — utile pour des déploiements auditables au regard du RGPD :

modelfile
# ~/Modelfile.qwen35-prod
FROM qwen3.5:9b
PARAMETER temperature 0.3
PARAMETER num_ctx 32768
SYSTEM "Assistant privé sur Mac Mini M4. Aucune fuite de données utilisateur."

# ollama create qwen35-prod -f ~/Modelfile.qwen35-prod
warning

Attention : sur 16 Go, ne chargez pas deux modèles 9B+ en parallèle. Utilisez OLLAMA_MAX_LOADED_MODELS=1 ou la décharge LRU d'Ollama (~5 min d'inactivité).

04

API compatible OpenAI, multi-modèles et TCO

Ollama expose une API REST compatible OpenAI sur http://127.0.0.1:11434. Cursor, Continue, LangChain ou Dify n'ont besoin que d'une base_url modifiée — le chemin le plus court pour déplacer 80 % des appels cloud en local.

bash
# Chat Completions (compatible OpenAI)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:9b",
    "messages": [{"role": "user", "content": "Bonjour"}]
  }'

# Lister les modèles locaux
curl http://localhost:11434/api/tags

# Limiter mémoire et parallélisme
export OLLAMA_MAX_LOADED_MODELS=2
export OLLAMA_NUM_PARALLEL=2

Workflow multi-modèles typique

Qwen2.5-coder pour l'IDE, Qwen3.5:9b pour les agents, Gemma3:4b pour la classification. Ollama décharge les poids inactifs ; avec 48 Go, coder et généraliste restent chauds sans cold start de 10–30 s.

Comparaison matérielle sur 24 mois (qualitative ; tarifs sur tarifs location Mac Mini) :

Option (24 mois)TrésorerieMetal / sans GPUDonnéesPour qui
Achat M4 (24 Go)~900–1 200 € uniqueMetal natifSSD localBesoin 3+ ans, amortissement interne
Location Mac Mini M4mensuel, faible apportmême Metaldisque exclusif louétest 30 j tokens/s et modèles
GPU cloud (A10/L4)horaire + stockagenon (CUDA)datacenter fournisseurburst court, cloud accepté
API seulepar token variablen/atierce partieprototype, faible volume
info

Ordre de grandeur : au-delà de ~150 €/mois d'API avec plus de 500 000 tokens/jour, M4 24 Go loué + Ollama se rentabilise souvent en 6–10 mois — hors coûts RGPD et rate limits.

05

Six étapes : nœud Ollama privé sur Mac Mini M4 loué

  1. 01

    Choisir la RAM : Qwen3.5:7b seul → 16 Go ; coder + 9b → 24 Go ; équipe multi-modèles → 48 Go.

  2. 02

    Louer : Mac Mini M4 exclusif, accès SSH ou partage d'écran.

  3. 03

    Installer Ollama : script curl officiel, puis ollama pull.

  4. 04

    Service launchd : démarrage auto ; OLLAMA_HOST=127.0.0.1:11434, ne pas exposer nu sur Internet.

  5. 05

    Outils : IDE et agents sur http://localhost:11434/v1, modèles séparés.

  6. 06

    Sauvegarde : archiver ~/.ollama ; exporter Modelfiles avant fin de location.

  • Metal : 7B Q4 sur 24 Go atteint souvent 28–38 tokens/s.
  • Consommation : environ 15–25 W sous charge — bien moins qu'un GPU cloud horaire.
  • Disque : trois modèles quantifiés ≈ 12–18 Go ; prévoir ≥ 50 Go libres.

VPS Linux en CPU-only ? Souvent un cinquième de la vitesse Metal M4. Portable en veille ? localhost:11434 tombe. GPU cloud à l'heure ? Une semaine d'agent continu peut dépasser un mois de location Mac.

Pour une inférence locale stable, conformité RGPD et API compatible OpenAI, la location Mac Mini M4 NodeMini bat le duo VPS bricolé + factures API croissantes. Louez un mois, benchmark Qwen3.5 et Qwen2.5-coder contre le cloud, puis décidez de l'achat — c'est l'entrée la plus rationnelle en LLM local en 2026.

FAQ

Questions fréquentes

Qwen3.5:7b ou 9b quantifié en modèle unique convient bien. Pour Gemma3 et Qwen2.5-coder ensemble, visez 24 Go minimum.

NodeMini loue des Mac Mini M4 exclusifs au mois ou trimestre. Détails sur tarifs location Mac Mini. Ollama n'impose aucun coût par token — seule la location matérielle est facturée.

Oui : URL http://localhost:11434/v1, clé ollama. Tunnel SSH sur le port 11434 à distance. Plus d'aide dans le centre d'aide.