En quoi modelRouting diffère-t-il de model.primary et des fallbacks ?

modelRouting étagne par contexte estimé avant l’appel amont pour optimiser coût et latence ; les fallbacks réagissent en général aux échecs sur le même chemin de requête. Les deux peuvent coexister, mais séparez les responsabilités pour éviter la double facturation et le routage surprise — voir le tableau comparatif dans l’article.

Que surveiller lors du premier déploiement du routage ?

Rejouer de vrais transcripts avec fixtures figées en staging, vérifier la répartition des hits, puis canary en prod en surveillant les percentiles tokens et latence. En cas de besoin de calcul parallèle, aligner la capacité sur la page tarifaire publique pour les nœuds exécuteurs Mac distants.

Comment cela s’articule avec les guides OpenClaw systemd et Docker ?

Ces guides couvrent les démons et l’exposition ; cet article couvre la politique de routage dans le Gateway. Stabiliser d’abord le déploiement, puis resserrer openclaw.json. Parcourir aussi le filtre catégorie OpenClaw et les notes du centre d’aide sur la connectivité.

2026 OpenClaw modelRouting en production : seuils openclaw.json, chaînes multi-modèles et dépannage

Pourquoi le modelRouting appartient au Gateway : pas « plus de modèles pour le spectacle », mais un régulateur coût/latence

En production, les requêtes OpenClaw emportent souvent prompts système, historique, sorties d’outils et morceaux RAG. Tout envoyer indéfiniment dans un seul modèle phare fait exploser factures et latence de queue ; ne compter que sur des fallbacks après échec signifie avoir déjà brûlé un énorme contexte avant de réaliser que le chemin était mauvais. Le modelRouting estime la taille en tokens du contexte avant l’inférence amont et choisit un palier pour que « les petites questions prennent par défaut de petits modèles »—pas après coup.

Six signaux de douleur fréquents—si plusieurs se cumulent, mettez le routage à l’ordre du jour de revue de config plutôt que de fixer Grafana :

01
Latence de queue : p95/p99 s’écartent de la moyenne au même QPS et suivent la longueur de conversation—les chemins à gros contexte sont sur-utilisés.
02
Dépenses non linéaires : trafic +30 %, facture +100 %—souvent « chaque session par défaut sur le plus gros modèle ».
03
Les appels d’outils gonflent le contexte : une sortie multi-sauts en un tour fait grimper les tokens, provoquant troncature silencieuse ou retries surprises.
04
Chaînes de fallback trop longues : l’utilisateur ne voit rien, mais vous enchaînez des modèles sur une requête—latence et coût s’empilent.
05
Pas d’observabilité du routage : vous ne loguez que le nom du modèle final, pas pourquoi ce palier—la triage devient du devinage.
06
Isolation multi-locataire faible : des sessions lourdes sur un Gateway partagé tirent les SLO des sessions légères—il faut un garde-fou par forme de contexte.

Après la série install/déploiement OpenClaw du site, vous avez déjà « processus vivant, ports/tunnels sains ». Cet article couvre la sélection de modèle dans ce même processus longue durée. Il est orthogonal à l’exécution distante (runners auto-hébergés ou Mac distants dédiés) : le routage choisit quel cerveau ; la couche exécuteur choisit quelle machine fait le travail.

Un mythe : le modelRouting serait « un autre équilibreur de charge ». C’est plutôt du routage par forme de contexte—estimer la taille, puis choisir un modèle—pas du round-robin aléatoire, sinon les traces paraissent malines et les factures restent honnêtes.

Comparaison : primary + fallbacks vs modelRouting (stratégie taille de contexte)

Ils ne s’excluent pas, mais séparez les rôles : les fallbacks conviennent à la sémantique d’échec—modèle indisponible, erreurs, limites de débit ; le modelRouting à la sémantique coût/latence—à quel point ce tour est lourd. Si vous les mélangez, vous obtenez « la route a pris le gros modèle, puis l’échec est retombé sur le petit »—payer deux fois le drame.

Dimension	primary + fallbacks (classique)	modelRouting (paliers de contexte)
Déclencheur	Codes d’erreur, timeouts, échecs réessayables	Seuils de tokens de contexte estimés (ex. stratégie taille de contexte)
Gain principal	Disponibilité : secours depuis un mauvais modèle	Efficacité : les chats légers ne paient pas les prix phares
Risque typique	Longues chaînes gonflent la latence de queue et la double facturation	Mauvais seuils classifient mal lourd vs léger
Observabilité	Taux d’échec, retries, raison du basculement	Mix des hits de route, erreurs près des seuils, percentiles de tokens
agents.defaults	Déclarer primary + liste de fallback	Ajouter un bloc de routage sous defaults pour scinder avant l’appel

Écrivez « échange sur échec » et « choix avant échec » sur deux pages distinctes—votre astreinte vous remerciera.

Journalisez les décisions de routage de façon structurée (palier touché, bande de tokens estimée, ID de modèle final) ; sinon la prod ne montre que le modèle final et vous ne pouvez pas revoir les seuils. Les six étapes ci-dessous en font une barrière de release.

Déploiement en six étapes : de l’ébauche de seuils à une production réversible

Pour les ingénieurs qui savent déjà livrer des changements de config—chaque étape a un livrable pour que le modelRouting ne reste pas un griffonnage JSON ponctuel.

01
Figez le langage SLO : latence p95 cible, plafond de coût par session, part supposée de sessions « lourdes ». Pas de SLO, pas de seuils sérieux.
02
Échantillonnez les distributions de tokens : vrais chats et sorties d’outils—y compris les queues, pas seulement la longueur moyenne.
03
Esquissez trois paliers : IDs léger/moyen/lourd et tâches qui ne doivent jamais atterrir sur le palier léger (ex. outils multi-sauts).
04
Câblez modelRouting + télémétrie : hits, tokens estimés, modèle final vers logs structurés et votre pile métrique.
05
Canary contrôlé : double exécution ancien vs nouveau sur une tranche, surveillez percentiles coût et latence, puis promouvoir.
06
Interrupteur de rollback : gardez un instantané pour revenir à « defaults + courte chaîne de fallback » si le routage déraille.

openclaw.json (extrait)

{
  "agents": {
    "defaults": {
      "model": { "primary": "anthropic/claude-sonnet-4-5" },
      "modelRouting": {
        "enabled": true,
        "strategy": "context-size",
        "thresholds": [
          { "maxTokens": 4000,  "model": "anthropic/claude-haiku-4-5", "description": "light" },
          { "maxTokens": 100000, "model": "anthropic/claude-sonnet-4-5", "description": "medium" },
          { "maxTokens": null,  "model": "anthropic/claude-opus-4-5", "description": "xlarge context" }
        ],
        "fallbackOnOverflow": true
      }
    }
  }
}

info

Note : Ceci montre la forme et la sémantique ; les vraies clés/valeurs par défaut doivent correspondre à votre version OpenClaw. Diffez les configs et lancez des fixtures d’intégration avant de mettre à jour le Gateway.

Frontières avec agents.defaults et fallbacks : ne tressez pas trois métiers différents

Modèle mental utile : defaults déclare le modèle primary et les fallbacks généraux ; le modelRouting (selon votre version) effectue un découpage par contexte en coopération avec defaults ; les fallbacks gèrent toujours les échecs amont. En staging, vérifiez trois choses : le routage ne doit pas faire osciller les modèles sur des chemins sains (sinon seuils trop serrés) ; les fallbacks après routage se comportent encore ; les logs séparent hits de route et échanges sur échec.

Avec du calcul distant, une topologie courante est Gateway sur VPS Linux ou conteneurs tandis que les grosses toolchains ou étapes macOS-only passent par une file vers des exécuteurs Mac distant dédié. Le modelRouting ne fait qu’étagner l’inférence dans le Gateway—il ne remplace pas l’ordonnancement inter-machines (toujours votre problème file/runner).

Pour des agents multi-locataires sur un Gateway, donnez des profils de routage ou des clés distincts par locataire—sinon l’estimation de contexte d’un locataire lourd remonte la ligne pour tout le monde.

warning

Avertissement : Traitez fallbackOnOverflow comme « le contexte ne rentre pas dans le modèle », pas comme un levier « économiser »—une mauvaise utilisation invite troncature silencieuse ou retries cachés.

Triage production : tableau des symptômes et trois arguments prêts pour la revue

Utilisez ceci pour un routage d’astreinte rapide ; si les tokens estimés et les factures fournisseur divergent fortement, vérifiez si les sorties d’outils sont exclues de l’estimation ou si les logs sont échantillonnés.

Symptôme : les chats légers touchent des paliers lourds. Seuils trop bas ou estimateur biaisé vers le haut—relevez le plafond du palier léger ou corrigez la fenêtre d’estimation et revérifiez le mix de hits.
Symptôme : les chats lourds débordent ou retombent en fallback en boucle. Seuils trop hauts ou palier xlarge manquant—ajoutez un compartiment et revalidez la sémantique de fallbackOnOverflow.
Symptôme : la latence s’améliore mais pas le coût. Probablement plusieurs bascules de modèle sur les chemins d’échec—séparez les logs de route et d’échec et raccourcissez les chaînes de fallback.

Faire tourner le Gateway sur un portable jetable ou un hôte sans garantie de capacité ruinera le p95 même avec un routage parfait ; sans plan d’exécution macOS exclusif, toujours disponible et contractuel, toolchains et builds locaux résistent à l’automatisation. Les équipes qui ont besoin d’OpenClaw avec builds iOS/macOS, CI ou agents sous un SLO de production durable se stabilisent souvent plus vite en plaçant l’exécution lourde sur des nœuds Mac distants dédiés plutôt que sur des environnements jetables permanents. Pour équilibrer politique de routage et économie des exécuteurs, la location cloud Mac Mini NodeMini sert de base : étagner l’inférence avec le modelRouting dans le Gateway, poser les grosses toolchains sur des nœuds dédiés, et encoder clés et capacité dans vos runbooks.

FAQ

Le modelRouting étagne avant l’appel amont selon le contexte estimé pour le coût et la latence ; les fallbacks réagissent en général aux échecs. Ils peuvent coexister—définissez les frontières. Parcourez d’autres articles OpenClaw via le filtre catégorie.

Rejouez de vrais transcripts avec fixtures en staging, vérifiez les hits de route, puis canary en surveillant les percentiles tokens et latence. Pour le calcul parallèle, alignez la capacité via la page tarifaire pour les nœuds exécuteurs Mac distants.

Ces guides couvrent démons et exposition ; cet article couvre le routage dans le Gateway. Stabilisez le déploiement, puis resserrez openclaw.json. Pour connectivité et droits, voir le centre d’aide.

2026 OpenClaw modelRouting en production Seuils openclaw.json · chaînes multi-modèles et dépannage

Pourquoi le modelRouting appartient au Gateway : pas « plus de modèles pour le spectacle », mais un régulateur coût/latence

Comparaison : primary + fallbacks vs modelRouting (stratégie taille de contexte)

Déploiement en six étapes : de l’ébauche de seuils à une production réversible

Frontières avec agents.defaults et fallbacks : ne tressez pas trois métiers différents

Triage production : tableau des symptômes et trois arguments prêts pour la revue

FAQ