Classement hebdomadaire OpenRouter ou benchmarks MMLU : lequel est plus fiable ?

Les benchmarks mesurent le plafond de capacité. OpenRouter trie par débit de tokens sur 7 jours glissants et reflète les choix réels payants et gratuits. Pour le budget et les parts de marché, les données de facturation sont généralement plus honnêtes.

Pourquoi la part de tokens Anthropic baisse alors que les revenus restent élevés ?

Claude coûte nettement plus que DeepSeek et les lignes open. L'entreprise paie pour l'inférence complexe, mais les agents et le code en masse vont vers des modèles bon marché — tokens et dollars se découplent.

Comment combiner API et Mac distant dans un pipeline Agent ?

OpenRouter gère le routage multi-modèles. Les prefill sensibles et les sessions CLI longues tournent sur un Mac cloud dédié accessible en SSH — moins de dépendance API, coût mensuel prévisible.

Classement hebdomadaire OpenRouter
Les données de facturation ne mentent pas

Si vous pariez encore sur MMLU ou HumanEval tout en ignorant une facture API à quatre chiffres, le classement OpenRouter par débit de tokens sur 7 jours glissants apporte une réponse plus lucide. Période du 18 au 24 mai 2026 : 28,9 billions de tokens en une semaine ; les modèles chinois devancent les États-Unis depuis quatre semaines. DeepSeek V4-Flash mène avec 3,43T ; Anthropic illustre le paradoxe classique : part de tokens en baisse, revenus en dollars toujours élevés. Ce guide s'adresse aux équipes de routage multi-modèles : sources, Top 10, double lecture fournisseurs, corrélation inverse aux benchmarks et checklist en six étapes fondée sur la facturation.

Pourquoi les tokens facturés sont plus honnêtes que les benchmarks

OpenRouter agrège 300+ modèles, 60+ fournisseurs, 8 millions+ d'utilisateurs et traite environ 100 billions de tokens par mois. Le classement suit le volume hebdomadaire récent (entrée + sortie) — l'argent dépensé et le trafic réel ne sont pas embellis pour une keynote. Dans les workflows Agent, le batch de code et les chaînes d'outils, le volume reflète un vote par les pieds plus qu'un score de laboratoire.

01
Benchmark = plafond, facture = habitude : +0,3 point MMLU ne change pas toujours la prochaine facture ; si Flash coûte ~1/50 d'Opus, le routage Agent bascule immédiatement.
02
Les routes gratuites déforment la volonté de payer : Owl Alpha et les modèles à 0 $ montent en tête — « ça tourne » prime sur « le plus fort ». Sans couche gratuite, on surestime le closed source.
03
Le code est le premier usage : rapport OpenRouter/a16z (~100T de métadonnées anonymes) : part du code de ~11 % début 2025 à >50 % — le haut du classement est orienté coding et Agent.
04
Stabilité et latence avant l'inférence extrême : en production, vitesse API et taux de succès des outils comptent plus qu'un exercice olympique isolé.
05
La fenêtre hebdomadaire capture les hits : Hy3 Preview +16 % semaine sur semaine après la fin du gratuit — plus réactif qu'une moyenne mensuelle.
06
Investisseurs et médias suivent les tokens : valorisation OpenRouter ~26× PS — le classement est un baromètre commercial, pas seulement technique.

« Ce n'est pas qui est le plus intelligent, mais qui est le plus appelé — le volume de tokens est le thermomètre de l'adoption réelle de l'IA. »

28,9 billions par semaine : l'échelle globale et les modèles chinois

Tableau synthétisant les données publiques OpenRouter, période 18–24 mai 2026 (fenêtre glissante de 7 jours, alignée sur openrouter.ai/rankings). Il y a un an ~2,4 billions/semaine ; aujourd'hui 28,9 billions — croissance d'environ 12×. Les applications IA entrent en phase d'explosion à l'échelle.

Indicateur	Donnée	Variation	Lecture
Volume hebdo global	28,9 billions de tokens	+7,4 % (5e hausse consécutive)	Expansion totale > redistribution des parts
Modèles chinois	9,223 billions	+19,89 %	Croissance nettement au-dessus de la moyenne
Modèles américains	4,93 billions	+16,27 %	Volume absolu en hausse, part sous pression
Chine vs États-Unis	Chine #1 depuis 4 semaines	Chine ~45 %+	Début 2025 : Chine <2 % du trafic

Chiffres citables : ① Global 28,9T, +7,4 % semaine sur semaine. ② Chine 9,223T, +19,89 %. ③ États-Unis 4,93T, +16,27 %. ④ Volume mensuel ~100T (OpenRouter). Mettre à jour les rangs de queue sur le site en temps réel.

info

Méthodologie : fenêtre glissante de 7 jours, pas semaine calendaire. Vues modèle et fournisseur sur la même page. Parts en dollars et en tokens affichées séparément — section 04 pour l'écart.

Top 10 modèles, semaine du 18–24 mai 2026

Classement par volume hebdomadaire de tokens. Trois modèles DeepSeek dans le peloton ; série totale ~5,74T (+25,9 % semaine sur semaine), deuxième semaine consécutive en tête fournisseur. Kimi K2.6 sort du Top 10 — le classement hebdo réagit vite aux rotations de hits.

Rang	Modèle	Fournisseur	Tokens/semaine	Variation	Profil
1	DeepSeek-V4-Flash	DeepSeek (Chine)	3,43T	+66 %	Agent, prix minimal
2	Tencent Hy3 Preview	Tencent (Chine)	3,07T	+16 %	Forte croissance post-gratuit
3	Claude Sonnet 4.6	Anthropic (États-Unis)	1,35T	—	1M contexte, coding entreprise
4	DeepSeek-V3.2	DeepSeek (Chine)	1,31T	—	Long tail bon marché, RP
5	Owl Alpha (anonyme)	OpenRouter	1,15T	+29 %	Agent gratuit, 1M contexte
6	Gemini 3 Flash Preview	Google (États-Unis)	1,06T	—	Multimodal, académie/santé
7	DeepSeek-V4-Pro	DeepSeek (Chine)	1,00T	—	Flagship matrice (série 5,74T)
8	MiniMax M2.7	MiniMax (Chine)	806B	—	Long contexte, bon rapport
9	Grok 4.1 Fast	xAI (États-Unis)	721B	—	2M contexte, juridique
10	Step 3.5 Flash	StepFun (Chine)	673B	—	Rapide, batch

Segmentation : trois rôles sur la facture

structure

[Haute valeur · faible trafic]  Anthropic Claude Opus → inférence complexe entreprise
[Coût moyen · trafic moyen]     Google Gemini Flash   → multimodal, recherche, académie
[Ultra-bas · fort trafic]       DeepSeek/MiniMax/StepFun → Agent, code, batch

warning

Vérification croisée : rangs 1–2 et 5 via presse du 25.05.2026 ; 3–4, 6, 8–10 vs. classement public OpenRouter. V4-Pro déductible : série 5,74T moins Flash et V3.2. Données de la semaine en cours sur le site officiel.

Fournisseurs : double vérité tokens vs revenus

Les tokens seuls sous-estiment la monétisation d'Anthropic ; les revenus seuls surestiment la domination du trafic. OpenRouter affiche part de tokens et part de revenus en dollars — les écarts de prix révèlent la stratification réelle.

Dimension	Anthropic	Famille DeepSeek	Interprétation
Part tokens	~12 % (il y a un an ~25 %)	Série 5,74T/semaine, #1 fournisseur	Trafic vers lignes open bon marché
Part revenus $	~46 %	Prix minimal → revenus << tokens	L'entreprise paie encore Claude
Produit phare	Opus 4.6 ~25 M$/mois	V4-Flash pilote les appels Agent massifs	Tokens Opus = fraction de DeepSeek
Timeline Chine	<2 % début 2025 → fév. 2026 dépasse USA → mai ~45 %+		Open + prix agressifs reshapent le trafic global

Rapport OpenRouter/a16z « 2025 AI Usage » : score benchmark et part de marché sont quasi inversément corrélés — coût d'inférence, stabilité API et adéquation Agent priment sur le score maximal. Cohérent avec >50 % coding et domination Flash.

Six étapes : réécrire votre routage avec le classement hebdo

Transformez le classement en norme d'exploitation. Exécutez chaque semaine et reliez au guide tendances OpenRouter et au routage multi-modèles OpenClaw.

01
Chaque lundi : openrouter.ai/rankings — volume global, parts Chine/USA, mouvements Top 10 ; rapport interne (quatre lignes du tableau ci-dessus).
02
Confronter votre facture : tokens vs dollars — tokens sur Flash, coûts sur Claude : routage déjà stratifié. Règles gateway explicites ; pas d'Opus pour le batch.
03
Mapper trois couches : Agent/batch → V4-Flash ; inférence complexe → Opus/Sonnet ; multimodal → Gemini Flash.
04
Suivre les nouveaux Top 10 : Hy3, Owl Alpha signalent le prochain hit ; prototypes non sensibles sur couche gratuite.
05
Calibrer avec >50 % coding : moins MMLU, plus SWE-bench, Terminal-Bench, taux d'échec prod.
06
Évaluer l'hybride : si API mensuelle > location Mac, migrer CLI longues sessions et prefill Ollama vers nœud SSH dédié ; OpenRouter pour les pics. Voir tarifs location.

Un laptop en veille ou un VPS Linux bon marché ne tient pas 12 h de boucle Agent ni xcodebuild/notarytool. Lier « lire le classement » et « environnement d'exécution fixe » est plus durable que chasser chaque semaine le « modèle le plus fort ».

Pour les équipes iOS CI/CD et automation Agent qui exigent SSH stable, isolation Keychain et bande passante prévisible, documenter le routage OpenRouter dans la gateway et placer la charge lourde sur un Mac cloud dédié est plus maîtrisable que tout externaliser. Location Mac Mini cloud NodeMini comme couche d'exécution Agent — changez clé API ou endpoint, nœuds SSH et labels CI inchangés. Accès : centre d'aide ; tarifs : tarifs location.

FAQ

Questions fréquentes

Benchmarks pour les plafonds de capacité ; OpenRouter par débit tokens 7 jours pour les appels payants et gratuits réels. Pour budget, parts de marché et batch Agent, la facturation est généralement plus honnête. Usage complémentaire, pas substitut.

Claude nettement plus cher que DeepSeek et lignes open. L'entreprise paie la prime ; agents et code en masse vers modèles bon marché. Haute valeur/faible trafic et ultra-bas/fort trafic coexistent — lire les deux métriques.

OpenRouter pour routage et suivi hebdo ; prefill sensible et CLI longue session sur Mac cloud SSH — voir isolation session SSH et tarifs location. Closed source via API ; nœud local réduit la facture externe.

Classement hebdomadaire OpenRouter Les données de facturation ne mentent pas

Pourquoi les tokens facturés sont plus honnêtes que les benchmarks

28,9 billions par semaine : l'échelle globale et les modèles chinois

Top 10 modèles, semaine du 18–24 mai 2026

Segmentation : trois rôles sur la facture

Fournisseurs : double vérité tokens vs revenus

Six étapes : réécrire votre routage avec le classement hebdo

Questions fréquentes

Classement hebdomadaire OpenRouter
Les données de facturation ne mentent pas