OpenRouter-Wochenranking oder MMLU-Benchmark – was ist verlässlicher?

Benchmarks messen Einzelfähigkeits-Obergrenzen. OpenRouter sortiert nach 7-Tage-Rolling-Token-Durchsatz und spiegelt reale bezahlte und kostenlose Aufrufe wider. Für Budgetprognosen und Marktanteile sind Abrechnungsdaten meist ehrlicher.

Warum sinkt Anthropics Token-Anteil, der Umsatzanteil bleibt hoch?

Claude ist deutlich teurer als DeepSeek & Co. Enterprise zahlt für komplexe Inferenz, Agent-Batch und Coding fließen in Billigmodelle – Token-Volumen und Dollar-Umsatz entkoppeln sich.

Wie kombiniert man API und Remote-Mac in Agent-Pipelines?

OpenRouter übernimmt Multi-Model-Routing. Sensible Repo-Prefills und lange CLI-Agent-Sessions laufen auf exklusiven SSH-erreichbaren Cloud-Macs – weniger API-Abhängigkeit, planbare Monatskosten.

OpenRouter Wochen-Ranking nach Token-Volumen
Rechnungsdaten lügen nicht

Wer noch auf MMLU/HumanEval setzt, aber die vierstellige API-Rechnung ignoriert, bekommt von OpenRouter eine nüchterne Antwort: Das 7-Tage-Rolling-Token-Ranking (18.–24. Mai 2026) zeigt 28,9 Billionen Token/Woche global – China-Modelle führen seit vier Wochen. DeepSeek V4-Flash liegt mit 3,43T vorn; Anthropic zeigt das bekannte Paradox: sinkender Token-Anteil, hoher Dollar-Umsatz. Datenquelle, Top-10-Tabelle, Anbieter-Doppelwahrheit, Benchmark-Inverse und eine Sechs-Schritte-Checkliste nach Abrechnung für Multi-Model-Routing-Teams.

Warum Token auf der Rechnung ehrlicher sind als Benchmarks

OpenRouter aggregiert 300+ Modelle von 60+ Anbietern für 8 Mio.+ Nutzer und verarbeitet monatlich rund 100 Billionen Token. Sortierung: Wochen-Token-Gesamt (Input + Output). Ausgaben und Traffic werden nicht für Keynotes geschönt. In Agent-Workflows, Batch-Coding und Tool-Chains spiegeln echte Aufrufe „Foot-voting“ wider – nicht Labor-Obergrenzen.

01
Benchmark = Obergrenze, Rechnung = Gewohnheit: +0,3 MMLU ändert selten die nächste Rechnung; ist Flash ~1/50 des Opus-Preises, routet der Agent sofort um.
02
Gratis-Routen verzerren Zahlungsbereitschaft: $0-Modelle wie Owl Alpha dominieren Wochencharts – „läuft“ schlägt „stärkstes Modell“. Ohne Free-Tier wird Closed-Source überschätzt.
03
Coding ist größter Einzelfall: OpenRouter/a16z (≈100T anonyme Metadaten): Coding-Anteil von ~11% (Anfang 2025) auf >50% – Top-Modelle sind coding-/agent-tauglich.
04
Stabilität & Latenz > Grenz-Inferenz: Produktions-Agenten priorisieren API-Speed und Tool-Erfolgsrate vor Einzel-Olympia-Tasks.
05
Wochenfenster fängt Hits: Hy3 Preview +16% WoW nach Gratis-Ende – schneller als Monatsmittel für neue Stars.
06
Investoren tracken Token: OpenRouter ~26× PS – Rankings sind Wirtschaftsbarometer, nicht nur Tech-Score.

„Nicht wer am klügsten ist, sondern wer am meisten aufgerufen wird – Token-Volumen ist das Thermometer realer AI-Adoption.“

28,9 Billionen/Woche: Größenordnung global & China-Modelle

Tabelle: OpenRouter-Öffnungsdaten, Zeitraum 18.–24. Mai 2026 (7-Tage-Rolling, identisch zu openrouter.ai/rankings). Vor einem Jahr ~2,4T/Woche, jetzt 28,9T – Faktor ~12. AI-Anwendungen skalieren massiv.

Kennzahl	Wert	WoW	Interpretation
Global Wochen-Token	28,9 Billionen	+7,4% (5. Woche steigend)	Gesamtwachstum > Modell-Shuffle
China-Modelle Woche	9,223 Billionen	+19,89%	Deutlich über globalem Mittel
USA-Modelle Woche	4,93 Billionen	+16,27%	Absolut up, Anteil unter Druck
China vs. USA	China 4 Wochen #1	China ~45%+ Anteil	Anfang 2025 China <2% Traffic

Zitierbare Kernzahlen: ① Global 28,9T, +7,4% WoW, 5. Steigerungswoche. ② China 9,223T, +19,89%. ③ USA 4,93T, +16,27%. ④ Monatsvolumen ~100T (OpenRouter). Tail-Ränge live auf der Website prüfen.

info

Methodik: 7-Tage-Rolling, kein Kalenderwoche. Modell- und Anbieter-Ansichten auf derselben Seite. Dollar-Umsatz vs. Token getrennt – Abschnitt 04 erklärt die Divergenz.

Top 10 Modelle, KW 20/2026 (18.–24. Mai)

Sortierung nach Wochen-Token. Drei DeepSeek-Modelle in der Spitze; Serie gesamt 5,74T (+25,9% WoW), zweite Woche Anbieter-Token #1. Kimi K2.6 fiel aus Top 10 – Wochencharts reagieren schnell auf Hits.

Rang	Modell	Anbieter	Wochen-Token	WoW	Profil
1	DeepSeek-V4-Flash	DeepSeek (China)	3,43T	+66%	Agent-Default, Mindestpreis
2	Tencent Hy3 Preview	Tencent (China)	3,07T	+16%	Nach Gratis weiter stark
3	Claude Sonnet 4.6	Anthropic (USA)	1,35T	—	1M Kontext, Enterprise-Coding
4	DeepSeek-V3.2	DeepSeek (China)	1,31T	—	Günstiges Long-Tail, RP
5	Owl Alpha (anonym)	OpenRouter	1,15T	+29%	Gratis-Agent, 1M Kontext
6	Gemini 3 Flash Preview	Google (USA)	1,06T	—	Multimodal, Akademie/Medizin
7	DeepSeek-V4-Pro	DeepSeek (China)	1,00T	—	Matrix-Flagship (Serie 5,74T)
8	MiniMax M2.7	MiniMax (China)	806B	—	Long-Context Preis/Leistung
9	Grok 4.1 Fast	xAI (USA)	721B	—	2M Kontext, Legal stark
10	Step 3.5 Flash	StepFun (China)	673B	—	Schnell/günstig, Batch

Marktsegmente: drei Rechnungsrollen

structure

[High-Value · Low-Traffic]  Anthropic Claude Opus → komplexe Enterprise-Inferenz
[Mid-Cost · Mid-Traffic]    Google Gemini Flash   → Multimodal, Suche/Akademie
[Ultra-Low · High-Traffic]  DeepSeek/MiniMax/StepFun → Agent, Coding, Batch

warning

Cross-Check: Ränge 1–2, 5 per Medienbericht 25.05.2026; 3–4, 6, 8–10 vs. OpenRouter-Live und Branchenkommentar. V4-Pro ableitbar aus Serie 5,74T minus Flash/V3.2. Aktuelle Woche auf der Website.

Anbieter: Token-Anteil vs. Dollar-Umsatz

Nur Token unterschätzt Anthropics Monetarisierung; nur Umsatz überschätzt Traffic-Dominanz. OpenRouter zeigt beides – Preisunterschiede erzeugen Schichten.

Dimension	Anthropic	DeepSeek-Familie	Lesart
Token-Anteil	~12% (vor 1J ~25%)	Serie 5,74T/Woche, Anbieter #1 Token	Traffic zu Billig/Open-Source
Dollar-Umsatzanteil	~46%	Mindestpreis → Umsatz << Token	Enterprise zahlt Claude-Premium
Flagship	Opus 4.6 ~$25M/Monat Umsatz	V4-Flash treibt Agent-Massenaufrufe	Opus-Token Bruchteil vs. DeepSeek
China-Timeline	<2% (Anfang 2025) → Feb 2026 USA überholt → Mai ~45%+		Open + Dumping-Preise reshapen Global Traffic

OpenRouter/a16z „2025 AI Usage Report“: Benchmark-Score und Marktanteil korrelieren invers – Kosten, API-Stabilität und Agent-Fit schlagen Labor-Maxima. Passt zu >50% Coding und Flash-Dominanz.

Sechs Schritte: Routing nach Wochenchart neu schreiben

Charts als Ops-Standard, nicht News. Wöchentlich ausführen; verknüpfen mit OpenRouter-Trend-Guide und OpenClaw Multi-Model-Routing.

01
Montags openrouter.ai/rankings: Globales Wochenvolumen, China/USA-Anteil, Top-10-Delta intern loggen (vier Kernzeilen oben).
02
Eigene Rechnung: Token vs. Dollar: Flash-Token, Claude-Kosten → Routing schon geschichtet. Gateway-Regeln explizit; kein Opus für Massen-Completion.
03
Drei Schichten mappen: Agent/Batch → V4-Flash; komplex → Opus/Sonnet; Multimodal → Gemini Flash.
04
Neue Top-10 tracken: Hy3, Owl Alpha = nächste Hit-Signale; Prototypen auf Free-Tier testen.
05
>50% Coding kalibriert Reviews: Weniger MMLU, mehr SWE-bench/Terminal-Bench/Prod-Failrate.
06
Hybrid rechnen: Monats-API > Mac-Miete → lange CLI-Agent/Ollama-Prefill auf SSH-Exklusivknoten; OpenRouter nur Spitzen. Specs: Mietpreise.

Laptop-Sleep oder Billig-VPS halten keine 12h-Agent-Loops und kein xcodebuild/notarytool. Wochenchart + feste Runtime schlägt wöchentliches „stärkstes Modell“-Jagen.

Teams mit stabiler SSH-Langsession, Keychain-Isolation, planbarer Bandbreite für iOS-CI und Agent-Automation: OpenRouter im Gateway, Heavy Load auf exklusivem Cloud-Mac. NodeMini Mac-Mini-Miete als Agent-Runtime – API-Key/Endpoint wechseln, SSH/CI-Labels bleiben. Onboarding: Hilfezentrum, Preise: Mietpreise.

FAQ

Häufige Fragen

Benchmarks für Obergrenzen; OpenRouter nach 7-Tage-Token-Durchsatz für reale Paid/Free-Aufrufe. Für Budget, Marktanteil und Agent-Batch ist Abrechnung meist ehrlicher. Komplementär nutzen, nicht ersetzen.

Claude deutlich teurer als DeepSeek & Co. Enterprise zahlt Premium; Massen-Agent/Coding in Billigmodelle. High-Value/Low-Traffic vs. Ultra-Low/High-Traffic – beide Metriken gemeinsam betrachten.

OpenRouter für Routing und Wochen-Tracking; sensible Prefills und CLI-Agent auf SSH-Cloud-Mac – siehe SSH-Session-Isolation und Mietpreise. Closed Source via API, lokaler Knoten senkt externe Rechnung.

OpenRouter Wochen-Ranking nach Token-Volumen Rechnungsdaten lügen nicht

Warum Token auf der Rechnung ehrlicher sind als Benchmarks

28,9 Billionen/Woche: Größenordnung global & China-Modelle

Top 10 Modelle, KW 20/2026 (18.–24. Mai)

Marktsegmente: drei Rechnungsrollen

Anbieter: Token-Anteil vs. Dollar-Umsatz

Sechs Schritte: Routing nach Wochenchart neu schreiben

Häufige Fragen

OpenRouter Wochen-Ranking nach Token-Volumen
Rechnungsdaten lügen nicht