Что надёжнее — недельный рейтинг OpenRouter или MMLU?

Benchmark измеряет ceiling по отдельным capability; OpenRouter сортирует по 7-дневному rolling throughput токенов (input + output) и отражает реальный paid/free usage. Для budget forecast и оценки market share billing-данные обычно честнее.

Почему доля Token Anthropic падает, а USD revenue share остаётся ~46%?

Claude priced значительно выше DeepSeek и других OSS-линеек: enterprise complex reasoning платит premium, но Agent batch jobs и coding tasks массово уходят на дешёвые модели — формируется split «high value · low throughput» vs «ultra-low price · high throughput».

Как связать Agent pipeline с OpenRouter и удалённым Mac?

OpenRouter — elastic multi-model routing и tracking недельного рейтинга; sensitive repo prefill и long-session CLI Agent — на dedicated cloud Mac с SSH. Closed-source флагманы остаются на API; локальный узел снижает зависимость от внешнего billing.

Недельный рейтинг OpenRouter по Token
Billing не врёт — кто реально доминирует на рынке?

Если вы всё ещё выбираете «сильнейшую модель» по MMLU и HumanEval, игнорируя четырёхзначный API-invoice — OpenRouter с 7-дневным rolling throughput даёт жёстче ответ. Период 18–24 мая 2026: глобальный недельный объём 28,9T токенов, китайские модели четвёртую неделю подряд обгоняют американские. DeepSeek V4-Flash — 3,43T и первое место; у Anthropic классический «падающая доля Token · стабильная USD revenue» premium-парадокс. Документ для разработчиков multi-model routing: источник данных, Top 10, dual truth вендоров, inverse benchmark effect и шесть шагов billing-driven model selection.

Почему Token в billing честнее benchmark

OpenRouter — крупнейший neutral API-aggregator: 300+ моделей, 60+ провайдеров, 8M+ пользователей, ~100T токенов в месяц на платформе. Рейтинг сортирует по недельному суммарному throughput (input + output) — потраченные доллары и прогнанный traffic не получают PR-фильтра. В отличие от fixed eval sets в лаборатории, реальный call volume отражает «голосование ногами» в Agent workflows, batch coding и multi-turn tool chains.

01
Benchmark — ceiling, billing — habit: +0,3 MMLU не меняет invoice следующего месяца; если Flash стоит ~1/50 Opus, Agent loop мгновенно переключает routing в gateway.
02
Free tier искажает paid intent: Owl Alpha ($0) в Top 10 — devs ставят «runs at all» выше «best model»; без учёта free layer завышаете долю closed-source flagship.
03
Coding — крупнейший single use case: отчёт OpenRouter × a16z (~100T анонимных metadata) — доля coding выросла с ~11% (начало 2025) до >50%; верх рейтинга — encoding- и Agent-friendly модели.
04
Stability и latency важнее limit reasoning: production Agent смотрит на API response time и tool-call success rate, не на single-shot math benchmark.
05
Weekly window ловит breakout: 7-day rolling: Hy3 Preview после end of free promo всё ещё +16% WoW — чувствительнее monthly average к новым лидерам.
06
Инвесторы смотрят на Token metrics: OpenRouter оценивают ~26× PS; rankings стали commercial barometer — игнорировать = игнорировать реальный cash flow рынка.

«Вопрос не в том, кто умнее, а кто чаще вызывается — weekly Token throughput — термометр реального adoption и market validation.»

28,9T за неделю: скачок Китая и США по orders of magnitude

Таблица — публичные данные OpenRouter, период 18–24 мая 2026 (7-day rolling throughput, как на openrouter.ai/rankings). Год назад weekly platform volume ~2,4T; сейчас 28,9T — рост ~12×. AI workloads вышли на масштаб burst, а не pilot.

Метрика	Значение	WoW	Интерпретация
Глобальный weekly volume	28,9T токенов	+7,4% (5-я неделя роста)	Total expansion быстрее reshuffle долей моделей
Китайские модели	9,223T токенов	+19,89%	Рост выше global mean
Американские модели	4,93T токенов	+16,27%	Абсолют растёт, share сжимается
CN vs US	Китай 4-ю неделю #1	~45%+ share CN	Начало 2025: CN <2% platform traffic

Hard numbers для цитирования: ① global 28,9T, WoW +7,4%, пятая неделя подряд в плюсе. ② CN models 9,223T, +19,89%. ③ US models 4,93T, +16,27%. ④ monthly platform scale ~100T (публичный OpenRouter). Перед публикацией сверяйте tail ranks на live rankings.

info

Methodology: weekly — rolling 7-day window, не calendar week; на той же странице переключаются model vs provider market share. Token share и USD revenue share — отдельные колонки; §04 разбирает divergence.

Top 10 моделей: третья неделя мая 2026

Сортировка по weekly Token volume. Три модели DeepSeek в Top 10, серия суммарно ~5,74T (WoW +25,9%) — вторую неделю vendor #1 по Token. Kimi K2.6 была #6 на прошлой неделе, выпала из десятки: weekly board чувствителен к hype rotation.

#	Модель	Вендор	Weekly tokens	WoW	Роль в stack
1	DeepSeek-V4-Flash	DeepSeek (CN)	3,43T	+66%	Agent workflows, ultra-low $/token
2	Tencent Hy3 Preview	Tencent (CN)	3,07T	+16%	Post-promo growth сохраняется
3	Claude Sonnet 4.6	Anthropic (US)	1,35T	—	1M ctx, enterprise coding
4	DeepSeek-V3.2	DeepSeek (CN)	1,31T	—	Low-cost long tail, RP-heavy
5	Owl Alpha (anon)	OpenRouter	1,15T	+29%	$0 Agent-specialized, 1M ctx
6	Gemini 3 Flash Preview	Google (US)	1,06T	—	Multimodal, academic/medical
7	DeepSeek-V4-Pro	DeepSeek (CN)	1,00T	—	Matrix flagship (series 5,74T)
8	MiniMax M2.7	MiniMax (CN)	806B	—	Long ctx, price/perf
9	Grok 4.1 Fast	xAI (US)	721B	—	2M ctx, legal workloads
10	Step 3.5 Flash	StepFun (CN)	673B	—	Fast cheap batch inference

Market tiers: billing role трёх классов моделей

structure

[high-value · low-throughput]  Anthropic Claude Opus  → complex enterprise reasoning, strong WTP
[mid-cost · mid-throughput]    Google Gemini Flash    → multimodal, search/academic ecosystem
[ultra-low · high-throughput]  DeepSeek / MiniMax / StepFun → Agent, coding, batch jobs

warning

Cross-check: позиции 1–2, 5 — репортаж NBD 2026-05-25; 3–4, 6, 8–10 — OpenRouter public board и industry commentary. V4-Pro weekly можно вывести: series 5,74T минус V4-Flash и V3.2. Актуальную неделю — только с live rankings.

Вендоры: dual truth — Token share vs USD revenue

Только Token ranking недооценивает monetization Anthropic; только revenue — переоценивает traffic dominance. OpenRouter показывает Token share и USD revenue share side-by-side — pricing ladder как реальная market structure.

Измерение	Anthropic	DeepSeek family	Вывод
Token share	~12% (год назад ~25%)	5,74T weekly, vendor #1 по Token	Traffic dominance → low-price OSS line
USD revenue share	~46%	Ultra-low unit price, revenue << Token share	Enterprise платит premium за Claude
Flagship SKU	Claude Opus 4.6 ~$25M/mo revenue class	V4-Flash drives Agent mass calls	Opus Token — orders of magnitude ниже DeepSeek
CN timeline	2025 start <2% → Feb 2026 CN first over US → May 2026 ~45%+		OSS + aggressive pricing reshapes global routing

Отчёт OpenRouter × a16z «2025 AI Usage» фиксирует counter-intuitive pattern: benchmark score и market share почти inverse — devs оптимизируют inference cost, API stability и Agent fit, не leaderboard ceiling. Согласуется с coding >50% usage и Flash-доминированием в weekly board.

Шесть шагов: weekly rankings → model routing policy

Переведите board из news feed в ops runbook. Еженедельно, в связке с гайдом трендов OpenRouter и OpenClaw multi-model routing.

01
Каждый понедельник — openrouter.ai/rankings: логируйте global weekly total, CN/US ratio и Top 10 delta; внутренний one-pager из четырёх строк таблицы §02.
02
Reconcile billing: Token vs USD: если Token mass на Flash, а USD на Claude — routing уже tiered; зафиксируйте в gateway rules, не гоняйте Opus на bulk completion.
03
Map scenarios на три tier: Agent/batch → DeepSeek-V4-Flash; enterprise complex reasoning → Claude Opus/Sonnet; multimodal → Gemini Flash.
04
Track new Top 10 entrants: Hy3 Preview, Owl Alpha — early signal следующего breakout; non-sensitive prototypes — через free tier до prod keys.
05
Calibrate evals под coding >50%: меньше MMLU в selection meetings, больше SWE-bench, Terminal-Bench и measured tool failure rate.
06
Hybrid compute review: если monthly API > Mac rental — long-session CLI Agent, Ollama prefill на SSH-узел; OpenRouter только elastic peaks. Тарифы: цены аренды.

Sleeping laptop или cheap Linux VPS не держит 12h+ Agent loop и не запускает xcodebuild, notarytool, Keychain-isolated signing. Привязка «weekly board review» к fixed execution environment устойчивее, чем chase единственной «best model» каждую неделю.

Для команд iOS CI/CD и AI Agent automation, которым нужны stable SSH long sessions, Keychain isolation и predictable bandwidth: явный OpenRouter routing в gateway + heavy load на dedicated cloud Mac контролируемее, чем 100% public API. NodeMini Mac Mini cloud rental — Agent execution layer: смена API key или model endpoint не трогает SSH nodes и CI labels. Onboarding: справочный центр; instant provision — оформить заказ.

FAQ

Частые вопросы

Benchmark сравнивает ceiling по отдельным capabilities; OpenRouter сортирует по 7-day rolling Token throughput — paid и free calls. Для budget forecast, market share и Agent batch selection billing обычно честнее. Используйте оба слоя, не заменяя друг друга.

Claude priced выше DeepSeek OSS: enterprise complex reasoning платит premium, но Agent и coding mass traffic уходит на дешёвые модели — coexistence high-value · low-throughput и ultra-low · high-throughput. Смотрите обе метрики при model pick.

OpenRouter — elastic routing и weekly tracking; sensitive prefill и long CLI Agent — на dedicated cloud Mac по SSH, см. SSH session isolation и цены аренды. Closed-source flagship остаётся на API; локальный узел снижает external bill dependency.