Если в июне 2026 вы всё ещё маршрутизируете агентов по MMLU-таблицам 2024 года, рейтинги OpenRouter дают однозначный сигнал: китайские модели собирают около 61 % глобального токен-трафика, а доля US-лабораторий упала с ~70 % до ~30 %. Claude Opus 4.8 остаётся потолком качества — а Claude Fable 5 снят с глобальной доступности из-за экспортного контроля. В статье: таблицы компаний и моделей, анализ 70→30 %, качество vs объём, матрица сценариев, релизы Q3, пять макротрендов, сжатие маржи, влияние IPO и чеклист из шести шагов для Agent-пайплайнов с маршрутизацией и Metal-инференсом на Mac.
OpenRouter агрегирует миллионы продакшен-вызовов API — не пресс-релизы, а голосование кошельком. Игнорировать июнь 2026 — типичные ошибки:
Пик бенчмарка = выбор в проде: MMLU измеряет потолок; OpenRouter — за что разработчики реально платят, часто за дешёвые Flash-линейки.
Миф «только Китай»: База глобальная (США, ЕС, Индия). DeepSeek, Xiaomi и MiniMax выигрывают по цене и пропускной способности.
Одна модель на всё: Opus 4.8 выигрывает 16 из 20 сложных задач — но ~$10/ч на Claude против <50 центов на DeepSeek, это экономика планировщика очередей.
Забыть про Fable 5: Идеальный 100/100, затем глобальное отключение в середине июня — политический риск доступа к US-флагманам.
IPO как сноска: OpenAI и Anthropic заявили о намерении IPO в июне 2026 — это переценивает весь сектор и давление на маржу.
Статичная архитектура: Q3 принесёт GPT-6, Opus 5, Gemini 4 и DeepSeek V5 в сжатом окне — хардкод одного провайдера = технический долг маршрутизации.
Дата среза: конец июня 2026. Источники: live-трафик OpenRouter, Artificial Analysis Intelligence Index, SWE-bench Pro.
| Место | Компания | Происхождение | Токенов/нед. | Доля |
|---|---|---|---|---|
| 1 | DeepSeek | Китай | 5,13T | 17,6 % |
| 2 | Anthropic | США | 4,34T | 14,8 % |
| 3 | США | 3,66T | 12,5 % | |
| 4 | OpenAI | США | 2,46T | 8,4 % |
| 5 | Xiaomi | Китай | 2,42T | 8,3 % |
| 6 | MiniMax | Китай | 2,37T | 8,1 % |
| 7 | Tencent | Китай | 2,36T | 8,1 % |
| 8 | Qwen (Alibaba) | Китай | 1,26T | 4,3 % |
Китайские поставщики в топ-8: ~46 % идентифицированного объёма; с Moonshot/Kimi и прочими CN-маршрутами суммарная доля китайских моделей на OpenRouter — ~61 %.
| Место | Модель | Вендор | Токенов/день |
|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 619B |
| 2 | Hy3 Preview | Tencent | 451B |
| 3 | MiniMax M3 | MiniMax | 447B |
| 4 | MiMo-V2.5 | Xiaomi | 327B |
| 5 | DeepSeek V4 Pro | DeepSeek | 300B |
| 6 | Claude Opus 4.7 | Anthropic | 263B |
| 7 | Claude Opus 4.8 | Anthropic | ~200B |
| 8 | Claude Sonnet 4.6 | Anthropic | 178B |
| 9 | Gemini 3 Flash Preview | 156B | |
| 10 | Kimi K2.6 | Moonshot AI | ~150B |
«Рейтинг показывает, какой модели доверяют в проде — а не кто выше в лабораторном eval.»
Данные Bloomberg/OpenRouter (Exponential View) фиксируют сдвиг:
Разработчик из Сан-Диего: «Час кода на Claude — ~$10, на DeepSeek — меньше 50 центов.» Это прежде всего экономика планировщика инференса, а не сравнение потолка качества.
| Модель | Intelligence Index | SWE-bench Pro | Примечание |
|---|---|---|---|
| Claude Opus 4.8 | 61,4 (#1) | 69,2 % | Лидер long context и агентов |
| GPT-5.5 | 59–60 | 63,1 % | Экосистема, быстрые tool calls |
| Gemini 3.1 Pro | 57 | — | Сложный reasoning |
| Qwen 3.7 Max | 57 | — | Лучшая закрытая CN-линейка |
| Claude Sonnet 4.6 | — | 80,8 % (Verified) | Текст, instruction-following |
В 20 параллельных задачах Opus 4.8 победил в шестнадцати; на длинном контексте разрыв критичен для цепочек компиляции и Agent-оркестрации. Claude Fable 5 набрал 100/100 и ~95 % SWE-bench Verified, но в середине июня 2026 снят глобально из-за US export control — статус неясен.
Цена: MiniMax M3 ~$0,60/M input vs Opus 4.8 ~$5,00/M — примерно в 8 раз дешевле на уровне планировщика токенов.
Достаточно хорошо: Автодополнение, перевод, саммари — 80–90 % frontier при доле стоимости в единицах.
Open weights: DeepSeek V4, MiniMax M3 — self-host убирает утечку данных; критично для on-prem и UMA-инференса на арендованном Mac без egress в CN-облако.
Урок Fable 5: Даже флагманы могут исчезнуть за ночь. Агностичная маршрутизация — управление операционным риском, а не luxury.
| Сценарий | Рекомендация | Почему |
|---|---|---|
| Сложный код / Agent | Claude Opus 4.8 | #1 Intelligence Index, long context |
| Ежедневная разработка | DeepSeek V4 Flash / MiMo-V2.5 | Цена/скорость, низкая латентность |
| Самый дешёвый prod API | MiniMax M3 | $0,60/M, open weights, self-host |
| Ultra long context (1M+) | Kimi K2.6 | Окно 1M, конкурентная цена |
| Экосистема Google | Gemini 3.5 Flash | Workspace, мультимодальность |
| Web в реальном времени / X | Grok 4.3 | Live retrieval |
| Self-host / on-prem | GLM 5.2 / Kimi K2.6 | Топ open-weight, Metal/llama.cpp на Mac |
| Генерация изображений с текстом | ChatGPT Images 2.0 | Лучший рендер текста |
| Модель | Вендор | Окно | Ключевые апгрейды |
|---|---|---|---|
| GPT-6 | OpenAI | авг–сен. 2026 | ~1,5M контекст (слух), сильнее агенты |
| Claude Opus 5 | Anthropic | ~сен. 2026 | Долгие агенты, refresh MCP |
| Gemini 4 | Q3 2026 | Видео, аудио, мультимодальный скачок | |
| DeepSeek V5 | DeepSeek | Q3 2026 | Open weights, ~1T параметров |
| GLM 5.2 | Z.ai | Уже вышел | Сильный код, open weight |
Три frontier-релиза могут приземлиться в шестинедельном окне с середины августа по конец сентября — корона бенчмарков сменится быстрее медиацикла.
«Лучшая модель» бесполезна как вопрос: Пять лабораторий за 90 дней — маршрутизация по задаче, латентности и бюджету в gateway.
CN-объём растёт, enterprise-потолок: Инди → 70 %+ возможно; Fortune 500 ограничен compliance, data residency и давлением Конгресса США.
Агенты — единственная метрика, что важна: 44 % вызовов Claude API — математика/CS (отчёт Anthropic 2026). Победитель = стабильный 50-шаговый workflow (SWE-bench Pro, OSWorld).
IPO давит на цены: Намерения IPO OpenAI + Anthropic в июне 2026 — маржа, прозрачный tiering, ценовая война с CN-моделями.
Локально до 80 % SWE-bench: GPU 32 ГБ может достичь ~80 % SWE-bench Verified к середине 2027 — рынок routine-coding API под ударом.
Структурная история июня 2026 — не «Китай победил», а маржа в слое моделей схлопывается. DeepSeek в начале 2025 показал: frontier-качество не требует frontier-compute — Xiaomi, Tencent, MiniMax и Moonshot масштабировали ценовую логику. US-лабы расходятся: OpenAI — экосистема, Anthropic — потолок качества, Google — скорость и мультимодальность. Середина — «не как Claude, но и не дёшево» — исчезает.
Самый ценный навык 2026: архитектура, где смена модели — смена конфига gateway, а не рефакторинг Agent-цепочки и компиляционного пайплайна.
Счёт по моделям: Экспорт OpenRouter — дорогие строки для простых completion (effective price с учётом cache-hit).
Task-tiers: L1 Quick Edit → Flash/MiMo; L2 Multi-file → Sonnet/V4 Pro; L3 Long Agent → Opus 4.8 или local на UMA.
Пилот DeepSeek V4 Flash неделю: SWE-задачи в Cursor/Claude Code — латентность и частота ошибок tool-call.
Compliance-gate: CN-API только для несекретных данных; чувствительный prefill — self-host или арендованный Mac без egress.
Гибридный расчёт: Если месячный API > аренды Mac — цены аренды vs локальный инференс через Metal.
Среда исполнения: Длинные Agent-сессии на выделенном SSH-Mac; gateway маршрутизует, меняются только ключи — см. изоляция SSH-сессий.
VPS и спящие ноутбуки плохо держат 12h+ agent swarms; xcodebuild, Keychain и notarytool требуют нативного macOS и стабильного планировщика процессов. Обходные VPS-решения проигрывают по латентности Metal-цепочки и долгим сессиям. Для продакшен CI/CD iOS и Agent-автоматизации аренда Mac Mini в облаке NodeMini — более стабильная база: фиксированные SSH-узлы, UMA под локальный инференс, предсказуемая стоимость. Цены: цены аренды, онбординг: центр помощи.
OpenRouter измеряет реальный объём токенов. CN-линейки выигрывают по цене, скорости и достаточному качеству для рутины. Opus 4.8 — для самых сложных 5 %: типичная схема Flash на массу, Opus на пики.
70–90 % трафика можно перенести на дешёвые CN/open-weight линии, Opus/GPT оставить для agent-пиков. Сравнение затрат: цены аренды.
Правило gateway: sensitivity: high → локальная модель на арендованном Mac или EU self-host; low → OpenRouter/Flash. Подробности: центр помощи.
Только если пайплайн захардкожен без слоя маршрутизации. Task-tiers и fallback сейчас позволят подключить Q3-релизы через конфиг. Fable 5 показал риск эксклюзивной зависимости от одной модели.