Если в Cursor, Claude Code или self-hosted Agent у вас четырёхзначный API-бill, а выбор модели всё ещё основан на MMLU 2024 года — snapshot OpenRouter Rankings за июнь 2026 даёт другую картину: DeepSeek V4 Flash (~10,9T tokens), Tencent Hy3 (~10,7T) и бесплатный Owl Alpha (~5,0T) лидируют Top 10. Фокус сместился на Agent toolchains, контекст 1M и эффективность MoE. Документ опирается на OpenRouter от 4 июня 2026 и содержит Top 10, матрицу возможностей, шесть трендов, шесть сценариев и чеклист из шести шагов для гибрида API и удалённого Mac.
OpenRouter агрегирует сотни моделей (Anthropic, Google, DeepSeek, Tencent, Moonshot, NVIDIA и др.) за единым API. Ranking сортирует по реальному объёму токенов, включая free tier и multi-provider routing — это ближе к «голосованию кошельком», чем к лабораторному MMLU. В середине 2026 фиксируются шесть структурных сдвигов:
Китайский open source — половина Top 10: DeepSeek (3 позиции), Hy3, Kimi K2.6 — рост часто в сотни процентов, MIT/community-лицензии ускоряют adoption.
Контекст 1M token — baseline: DeepSeek V4, Claude Opus 4.7, Owl Alpha, Gemini 3 Flash, Nemotron 3 Super — monorepo целиком в окне, RAG теряет актуальность во многих кейсах.
Agent-метрики вместо chat-score: SWE-bench Verified и Terminal-Bench 2.0 — новые KPI; в релизах акцент на tool calls, не HumanEval single-turn.
MoE доминирует Top 10: Flash 284B total / 13B active — ~10 % FLOPs/token vs V3.2 (DeepSeek report), KV-cache ~7 %.
Free-модели давят на pricing: Owl Alpha ($0) и Nemotron 3 Super (free) заставляют Claude/Gemini усиливать free tier.
Multimodal — entry requirement: Gemini 3 Flash (full modality), Claude Opus 4.7 (high-res vision) — text-only теряет долю.
«Ranking измеряет деньги и traffic, а не paper-score.» Для prod-budget это часто точнее, чем +0.3 MMLU.
Источник: OpenRouter Rankings, 4.06.2026 (метрика: cumulative token volume; trend = platform UI). Треугольник open-source cost line + Agent coding + free tier стабилен при недельных колебаниях.
| Rank | Model | Vendor | Volume | Trend | Positioning |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | ~10,9T | +995 % | Fast MoE, 1M ctx, Agent/API price-performance |
| 2 | Hy3 Preview | Tencent | ~10,7T | +>999 % | Open MoE, +40 % inference efficiency, Agent coding |
| 3 | Claude Opus 4.7 | Anthropic | ~7,48T | +197 % | Flagship complex Agent, vision, long-run stability |
| 4 | Claude Sonnet 4.6 | Anthropic | ~7,45T | +34 % | Production workhorse, free tier available |
| 5 | Owl Alpha | OpenRouter | ~5,03T | +>999 % | Fully free, 1,05M ctx, Agent-friendly |
| 6 | Gemini 3 Flash Preview | ~4,6T | +3 % | Multimodal, low latency, SWE-bench ~78 % | |
| 7 | DeepSeek V4 Pro | DeepSeek | ~4,54T | +739 % | 1,6T MoE flagship, complex Agent reasoning |
| 8 | DeepSeek V3.2 | DeepSeek | ~4,31T | −14 % | Previous gen, displaced by V4 |
| 9 | Kimi K2.6 | Moonshot | ~3,72T | +1 % | 1T MoE, Agent Swarm (300 sub-agents), open source |
| 10 | Nemotron 3 Super (free) | NVIDIA | ~2,65T | +3 % | Free OSS, Mamba+Transformer, high throughput |
Reference points: Hy3 SWE-bench Verified ~74,4 %, Terminal-Bench 2.0 ~54,4 %. Gemini 3 Flash SWE-bench ~78 %. Kimi K2.6: до 300 sub-agents, 4 000 coordination steps (Moonshot). Pricing июнь 2026: Flash input ~$0,10–0,14/M, Opus 4.7 input ~$5/M.
Шкала 1–5 (5 = top tier по public benchmarks и community feedback, без замеров NodeMini). Универсального champion нет.
| Model | Daily | Code | Long ctx | Reasoning | Multimodal | Agent |
|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | 5 | 5 | 5 | 5 | — | 5 |
| Hy3 Preview | 4 | 5 | 5 | 5 | — | 5 |
| Claude Opus 4.7 | 4 | 5 | 5 | 5 | 5 | 5 |
| Claude Sonnet 4.6 | 5 | 4 | 5 | 4 | 4 | 4 |
| Owl Alpha | 3 | 4 | 4 | 4 | — | 5 |
| Gemini 3 Flash | 5 | 5 | 5 | 4 | 5 | 5 |
| Kimi K2.6 | 4 | 5 | 4 | 4 | 4 | 5 |
| Nemotron 3 Super | 4 | 4 | 5 | 4 | — | 5 |
Owl Alpha: stealth model — provider может логировать prompts. Sensitive data не рекомендуется без data governance.
Шесть пунктов для internal routing spec — связка с локальным Ollama inference и multi-model gateway.
1M context — baseline: книги, monorepos, multi-week sessions; RAG становится optional.
Китайский OSS глобализируется: ~50 % Top 10, часто open weights; MoE (hybrid attention, MTP speculation) — hot topic в R&D и prod.
Agent KPI определяют закупку: tool stability, SWE-bench, Terminal-Bench — Kimi Agent Swarm и Hy3 terminal Agent как reference.
MoE побеждает: 13B active vs сотни B прошлого поколения; Nemotron Mamba+Transformer ~2,2× throughput vs 120B class (NVIDIA claim).
Free tier меняет economics: effective price с cache hit — DeepSeek cache read до ~2 % input price.
Multimodal — ticket to entry: legal, med, finance: diagram+text без image upload становится непрактичным.
Hybrid API + remote Mac: API для peaks и closed source; при data residency, fixed monthly cost или ds4/Ollama local — аренда Mac 96–128 GB UMA. Typical split: coding Agent через OpenRouter + Flash; sensitive prefill local; isolated tasks на Opus/Gemini API.
# Concept: model routing в gateway
routes:
- match: { task: "quick_edit", sensitivity: "low" }
model: deepseek/deepseek-v4-flash
- match: { task: "long_agent", sensitivity: "high" }
model: local://ollama/qwen3.5:72b # SSH-доступный арендованный Mac
- match: { task: "vision_diagram" }
model: google/gemini-3-flash-preview
Export billing: group by model и cache hit — найти expensive lines для simple completions (OpenRouter effective price).
Task tiers: L1 quick edit / L2 multi-file / L3 long-running Agent — map на Flash, Sonnet, Opus или OSS tier.
Pilot DeepSeek V4 Flash: неделя SWE tasks в Cursor или Claude Code — latency и tool failure rate.
Free tier boundaries: Owl Alpha / Nemotron только для non-sensitive prototypes; prod keys — отдельный approval.
Hybrid compute calc: если monthly API > Mac rental, сравнить цены аренды и Ollama matrix.
Fix execution env: CLI Agent, hooks и long sessions на dedicated SSH Mac — local только diff review; см. SSH session isolation.
VPS или sleeping laptop плохо держит 12h+ Kimi-style Agent Swarm; xcodebuild, Keychain и notarytool требуют macOS. Для compute sovereignty при падении API prices: routing в gateway, heavy load на dedicated cloud Mac.
NodeMini Mac Mini cloud rental как Agent execution layer: в связке с Agent Skills и CLI vendor decoupling меняете только API keys — SSH nodes и CI labels без изменений. Specs: цены аренды, onboarding: справочный центр.
OpenRouter сортирует по реальному объёму токенов — paid и free usage — а не по fixed eval sets. Для production и budget forecast релевантнее; benchmarks сравнивают ceiling по отдельным capabilities.
Flash (284B/13B active) для concurrency, cost и simple Agent loops. Pro (1.6T/49B active) +~11 pts на Terminal Bench 2.0 для complex Shell chains. Оба 1M ctx; RAM thresholds в ds4 Flash Mac guide.
Когда данные не должны покидать instance, нужен predictable monthly cost или hybrid с Ollama/ds4 на 96GB+ UMA. API — для closed-source и peaks. Старт: цены аренды и справочный центр.