Тренды LLM 2026: технический разбор
OpenRouter по объёму токенов: выбор модели для Agent-разработки

Если в Cursor, Claude Code или self-hosted Agent у вас четырёхзначный API-бill, а выбор модели всё ещё основан на MMLU 2024 года — snapshot OpenRouter Rankings за июнь 2026 даёт другую картину: DeepSeek V4 Flash (~10,9T tokens), Tencent Hy3 (~10,7T) и бесплатный Owl Alpha (~5,0T) лидируют Top 10. Фокус сместился на Agent toolchains, контекст 1M и эффективность MoE. Документ опирается на OpenRouter от 4 июня 2026 и содержит Top 10, матрицу возможностей, шесть трендов, шесть сценариев и чеклист из шести шагов для гибрида API и удалённого Mac.

01

Почему рейтинг OpenRouter информативнее vendor-benchmark

OpenRouter агрегирует сотни моделей (Anthropic, Google, DeepSeek, Tencent, Moonshot, NVIDIA и др.) за единым API. Ranking сортирует по реальному объёму токенов, включая free tier и multi-provider routing — это ближе к «голосованию кошельком», чем к лабораторному MMLU. В середине 2026 фиксируются шесть структурных сдвигов:

  1. 01

    Китайский open source — половина Top 10: DeepSeek (3 позиции), Hy3, Kimi K2.6 — рост часто в сотни процентов, MIT/community-лицензии ускоряют adoption.

  2. 02

    Контекст 1M token — baseline: DeepSeek V4, Claude Opus 4.7, Owl Alpha, Gemini 3 Flash, Nemotron 3 Super — monorepo целиком в окне, RAG теряет актуальность во многих кейсах.

  3. 03

    Agent-метрики вместо chat-score: SWE-bench Verified и Terminal-Bench 2.0 — новые KPI; в релизах акцент на tool calls, не HumanEval single-turn.

  4. 04

    MoE доминирует Top 10: Flash 284B total / 13B active — ~10 % FLOPs/token vs V3.2 (DeepSeek report), KV-cache ~7 %.

  5. 05

    Free-модели давят на pricing: Owl Alpha ($0) и Nemotron 3 Super (free) заставляют Claude/Gemini усиливать free tier.

  6. 06

    Multimodal — entry requirement: Gemini 3 Flash (full modality), Claude Opus 4.7 (high-res vision) — text-only теряет долю.

«Ranking измеряет деньги и traffic, а не paper-score.» Для prod-budget это часто точнее, чем +0.3 MMLU.

02

OpenRouter Top 10 — snapshot 4 июня 2026 (token volume)

Источник: OpenRouter Rankings, 4.06.2026 (метрика: cumulative token volume; trend = platform UI). Треугольник open-source cost line + Agent coding + free tier стабилен при недельных колебаниях.

RankModelVendorVolumeTrendPositioning
1DeepSeek V4 FlashDeepSeek~10,9T+995 %Fast MoE, 1M ctx, Agent/API price-performance
2Hy3 PreviewTencent~10,7T+>999 %Open MoE, +40 % inference efficiency, Agent coding
3Claude Opus 4.7Anthropic~7,48T+197 %Flagship complex Agent, vision, long-run stability
4Claude Sonnet 4.6Anthropic~7,45T+34 %Production workhorse, free tier available
5Owl AlphaOpenRouter~5,03T+>999 %Fully free, 1,05M ctx, Agent-friendly
6Gemini 3 Flash PreviewGoogle~4,6T+3 %Multimodal, low latency, SWE-bench ~78 %
7DeepSeek V4 ProDeepSeek~4,54T+739 %1,6T MoE flagship, complex Agent reasoning
8DeepSeek V3.2DeepSeek~4,31T−14 %Previous gen, displaced by V4
9Kimi K2.6Moonshot~3,72T+1 %1T MoE, Agent Swarm (300 sub-agents), open source
10Nemotron 3 Super (free)NVIDIA~2,65T+3 %Free OSS, Mamba+Transformer, high throughput

Reference points: Hy3 SWE-bench Verified ~74,4 %, Terminal-Bench 2.0 ~54,4 %. Gemini 3 Flash SWE-bench ~78 %. Kimi K2.6: до 300 sub-agents, 4 000 coordination steps (Moonshot). Pricing июнь 2026: Flash input ~$0,10–0,14/M, Opus 4.7 input ~$5/M.

03

Capability matrix: daily, coding, long context, reasoning, multimodal, Agent

Шкала 1–5 (5 = top tier по public benchmarks и community feedback, без замеров NodeMini). Универсального champion нет.

ModelDailyCodeLong ctxReasoningMultimodalAgent
DeepSeek V4 Flash55555
Hy3 Preview45555
Claude Opus 4.7455555
Claude Sonnet 4.6545444
Owl Alpha34445
Gemini 3 Flash555455
Kimi K2.6454445
Nemotron 3 Super44545

Три model lines

  • Price-performance Agent: DeepSeek V4 Flash — интеграция в Claude Code, OpenClaw; XML tool calls снижают JSON-failure rate.
  • Open source / self-host: Hy3, Kimi K2.6, Nemotron — on-prem и custom routing; Hy3 rebuild <3 месяцев.
  • Closed-source / multimodal: Claude Opus 4.7, Gemini 3 Flash — long autonomous runs, native Google tools, precise OCR.
warning

Owl Alpha: stealth model — provider может логировать prompts. Sensitive data не рекомендуется без data governance.

04

Шесть трендов 2026: от «большей модели» к «дешевле Agent»

Шесть пунктов для internal routing spec — связка с локальным Ollama inference и multi-model gateway.

  1. 01

    1M context — baseline: книги, monorepos, multi-week sessions; RAG становится optional.

  2. 02

    Китайский OSS глобализируется: ~50 % Top 10, часто open weights; MoE (hybrid attention, MTP speculation) — hot topic в R&D и prod.

  3. 03

    Agent KPI определяют закупку: tool stability, SWE-bench, Terminal-Bench — Kimi Agent Swarm и Hy3 terminal Agent как reference.

  4. 04

    MoE побеждает: 13B active vs сотни B прошлого поколения; Nemotron Mamba+Transformer ~2,2× throughput vs 120B class (NVIDIA claim).

  5. 05

    Free tier меняет economics: effective price с cache hit — DeepSeek cache read до ~2 % input price.

  6. 06

    Multimodal — ticket to entry: legal, med, finance: diagram+text без image upload становится непрактичным.

05

Шесть сценариев: model pick и split API / Mac compute

  • Office (docs, translation): Claude Sonnet 4.6 / Gemini 3 Flash — balanced, free tier или low cost.
  • Dev assist: DeepSeek V4 Flash / Sonnet 4.6 — 1M ctx для full repo; Sonnet стабильнее по quality.
  • Complex Agent systems: Kimi K2.6 / Hy3 / V4 Flash — SWE benchmarks + OSS; Flash для cost control.
  • Extreme cost sensitivity: Owl Alpha / Nemotron 3 Super — $0; только prototypes и non-sensitive data.
  • Image/video: Gemini 3 Flash / Opus 4.7 — full modality vs high-res vision.
  • Enterprise self-host: Nemotron / Hy3 / V4 Flash — open weights, throughput, 1M ctx.

Hybrid API + remote Mac: API для peaks и closed source; при data residency, fixed monthly cost или ds4/Ollama local — аренда Mac 96–128 GB UMA. Typical split: coding Agent через OpenRouter + Flash; sensitive prefill local; isolated tasks на Opus/Gemini API.

yaml
# Concept: model routing в gateway
routes:
  - match: { task: "quick_edit", sensitivity: "low" }
    model: deepseek/deepseek-v4-flash
  - match: { task: "long_agent", sensitivity: "high" }
    model: local://ollama/qwen3.5:72b   # SSH-доступный арендованный Mac
  - match: { task: "vision_diagram" }
    model: google/gemini-3-flash-preview
06

Шесть шагов: интеграция ranking insights в Agent pipeline

  1. 01

    Export billing: group by model и cache hit — найти expensive lines для simple completions (OpenRouter effective price).

  2. 02

    Task tiers: L1 quick edit / L2 multi-file / L3 long-running Agent — map на Flash, Sonnet, Opus или OSS tier.

  3. 03

    Pilot DeepSeek V4 Flash: неделя SWE tasks в Cursor или Claude Code — latency и tool failure rate.

  4. 04

    Free tier boundaries: Owl Alpha / Nemotron только для non-sensitive prototypes; prod keys — отдельный approval.

  5. 05

    Hybrid compute calc: если monthly API > Mac rental, сравнить цены аренды и Ollama matrix.

  6. 06

    Fix execution env: CLI Agent, hooks и long sessions на dedicated SSH Mac — local только diff review; см. SSH session isolation.

VPS или sleeping laptop плохо держит 12h+ Kimi-style Agent Swarm; xcodebuild, Keychain и notarytool требуют macOS. Для compute sovereignty при падении API prices: routing в gateway, heavy load на dedicated cloud Mac.

NodeMini Mac Mini cloud rental как Agent execution layer: в связке с Agent Skills и CLI vendor decoupling меняете только API keys — SSH nodes и CI labels без изменений. Specs: цены аренды, onboarding: справочный центр.

FAQ

Частые вопросы

OpenRouter сортирует по реальному объёму токенов — paid и free usage — а не по fixed eval sets. Для production и budget forecast релевантнее; benchmarks сравнивают ceiling по отдельным capabilities.

Flash (284B/13B active) для concurrency, cost и simple Agent loops. Pro (1.6T/49B active) +~11 pts на Terminal Bench 2.0 для complex Shell chains. Оба 1M ctx; RAM thresholds в ds4 Flash Mac guide.

Когда данные не должны покидать instance, нужен predictable monthly cost или hybrid с Ollama/ds4 на 96GB+ UMA. API — для closed-source и peaks. Старт: цены аренды и справочный центр.