Cursor、Claude Code、または自作 Agent で月額四位数の API 請求が出ているのに、2 年前の「会話品質」ランキングで選定しているなら——2026 年 6 月の OpenRouter Rankings はより厳しい答えを示します。実 Token 呼び出し量 では DeepSeek V4 Flash、Tencent Hy3、無料層 Owl Alpha が上位を占め、競争軸は MMLU から Agent ツールチェーン、1M コンテキスト、MoE 効率へ移っています。本記事は OpenRouter 2026 年 6 月スナップショットに基づき、Top 10 解説、能力マトリクス、六大潮流、六シーン推奨、および API と高メモリリモート Mac のハイブリッド 六ステップを示します。
OpenRouter は Anthropic、Google、DeepSeek、Tencent、Moonshot、NVIDIA など数百モデルの統一 API を提供します。ランキングは直近の実 Token 呼び出し総量で並び、無料ルートと複数ベンダー競争を含みます——研究室スコアより「開発者の財布投票」に近いです。2026 年中期に六つの構造変化が見えます。選定が 2024 年の 100K コンテキスト叙事のままなら、以下を照合してください。
中国発オープンソースが Top 10 の半数:DeepSeek(3 席)、Tencent Hy3、Moonshot Kimi K2.6 など成長率は数百 % が多く、MIT/コミュニティライセンスがグローバル採用を加速しています。
1M Token コンテキストが標準:DeepSeek V4、Claude Opus 4.7、Owl Alpha、Gemini 3 Flash、Nemotron 3 Super が百万級。リポジトリ全体 RAG の「必須性」が低下しています。
Agent 指標が対話スコアを置換:SWE-bench Verified、Terminal-Bench 2.0 が新黄金基準。発表はツール呼び出しと多段実行が中心で、HumanEval 単発ではありません。
MoE が Top 10 を支配:稠密超大モデルはほぼ消滅。Flash 284B 総パラで 13B 活性化、1 Token FLOPs は前世代フラッグシップの約 10% まで低下可能です。
完全無料モデルが価格を再編:Owl Alpha($0)と Nemotron 3 Super(free)が期待値を引き上げ、Claude/Gemini の無料層強化を迫っています。
マルチモーダルが必須に:Gemini 3 Flash の全モーダル入力、Claude Opus 4.7 の高解像度ビジョン——画像非対応の純テキストモデルは周縁化しています。
「ランキングが測るのはお金とトラフィックであり、論文スコアではない。」—— 本番環境では MMLU 0.3 点上昇より、来月の請求額予測に役立ちます。
OpenRouter Rankings 2026年6月4日スナップショット(直近 Token 呼び出し総量;成長はプラットフォーム表示値)。週次で変動しますが、コスパ OSS ライン + Agent コーディング + 無料実験 の三足は安定しています。
| 順位 | モデル | 機関 | 呼び出し量 | 成長 | 一言定位 |
|---|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | ~10.9T | ↑ 995% | 高速 MoE、1M コンテキスト、Agent/API コスパ王 |
| 2 | Hy3 Preview | Tencent | ~10.7T | ↑ >999% | OSS MoE、推論効率 +40%、Agent コーディング黒馬 |
| 3 | Claude Opus 4.7 | Anthropic | ~7.48T | ↑ 197% | フラッグシップ複雑エージェント、ビジョン、長時間安定 |
| 4 | Claude Sonnet 4.6 | Anthropic | ~7.45T | ↑ 34% | 日常本番主力、無料層利用可 |
| 5 | Owl Alpha | OpenRouter | ~5.03T | ↑ >999% | 完全無料、1.05M コンテキスト、Agent 向き |
| 6 | Gemini 3 Flash Preview | ~4.6T | ↑ 3% | マルチモーダル低遅延、SWE-bench 78%、Google エコシステム | |
| 7 | DeepSeek V4 Pro | DeepSeek | ~4.54T | ↑ 739% | フラッグシップ MoE 1.6T、複雑 Agent と推論 |
| 8 | DeepSeek V3.2 | DeepSeek | ~4.31T | ↓ 14% | 前世代も強いが V4 系列に置換中 |
| 9 | Kimi K2.6 | Moonshot | ~3.72T | ↑ 1% | 1T MoE、Agent Swarm、OSS |
| 10 | Nemotron 3 Super (free) | NVIDIA | ~2.65T | ↑ 3% | 無料 OSS、Mamba+Transformer ハイブリッド、高スループット |
引用可能データ:① DeepSeek V4 Flash の 1M コンテキスト単 Token 推論 FLOPs は V3.2 の約 10%、KV キャッシュ約 7%(DeepSeek 技術報告)。② Hy3 SWE-bench Verified 約 74.4%、Terminal-Bench 2.0 約 54.4%。③ Gemini 3 Flash SWE-bench Verified 約 78%、同族 Pro 宣伝値を上回る。④ Kimi K2.6 は最大 300 サブエージェント、4,000 ステップ協調(Moonshot 資料)。価格は各社 API ページ準拠。執筆時 Flash 入力約 $0.10–0.14/M、Opus 4.7 入力 $5/M。
Top 10 を六次元表にまとめると「全能王者はなく、シーン別王者のみ」が見えます。⭐ は相対等級(公開 Benchmark とコミュニティフィードバック、NodeMini 実測ではありません)。
| モデル | 日常 | コーディング | 長文 | 推論 | マルチモーダル | Agent |
|---|---|---|---|---|---|---|
| DeepSeek V4 Flash | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | — | ⭐⭐⭐⭐⭐ |
| Hy3 Preview | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | — | ⭐⭐⭐⭐⭐ |
| Claude Opus 4.7 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Claude Sonnet 4.6 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Owl Alpha | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | — | ⭐⭐⭐⭐⭐ |
| Gemini 3 Flash | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Kimi K2.6 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Nemotron 3 Super | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | — | ⭐⭐⭐⭐⭐ |
Owl Alpha 注意:Stealth モデルのため提供側が Prompt を改善用に記録する可能性があり、機密データは非推奨です。無料≠ゼリスク。本番はデータ分級を別途行ってください。
ランキング背後の共通点を六つに整理し、チーム内《モデルルーティング規範》に使えます——OpenClaw マルチモデルルーティング、Ollama ローカル推論 とも接続できます。
1M コンテキストが新標準:書籍全体、monorepo 全体、数週間の対話を一度に投入可能。RAG は「直接入れる」に譲る場面が増えます。
中国 OSS のグローバル化:Top 10 の約半数が中国チーム発で多くが OSS。MoE 革新(混合注意、MTP 投機デコード)が論文と工程の両热点です。
Agent 能力が核心 KPI:ツール呼び出し安定性、SWE-bench、Terminal-Bench が調達を左右。Kimi Agent Swarm、Hy3 ターミナル Agent が代表です。
MoE 勝利:Flash 13B 活性化が数百 B 世代体験に匹敵。Nemotron Mamba+Transformer ハイブリッドは同類 120B の約 2.2× スループット(NVIDIA 宣伝)。
無料層がビジネスを再編:「先に無料で開発者の心を占め、エコシステムで収益化」。商用 API は実効単価(cache hit 含む)競争に直面——DeepSeek 公式 cache read は入力約 2% の課金が可能です。
マルチモーダルが入場券:今後半年、画像入力非対応モデルは主流ワークフローに入りにくい。法務・医療・金融の図表+テキスト混合が加速します。
| シーン | 優先推奨 | 理由概要 |
|---|---|---|
| 日常業務(文書/翻訳/要約) | Claude Sonnet 4.6 / Gemini 3 Flash | バランス、無料層または低価格、指示追従が安定 |
| 開発者支援コーディング | DeepSeek V4 Flash / Sonnet 4.6 | 低価格 + 1M コンテキストでリポジトリ全体;Sonnet 品質が安定 |
| 複雑 Agent システム | Kimi K2.6 / Hy3 / V4 Flash | SWE-bench と OSS でプライベート化可能;Flash でコスト管理 |
| コスト極敏感 | Owl Alpha / Nemotron 3 Super | $0 料金;プロトタイプと非機密データ向け |
| 画像/動画タスク | Gemini 3 Flash / Opus 4.7 | 全モーダル vs 高解像度ビジョン精度 |
| 企業プライベート高スループット | Nemotron / Hy3 / V4 Flash | OSS デプロイ可;Nemotron はスループットと 1M コンテキスト |
API とローカル/リモート Mac のハイブリッド:純 API はピーク弾力とクローズドフラッグシップ向け。データ域外持ち出し禁止、固定月額、ds4 / Ollama ローカル推論 が必要なら 96GB–128GB 統一メモリ Mac が適します。典型分担:日常コーディング Agent は OpenRouter + DeepSeek Flash;機密リポジトリ prefill はレンタル Mac でローカル;複雑単タスクは Opus/Gemini API にコールバック。
# 概念:OpenClaw / 自作ゲートウェイのモデルルーティング
routes:
- match: { task: "quick_edit", sensitivity: "low" }
model: deepseek/deepseek-v4-flash
- match: { task: "long_agent", sensitivity: "high" }
model: local://ollama/qwen3.5:72b # SSH 到達可能なレンタル Mac 上
- match: { task: "vision_diagram" }
model: google/gemini-3-flash-preview
現請求をエクスポート:モデルと cache hit でグループ化し、「高いのに単純補完のみ」の無駄行を特定(OpenRouter モデルページに effective price 表示)。
タスク分級を定義:L1 クイック編集 / L2 マルチファイルリファクタ / L3 長時間自律 Agent に分け、Flash、Sonnet、Opus または OSS にマップします。
DeepSeek V4 Flash を試験:Cursor、Claude Code、OpenRouter で 1 週間 SWE 系タスクを走らせ、遅延とツール呼び出し失敗率を比較します。
無料層の境界を評価:Owl Alpha / Nemotron は非機密プロトタイプのみ。本番キーとログ方針は別承認。
ハイブリッド算力を計画:月次 API が高配 Mac 家賃を超えるなら、レンタル料金 と Ollama ローカルマトリクス の交点を試算します。
実行環境を固定:CLI Agent、Hook、長セッションを SSH 可能な独占 Mac に置き、ローカルは diff レビューのみ——SSH セッション分離 と同じ発想で、モデル変更時もマシンは不変。
純 VPS やノート PC のスリープでは 12 時間超の Kimi 式 Agent Swarm を支えにくく、xcodebuild、Keychain、notarytool も macOS 依存です。API 値下げ潮でも算力主権を握りたいチームには、ルーティングをゲートウェイに書き、重負荷を独占・予測可能帯域のクラウド Mac サーバーに置く方が、単一「最強モデル」追逐より持続可能です。
NodeMini Mac Mini クラウドレンタルは Agent 実行層に適します。Agent Skill 常駐、CLI ベンダー脱却 と組み合わせれば API Key またはモデルエンドポイントだけ差し替え、SSH ノードと CI ラベルは維持できます。仕様と課金は レンタル料金、接続は ヘルプセンター、即時開通は 算力注文 をご覧ください。
OpenRouter は実 Token 呼び出し量で並べ、開発者が有料または無料で選んだ結果を反映します。固定ベンチマークセット上のベンダースコアではありません。本番選定と予算予測により有用です。Benchmark は単項能力上限の比較に適します。
Flash(284B/13B 活性化)は高並列・コスト重視・単純 Agent ループ向け。Pro(1.6T/49B 活性化)は Terminal Bench 2.0 等多段 Shell で約 11 点先行、複雑長鎖向け。いずれも 1M コンテキスト。ds4 ローカル Flash ガイド のメモリ閾値も参照してください。