OpenRouter 週排行榜和 MMLU 等 Benchmark 哪個更可信？

Benchmark 衡量單項能力上限；OpenRouter 按 7 天滾動 Token 吞吐量排序，反映開發者真實付費與免費調用選擇。對預算預測與市場佔有率判斷，帳單數據通常更誠實。

為什麼 Anthropic Token 份額下滑但收入份額仍高？

Claude 定價顯著高於 DeepSeek 等開源線，企業級複雜推理用戶願付溢價，但 Agent 批處理與程式設計任務大量流向低價模型，形成 Token 量與美元收入的分層。

Agent 流水線如何結合 API 與遠端 Mac？

OpenRouter 負責多模型彈性路由；敏感儲存庫 prefill、長會話 CLI Agent 可放在 SSH 可達的獨佔雲端 Mac 上，降低對外部 API 的依賴並固定月成本。

OpenRouter 最新模型週調用量排行：帳單數據不會說謊，誰才是真正的王者？

為什麼「帳單上的 Token」比 Benchmark 更誠實

OpenRouter 是全球最大的中立 AI 模型 API 聚合平台之一：接入 300+ 模型、覆蓋 60+ 供應商，超 800 萬 用戶，平台每月處理約 100 萬億 Token 流量。其排行榜按近期週 Token 總量（輸入 + 輸出）排序——花出去的錢與跑出去的流量不會為發表會潤色。相對實驗室固定評測集，真實調用量更能反映 Agent 工作流、批處理程式設計與多輪工具鏈裡的「用腳投票」。

01
Benchmark 測的是上限，帳單測的是習慣：MMLU 漲 0.3 分未必改變你下月發票；但 DeepSeek Flash 單價若僅為 Opus 的約 1/50，Agent 迴圈會立刻改路由。
02
免費路由扭曲「付費意願」：Owl Alpha 等 $0 模型在週榜衝高，說明開發者把「能跑通」放在「最強」之前——選型若忽略免費層，會高估閉源旗艦份額。
03
程式設計已成最大單一用途：OpenRouter 與 a16z 聯合報告（基於約 100 萬億 Token 匿名中繼資料）顯示，程式設計任務佔比從 2025 年初約 11% 升至超 50%——榜單前列多為編碼與 Agent 友善型模型。
04
穩定性與延遲比極限推理重要：生產環境 Agent 更在意 API 回應速度與工具調用成功率，而非單次奧數題滿分。
05
週度口徑捕捉「爆款」：按 7 天滾動統計，Hy3 Preview 限免結束後仍 +16% 週環比，比月度平均更能發現新進黑馬。
06
投資者與媒體已轉向 Token 指標：OpenRouter 估值約 26× PS，排行榜從技術指標升級為商業晴雨表——忽視它等於忽視市場真金白銀的流向。

「不是誰最聰明，而是誰最被調用——Token 調用量是 AI 真實落地與市場認可度的體溫計。」

28.9 萬億週調用量：全球與中國模型的數量級躍遷

下表彙總 OpenRouter 公開數據，統計週期為 2026 年 5 月 18 日–24 日（7 天滾動 Token 吞吐量，與官網 openrouter.ai/rankings 口徑一致）。一年前平台週處理量約 2.4 萬億，如今 28.9 萬億，約 12 倍 成長——AI 應用已進入規模化爆發階段。

指標	數據	環比變化	解讀
全球週調用量	28.9 萬億 Token	+7.4%（連續五週上漲）	總量擴張仍快於單模型份額洗牌
中國模型週調用量	9.223 萬億 Token	+19.89%	增速顯著高於全球均值
美國模型週調用量	4.93 萬億 Token	+16.27%	絕對量成長但份額被擠壓
中美格局	中國連續四週第一	中國佔比約 45%+	2025 年初中國模型流量佔比尚不足 2%

可引用硬核數據：① 全球週量 28.9T，環比 +7.4%，為連續第五週上漲。② 中國模型週量 9.223T，環比 +19.89%。③ 美國模型週量 4.93T，環比 +16.27%。④ 平台月 Token 規模約 100T 量級（OpenRouter 公開口徑）。撰寫時請以官網即時榜單為準更新末位名次。

info

統計說明：週榜為 7 天滾動視窗，非自然週日曆；模型維度與廠商市場佔有率可在同一頁面切換。美元收入份額與 Token 份額分列展示，下文第五節專門解讀二者背離。

2026 年 5 月第三週模型週調用量 Top 10

當週前十以週 Token 量排序。DeepSeek 三款模型同時進入前列，系列合計約 5.74T Token（環比 +25.9%），連續兩週位居廠商 Token 量第一。Kimi K2.6 前一週曾列第六，當週跌出前十，說明週榜對「爆款」輪動極為敏感。

排名	模型	廠商	週 Token 量	環比	特點
1	DeepSeek-V4-Flash	DeepSeek（中國）	3.43T	+66%	Agent 工作流首選，極低價格
2	騰訊 Hy3 Preview	Tencent（中國）	3.07T	+16%	限免結束後仍高成長
3	Claude Sonnet 4.6	Anthropic（美國）	1.35T	—	百萬上下文，企業程式設計主力
4	DeepSeek-V3.2	DeepSeek（中國）	1.31T	—	低價長尾，角色扮演活躍
5	Owl Alpha（匿名）	OpenRouter	1.15T	+29%	免費 Agent 特化，百萬上下文
6	Gemini 3 Flash Preview	Google（美國）	1.06T	—	多模態，學術/醫療場景
7	DeepSeek-V4-Pro	DeepSeek（中國）	1.00T	—	矩陣旗艦（系列合計 5.74T）
8	MiniMax M2.7	MiniMax（中國）	806B	—	長上下文性價比之選
9	Grok 4.1 Fast	xAI（美國）	721B	—	2M 上下文，法律場景強勢
10	Step 3.5 Flash	StepFun（中國）	673B	—	快速低價，批處理場景

市場分層：三類模型的「帳單角色」

structure

[高價值·低流量]  Anthropic Claude Opus → 企業複雜推理，付費能力強
[性價比·中流量]  Google Gemini Flash   → 多模態、學術與搜尋生態
[極低價·高流量]  DeepSeek / MiniMax / StepFun → Agent、程式設計、批處理

warning

數據交叉驗證：第 1–2、5 項週量可參考《每日經濟新聞》2026-05-25 報導；第 3–4、6、8–10 項與 OpenRouter 公開榜單及同期產業解讀交叉核對。V4-Pro 週量可按系列合計 5.74T 減去 V4-Flash 與 V3.2 推算。存取官網可取得最新一週數據。

廠商格局：Token 份額與美元收入的「雙重真相」

只看 Token 排行會低估 Anthropic 的變現能力；只看收入又會高估其流量主導權。OpenRouter 同時展示Token 份額與美元收入份額，揭示定價差異下的真實分層。

維度	Anthropic	DeepSeek 系	解讀
Token 份額	約 12%（一年前約 25%）	系列週量 5.74T，廠商 Token 第一	流量主導權向低價開源線轉移
美元收入份額	約 46%	單價極低，收入份額遠低於 Token 份額	企業仍為 Claude 付高價
代表單品	Claude Opus 4.6 月收入約 $2500 萬量級	V4-Flash 驅動 Agent 海量調用	Opus Token 量僅為 DeepSeek 零頭級對比
中國模型時間線	2025 年初佔比 <2% → 2026 年 2 月首超美國 → 2026 年 5 月約 45%+		開源 + 極低價重塑全球調用格局

OpenRouter 與 a16z 的《2025 AI 使用報告》還指出一個反直覺現象：模型 Benchmark 分數與其實際市場佔有率幾乎呈反比——開發者更關注推理成本、API 穩定性與 Agent 適配，而非榜單上的極限分數。這與程式設計任務佔比過半、Flash 系模型霸榜的現象相互印證。

六步落地：用週榜數據重寫你的模型路由策略

把排行榜從「新聞」變成「維運規範」，建議按週執行以下步驟，並與 OpenRouter 趨勢選型指南、OpenClaw 多模型路由銜接。

01
固定每週一開啟 openrouter.ai/rankings：記錄全球週總量、中美佔比與 Top 10 變動，建立內部週報（可複製上表四行指標）。
02
對照自家帳單拆 Token vs 美元：若 Token 大頭在 Flash 系而收入大頭在 Claude，說明路由已分層——明確寫入閘道規則，避免誤用 Opus 做批量補全。
03
按場景映射三類分層：Agent/批處理 → DeepSeek-V4-Flash；企業複雜推理 → Claude Opus/Sonnet；多模態 → Gemini Flash。
04
追蹤新進前十模型：Hy3 Preview、Owl Alpha 等異動往往是下一爆款訊號；非敏感原型可先用免費層驗證工具鏈。
05
用程式設計佔比>50% 校準評測：選型會議少談 MMLU，多談 SWE-bench、Terminal-Bench 與真實失敗率。
06
評估混合算力：當月 API 超過高配 Mac 租金時，將長會話 CLI Agent、Ollama prefill 遷到 SSH 獨佔節點，OpenRouter 只承擔彈性峰值。規格見租賃價格說明。

純筆電合蓋睡眠或廉價 Linux VPS，難以承接 12 小時以上的 Agent 迴圈，也無法執行 xcodebuild、notarytool 等 macOS 工具鏈。筆電休眠會中斷 SSH 長會話，VPS 則缺乏 Metal 加速與可預期頻寬，對 iOS CI/CD 與 Agent 自動化都是隱性成本。

對需要穩定 SSH 長會話、Keychain 隔離與可預期頻寬的 iOS CI/CD 與 AI Agent 自動化團隊而言，在閘道裡寫清 OpenRouter 路由、把重負載放在可獨佔的雲端 Mac 上，通常比把所有 Token 都押在公有 API 上更可控。NodeMini Mac Mini 雲端租賃可作為 Agent 執行層：更換 API Key 或模型端點時，SSH 節點與 CI 標籤可保持不變。接入流程見幫助中心，算力即時開通見租賃價格說明。

FAQ

常見問題

Benchmark 適合比較單項能力上限；OpenRouter 按7 天滾動 Token 吞吐量排序，反映真實付費與免費調用。對預算預測、市場佔有率與 Agent 批處理選型，帳單數據通常更誠實。二者應分工使用，而非互相替代。

Claude 定價顯著高於 DeepSeek 等開源線：企業級複雜推理用戶願付溢價，但海量 Agent 與程式設計任務流向低價模型，形成「高價值·低流量」與「極低價·高流量」並存。選型時應同時看 Token 份額與美元收入份額。

OpenRouter 負責多模型彈性路由與週榜追蹤；敏感儲存庫 prefill、長會話 CLI Agent 可放在 SSH 可達的獨佔雲端 Mac 上，參考 SSH 會話隔離與租賃價格說明。閉源旗艦仍走 API，本地節點降低對外部帳單的依賴。

OpenRouter 最新模型週調用量排行 帳單數據不會說謊，誰才是真正的王者？

為什麼「帳單上的 Token」比 Benchmark 更誠實

28.9 萬億週調用量：全球與中國模型的數量級躍遷

2026 年 5 月第三週模型週調用量 Top 10

市場分層：三類模型的「帳單角色」

廠商格局：Token 份額與美元收入的「雙重真相」

六步落地：用週榜數據重寫你的模型路由策略

常見問題

OpenRouter 最新模型週調用量排行
帳單數據不會說謊，誰才是真正的王者？