若你仍在用 MMLU、HumanEval 榜單押注「最強模型」,卻忽略每月四位數的 API 帳單——OpenRouter 按7 天滾動 Token 吞吐量更新的週排行榜會給出更殘酷的答案:統計週期 2026 年 5 月 18 日–24 日,全球週調用量已達 28.9 萬億 Token,中國模型連續四週超越美國。DeepSeek V4-Flash 以 3.43T 週量奪冠,而 Anthropic 呈現典型的「Token 份額下滑、美元收入仍高」溢價悖論。本文面向做多模型路由的開發者與技術負責人,拆解數據來源、Top 10 週榜、廠商雙重真相、Benchmark 反比現象,並給出六步按帳單選型的落地清單。
OpenRouter 是全球最大的中立 AI 模型 API 聚合平台之一:接入 300+ 模型、覆蓋 60+ 供應商,超 800 萬 用戶,平台每月處理約 100 萬億 Token 流量。其排行榜按近期週 Token 總量(輸入 + 輸出)排序——花出去的錢與跑出去的流量不會為發表會潤色。相對實驗室固定評測集,真實調用量更能反映 Agent 工作流、批處理程式設計與多輪工具鏈裡的「用腳投票」。
Benchmark 測的是上限,帳單測的是習慣:MMLU 漲 0.3 分未必改變你下月發票;但 DeepSeek Flash 單價若僅為 Opus 的約 1/50,Agent 迴圈會立刻改路由。
免費路由扭曲「付費意願」:Owl Alpha 等 $0 模型在週榜衝高,說明開發者把「能跑通」放在「最強」之前——選型若忽略免費層,會高估閉源旗艦份額。
程式設計已成最大單一用途:OpenRouter 與 a16z 聯合報告(基於約 100 萬億 Token 匿名中繼資料)顯示,程式設計任務佔比從 2025 年初約 11% 升至超 50%——榜單前列多為編碼與 Agent 友善型模型。
穩定性與延遲比極限推理重要:生產環境 Agent 更在意 API 回應速度與工具調用成功率,而非單次奧數題滿分。
週度口徑捕捉「爆款」:按 7 天滾動統計,Hy3 Preview 限免結束後仍 +16% 週環比,比月度平均更能發現新進黑馬。
投資者與媒體已轉向 Token 指標:OpenRouter 估值約 26× PS,排行榜從技術指標升級為商業晴雨表——忽視它等於忽視市場真金白銀的流向。
「不是誰最聰明,而是誰最被調用——Token 調用量是 AI 真實落地與市場認可度的體溫計。」
下表彙總 OpenRouter 公開數據,統計週期為 2026 年 5 月 18 日–24 日(7 天滾動 Token 吞吐量,與官網 openrouter.ai/rankings 口徑一致)。一年前平台週處理量約 2.4 萬億,如今 28.9 萬億,約 12 倍 成長——AI 應用已進入規模化爆發階段。
| 指標 | 數據 | 環比變化 | 解讀 |
|---|---|---|---|
| 全球週調用量 | 28.9 萬億 Token | +7.4%(連續五週上漲) | 總量擴張仍快於單模型份額洗牌 |
| 中國模型週調用量 | 9.223 萬億 Token | +19.89% | 增速顯著高於全球均值 |
| 美國模型週調用量 | 4.93 萬億 Token | +16.27% | 絕對量成長但份額被擠壓 |
| 中美格局 | 中國連續四週第一 | 中國佔比約 45%+ | 2025 年初中國模型流量佔比尚不足 2% |
可引用硬核數據:① 全球週量 28.9T,環比 +7.4%,為連續第五週上漲。② 中國模型週量 9.223T,環比 +19.89%。③ 美國模型週量 4.93T,環比 +16.27%。④ 平台月 Token 規模約 100T 量級(OpenRouter 公開口徑)。撰寫時請以官網即時榜單為準更新末位名次。
統計說明:週榜為 7 天滾動視窗,非自然週日曆;模型維度與廠商市場佔有率可在同一頁面切換。美元收入份額與 Token 份額分列展示,下文第五節專門解讀二者背離。
當週前十以週 Token 量排序。DeepSeek 三款模型同時進入前列,系列合計約 5.74T Token(環比 +25.9%),連續兩週位居廠商 Token 量第一。Kimi K2.6 前一週曾列第六,當週跌出前十,說明週榜對「爆款」輪動極為敏感。
| 排名 | 模型 | 廠商 | 週 Token 量 | 環比 | 特點 |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek(中國) | 3.43T | +66% | Agent 工作流首選,極低價格 |
| 2 | 騰訊 Hy3 Preview | Tencent(中國) | 3.07T | +16% | 限免結束後仍高成長 |
| 3 | Claude Sonnet 4.6 | Anthropic(美國) | 1.35T | — | 百萬上下文,企業程式設計主力 |
| 4 | DeepSeek-V3.2 | DeepSeek(中國) | 1.31T | — | 低價長尾,角色扮演活躍 |
| 5 | Owl Alpha(匿名) | OpenRouter | 1.15T | +29% | 免費 Agent 特化,百萬上下文 |
| 6 | Gemini 3 Flash Preview | Google(美國) | 1.06T | — | 多模態,學術/醫療場景 |
| 7 | DeepSeek-V4-Pro | DeepSeek(中國) | 1.00T | — | 矩陣旗艦(系列合計 5.74T) |
| 8 | MiniMax M2.7 | MiniMax(中國) | 806B | — | 長上下文性價比之選 |
| 9 | Grok 4.1 Fast | xAI(美國) | 721B | — | 2M 上下文,法律場景強勢 |
| 10 | Step 3.5 Flash | StepFun(中國) | 673B | — | 快速低價,批處理場景 |
[高價值·低流量] Anthropic Claude Opus → 企業複雜推理,付費能力強 [性價比·中流量] Google Gemini Flash → 多模態、學術與搜尋生態 [極低價·高流量] DeepSeek / MiniMax / StepFun → Agent、程式設計、批處理
數據交叉驗證:第 1–2、5 項週量可參考《每日經濟新聞》2026-05-25 報導;第 3–4、6、8–10 項與 OpenRouter 公開榜單及同期產業解讀交叉核對。V4-Pro 週量可按系列合計 5.74T 減去 V4-Flash 與 V3.2 推算。存取官網可取得最新一週數據。
只看 Token 排行會低估 Anthropic 的變現能力;只看收入又會高估其流量主導權。OpenRouter 同時展示Token 份額與美元收入份額,揭示定價差異下的真實分層。
| 維度 | Anthropic | DeepSeek 系 | 解讀 |
|---|---|---|---|
| Token 份額 | 約 12%(一年前約 25%) | 系列週量 5.74T,廠商 Token 第一 | 流量主導權向低價開源線轉移 |
| 美元收入份額 | 約 46% | 單價極低,收入份額遠低於 Token 份額 | 企業仍為 Claude 付高價 |
| 代表單品 | Claude Opus 4.6 月收入約 $2500 萬量級 | V4-Flash 驅動 Agent 海量調用 | Opus Token 量僅為 DeepSeek 零頭級對比 |
| 中國模型時間線 | 2025 年初佔比 <2% → 2026 年 2 月首超美國 → 2026 年 5 月約 45%+ | 開源 + 極低價重塑全球調用格局 | |
OpenRouter 與 a16z 的《2025 AI 使用報告》還指出一個反直覺現象:模型 Benchmark 分數與其實際市場佔有率幾乎呈反比——開發者更關注推理成本、API 穩定性與 Agent 適配,而非榜單上的極限分數。這與程式設計任務佔比過半、Flash 系模型霸榜的現象相互印證。
把排行榜從「新聞」變成「維運規範」,建議按週執行以下步驟,並與 OpenRouter 趨勢選型指南、OpenClaw 多模型路由 銜接。
固定每週一開啟 openrouter.ai/rankings:記錄全球週總量、中美佔比與 Top 10 變動,建立內部週報(可複製上表四行指標)。
對照自家帳單拆 Token vs 美元:若 Token 大頭在 Flash 系而收入大頭在 Claude,說明路由已分層——明確寫入閘道規則,避免誤用 Opus 做批量補全。
按場景映射三類分層:Agent/批處理 → DeepSeek-V4-Flash;企業複雜推理 → Claude Opus/Sonnet;多模態 → Gemini Flash。
追蹤新進前十模型:Hy3 Preview、Owl Alpha 等異動往往是下一爆款訊號;非敏感原型可先用免費層驗證工具鏈。
用程式設計佔比>50% 校準評測:選型會議少談 MMLU,多談 SWE-bench、Terminal-Bench 與真實失敗率。
評估混合算力:當月 API 超過高配 Mac 租金時,將長會話 CLI Agent、Ollama prefill 遷到 SSH 獨佔節點,OpenRouter 只承擔彈性峰值。規格見 租賃價格說明。
純筆電合蓋睡眠或廉價 Linux VPS,難以承接 12 小時以上的 Agent 迴圈,也無法執行 xcodebuild、notarytool 等 macOS 工具鏈。筆電休眠會中斷 SSH 長會話,VPS 則缺乏 Metal 加速與可預期頻寬,對 iOS CI/CD 與 Agent 自動化都是隱性成本。
對需要穩定 SSH 長會話、Keychain 隔離與可預期頻寬的 iOS CI/CD 與 AI Agent 自動化團隊而言,在閘道裡寫清 OpenRouter 路由、把重負載放在可獨佔的雲端 Mac 上,通常比把所有 Token 都押在公有 API 上更可控。NodeMini Mac Mini 雲端租賃可作為 Agent 執行層:更換 API Key 或模型端點時,SSH 節點與 CI 標籤可保持不變。接入流程見 幫助中心,算力即時開通見 租賃價格說明。
Benchmark 適合比較單項能力上限;OpenRouter 按7 天滾動 Token 吞吐量排序,反映真實付費與免費調用。對預算預測、市場佔有率與 Agent 批處理選型,帳單數據通常更誠實。二者應分工使用,而非互相替代。
Claude 定價顯著高於 DeepSeek 等開源線:企業級複雜推理用戶願付溢價,但海量 Agent 與程式設計任務流向低價模型,形成「高價值·低流量」與「極低價·高流量」並存。選型時應同時看 Token 份額與美元收入份額。