若你仍在用 MMLU、HumanEval 榜单押注「最强模型」,却忽略每月四位数的 API 发票——OpenRouter 按7 天滚动 Token 吞吐量更新的周排行榜会给出更残酷的答案:统计周期 2026 年 5 月 18 日–24 日,全球周调用量已达 28.9 万亿 Token,中国模型连续四周超越美国。DeepSeek V4-Flash 以 3.43T 周量夺冠,而 Anthropic 呈现典型的「Token 份额下滑、美元收入仍高」溢价悖论。本文面向做多模型路由的开发者与技术负责人,拆解数据来源、Top 10 周榜、厂商双重真相、Benchmark 反比现象,并给出六步按账单选型的落地清单。
OpenRouter 是全球最大的中立 AI 模型 API 聚合平台之一:接入 300+ 模型、覆盖 60+ 供应商,超 800 万 用户,平台每月处理约 100 万亿 Token 流量。其排行榜按近期周 Token 总量(输入 + 输出)排序——花出去的钱与跑出去的流量不会为发布会润色。相对实验室固定评测集,真实调用量更能反映 Agent 工作流、批处理编程与多轮工具链里的「用脚投票」。
Benchmark 测的是上限,账单测的是习惯:MMLU 涨 0.3 分未必改变你下月发票;但 DeepSeek Flash 单价若仅为 Opus 的约 1/50,Agent 循环会立刻改路由。
免费路由扭曲「付费意愿」:Owl Alpha 等 $0 模型在周榜冲高,说明开发者把「能跑通」放在「最强」之前——选型若忽略免费层,会高估闭源旗舰份额。
编程已成最大单一用途:OpenRouter 与 a16z 联合报告(基于约 100 万亿 Token 匿名元数据)显示,编程任务占比从 2025 年初约 11% 升至超 50%——榜单前列多为编码与 Agent 友好型模型。
稳定性与延迟比极限推理重要:生产 Agent 更在意 API 响应速度与工具调用成功率,而非单次奥数题满分。
周度口径捕捉「爆款」:按 7 天滚动统计,Hy3 Preview 限免结束后仍 +16% 周环比,比月度平均更能发现新进黑马。
投资者与媒体已转向 Token 指标:OpenRouter 估值约 26× PS,排行榜从技术指标升级为商业晴雨表——忽视它等于忽视市场真金白银的流向。
「不是谁最聪明,而是谁最被调用——Token 调用量是 AI 真实落地与市场认可度的体温计。」
下表汇总 OpenRouter 公开数据,统计周期为 2026 年 5 月 18 日–24 日(7 天滚动 Token 吞吐量,与官网 openrouter.ai/rankings 口径一致)。一年前平台周处理量约 2.4 万亿,如今 28.9 万亿,约 12 倍 增长——AI 应用已进入规模化爆发阶段。
| 指标 | 数据 | 环比变化 | 解读 |
|---|---|---|---|
| 全球周调用量 | 28.9 万亿 Token | +7.4%(连续五周上涨) | 总量扩张仍快于单模型份额洗牌 |
| 中国模型周调用量 | 9.223 万亿 Token | +19.89% | 增速显著高于全球均值 |
| 美国模型周调用量 | 4.93 万亿 Token | +16.27% | 绝对量增长但份额被挤压 |
| 中美格局 | 中国连续四周第一 | 中国占比约 45%+ | 2025 年初中国模型流量占比尚不足 2% |
可引用硬核数据:① 全球周量 28.9T,环比 +7.4%,为连续第五周上涨。② 中国模型周量 9.223T,环比 +19.89%。③ 美国模型周量 4.93T,环比 +16.27%。④ 平台月 Token 规模约 100T 量级(OpenRouter 公开口径)。撰写时请以官网实时榜单为准更新末位名次。
统计说明:周榜为 7 天滚动窗口,非自然周日历;模型维度与厂商市场份额可在同一页面切换。美元收入份额与 Token 份额分列展示,下文第五节专门解读二者背离。
当周前十以周 Token 量排序。DeepSeek 三款模型同时进入前列,系列合计约 5.74T Token(环比 +25.9%),连续两周位居厂商 Token 量第一。Kimi K2.6 前一周曾列第六,当周跌出前十,说明周榜对「爆款」轮动极为敏感。
| 排名 | 模型 | 厂商 | 周 Token 量 | 环比 | 特点 |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Flash | DeepSeek(中国) | 3.43T | +66% | Agent 工作流首选,极低价格 |
| 2 | 腾讯 Hy3 Preview | Tencent(中国) | 3.07T | +16% | 限免结束后仍高增长 |
| 3 | Claude Sonnet 4.6 | Anthropic(美国) | 1.35T | — | 百万上下文,企业编程主力 |
| 4 | DeepSeek-V3.2 | DeepSeek(中国) | 1.31T | — | 低价长尾,角色扮演活跃 |
| 5 | Owl Alpha(匿名) | OpenRouter | 1.15T | +29% | 免费 Agent 特化,百万上下文 |
| 6 | Gemini 3 Flash Preview | Google(美国) | 1.06T | — | 多模态,学术/医疗场景 |
| 7 | DeepSeek-V4-Pro | DeepSeek(中国) | 1.00T | — | 矩阵旗舰(系列合计 5.74T) |
| 8 | MiniMax M2.7 | MiniMax(中国) | 806B | — | 长上下文性价比之选 |
| 9 | Grok 4.1 Fast | xAI(美国) | 721B | — | 2M 上下文,法律场景强势 |
| 10 | Step 3.5 Flash | StepFun(中国) | 673B | — | 快速低价,批处理场景 |
[高价值·低流量] Anthropic Claude Opus → 企业复杂推理,付费能力强 [性价比·中流量] Google Gemini Flash → 多模态、学术与搜索生态 [极低价·高流量] DeepSeek / MiniMax / StepFun → Agent、编程、批处理
数据交叉验证:第 1–2、5 项周量可参考《每日经济新闻》2026-05-25 报道;第 3–4、6、8–10 项与 OpenRouter 公开榜单及同期行业解读交叉核对。V4-Pro 周量可按系列合计 5.74T 减去 V4-Flash 与 V3.2 推算。访问官网可获取最新一周数据。
只看 Token 排行会低估 Anthropic 的变现能力;只看收入又会高估其流量主导权。OpenRouter 同时展示Token 份额与美元收入份额,揭示定价差异下的真实分层。
| 维度 | Anthropic | DeepSeek 系 | 解读 |
|---|---|---|---|
| Token 份额 | 约 12%(一年前约 25%) | 系列周量 5.74T,厂商 Token 第一 | 流量主导权向低价开源线转移 |
| 美元收入份额 | 约 46% | 单价极低,收入份额远低于 Token 份额 | 企业仍为 Claude 付高价 |
| 代表单品 | Claude Opus 4.6 月收入约 $2500 万量级 | V4-Flash 驱动 Agent 海量调用 | Opus Token 量仅为 DeepSeek 零头级对比 |
| 中国模型时间线 | 2025 年初占比 <2% → 2026 年 2 月首超美国 → 2026 年 5 月约 45%+ | 开源 + 极低价重塑全球调用格局 | |
OpenRouter 与 a16z 的《2025 AI 使用报告》还指出一个反常识现象:模型 Benchmark 分数与其实际市场份额几乎呈反比——开发者更关注推理成本、API 稳定性与 Agent 适配,而非榜单上的极限分数。这与编程任务占比过半、Flash 系模型霸榜的现象相互印证。
把排行榜从「新闻」变成「运维规范」,建议按周执行以下步骤,并与 OpenRouter 趋势选型指南、OpenClaw 多模型路由 衔接。
固定每周一打开 openrouter.ai/rankings:记录全球周总量、中美占比与 Top 10 变动,建立内部周报(可复制上表四行指标)。
对照自家账单拆 Token vs 美元:若 Token 大头在 Flash 系而收入大头在 Claude,说明路由已分层——显式写入网关规则,避免误用 Opus 做批量补全。
按场景映射三类分层:Agent/批处理 → DeepSeek-V4-Flash;企业复杂推理 → Claude Opus/Sonnet;多模态 → Gemini Flash。
跟踪新进前十模型:Hy3 Preview、Owl Alpha 等异动往往是下一爆款信号;非敏感原型可先用免费层验证工具链。
用编程占比>50% 校准评测:选型会议少谈 MMLU,多谈 SWE-bench、Terminal-Bench 与真实失败率。
评估混合算力:当月 API 超过高配 Mac 租金时,将长会话 CLI Agent、Ollama prefill 迁到 SSH 独占节点,OpenRouter 只承担弹性峰值。规格见 租赁价格说明。
纯笔电合盖睡眠或廉价 Linux VPS,难以承接 12 小时以上的 Agent 循环,也无法运行 xcodebuild、notarytool 等 macOS 工具链。把「看周榜」与「固定执行环境」绑在一起,比每周追逐单一「最强模型」更可持续。
对需要稳定 SSH 长会话、Keychain 隔离与可预期带宽的 iOS CI/CD 与 AI Agent 自动化团队而言,在网关里写清 OpenRouter 路由、把重负载放在可独占的云端 Mac 上,通常比把所有 Token 都押在公有 API 上更可控。NodeMini Mac Mini 云端租赁可作为 Agent 执行层:更换 API Key 或模型端点时,SSH 节点与 CI 标签可保持不变。接入流程见 帮助中心,算力即时开通见 算力订购。
Benchmark 适合比较单项能力上限;OpenRouter 按7 天滚动 Token 吞吐量排序,反映真实付费与免费调用。对预算预测、市场占有率与 Agent 批处理选型,账单数据通常更诚实。二者应分工使用,而非互相替代。
Claude 定价显著高于 DeepSeek 等开源线:企业级复杂推理用户愿付溢价,但海量 Agent 与编程任务流向低价模型,形成「高价值·低流量」与「极低价·高流量」并存。选型时应同时看 Token 份额与美元收入份额。