若你仍用 2025 年的「美国闭源 = 默认首选」框架做模型选型,OpenRouter 2026 年 6 月真实流量会彻底刷新认知:中国模型整体份额已突破 61%,美国三大实验室合计从一年前约 70% 跌至 30%;与此同时 Claude Opus 4.8 仍在质量指数夺冠,Claude Fable 5 因出口管制于 6 月中旬全球下架。本文面向做多模型路由的开发者与技术负责人,拆解公司/模型双榜、用量≠质量、场景速查表、Q3 发布窗口、五大宏观趋势,并给出六步可切换模型架构的落地清单。
6 月 AI 圈密集事件——Fable 5 下架、OpenAI 与 Anthropic 双双传出 IPO、中国模型在 OpenRouter 份额破 60%——说明市场已从「追最强 Benchmark」转向「按账单与场景路由」。若仍忽视以下痛点,下半年选型决策会持续滞后于真实流量。
把 MMLU 当生产指标:Benchmark 测上限,OpenRouter 周榜测习惯。DeepSeek V4 Flash 日量 619B 而 Opus 4.8 约 200B,说明大量工作负载已用脚投票选低价。
忽视全球开发者而非「国产情怀」:OpenRouter 用户遍布美国、欧洲、印度;他们选中国模型是因为便宜、够快、够用,不是地域偏好。
混淆 Token 份额与质量天花板:用量冠军(Flash 系)与质量冠军(Opus 4.8)是两条平行赛道,硬绑单一供应商会在 Agent 批处理里烧穿预算。
忽略出口管制与模型下架风险:Fable 5 曾拿下 100/100 质量评级,6 月中旬因政府出口管制全球下线——「最强」不等于「可持续可用」。
企业合规与个人用量脱节:中国模型在个人开发者侧继续攀升,但 Fortune 500 采购受数据安全与美国国会监管约束,合规将成为份额上限。
单模型硬编码的技术债:Q3 将在 90 天内密集发布 GPT-6、Opus 5、Gemini 4、DeepSeek V5——今天的第一名,三个月后可能就不是了。
「这不是质量的故事,这是经济学的故事——除非你把最难的 5% 任务单独路由出去。」
OpenRouter 聚合全球数百万开发者真实调用量,不靠厂商自吹,只看代码投票。下表统计周期为 2026 年 6 月(公司维度为周 Token 量,模型维度为日均 Token 量)。
| 排名 | 公司 | 来源地 | 周 Token 量 | 市占率 |
|---|---|---|---|---|
| 1 | DeepSeek | 中国 | 5.13T | 17.6% |
| 2 | Anthropic | 美国 | 4.34T | 14.8% |
| 3 | 美国 | 3.66T | 12.5% | |
| 4 | OpenAI | 美国 | 2.46T | 8.4% |
| 5 | 小米 (Xiaomi) | 中国 | 2.42T | 8.3% |
| 6 | MiniMax | 中国 | 2.37T | 8.1% |
| 7 | 腾讯 (Tencent) | 中国 | 2.36T | 8.1% |
| 8 | 阿里 Qwen | 中国 | 1.26T | 4.3% |
中国模型合计占比约 46%(仅统计前十内已标注来源的中国厂商);整体中国模型 Token 份额已突破 61%。DeepSeek 以 17.6% 蝉联厂商 Token 第一,小米、MiniMax、腾讯三家各约 8% 量级,说明中国厂商已从「单一爆款」走向矩阵式占领日常流量。
| 排名 | 模型 | 厂商 | 日均 Token | 解读 |
|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | DeepSeek | 619B | Agent 与批处理性价比之王 |
| 2 | Hy3 Preview | 腾讯 | 451B | 限免结束后仍维持高位 |
| 3 | MiniMax M3 | MiniMax | 447B | $0.60/M 开放权重驱动 |
| 4 | MiMo-V2.5 | 小米 | 327B | 日常编程辅助流量入口 |
| 5 | DeepSeek V4 Pro | DeepSeek | 300B | 系列旗舰补位复杂任务 |
| 6 | Claude Opus 4.7 | Anthropic | 263B | 上一代旗舰仍有存量 |
| 7 | Claude Opus 4.8 | Anthropic | ~200B | 质量第一、流量受定价压制 |
| 8 | Claude Sonnet 4.6 | Anthropic | 178B | 企业编程主力 |
| 9 | Gemini 3 Flash Preview | 156B | 多模态与搜索生态 | |
| 10 | Kimi K2.6 | Moonshot AI | ~150B | 1M 超长上下文 |
这个榜单的意义远不止「谁用的人多」——它反映的是全球开发者真正在生产环境中信任哪个模型。前十中 6 款来自中国厂商,美国闭源旗舰仍在榜,但日量已被 Flash 系大幅甩开。
可引用硬核数据:① DeepSeek 周量 5.13T,市占 17.6%。② V4 Flash 日量 619B,为全平台单品第一。③ 中国前十厂商合计约 46%,整体份额破 61%。撰写时请以 openrouter.ai/rankings 实时榜单为准更新末位名次。
Bloomberg 引用 OpenRouter 与 Exponential View 数据的图表把这件事说得很清楚:2025 年 6 月,美国模型(Google + OpenAI + Anthropic 合计)占 OpenRouter 约 70% 的 Token 份额;到 2026 年 6 月,这个数字跌到了 30%。中间那 40 个百分点,几乎全被中国开放权重与极低价闭源线吃掉。
| 时间点 | 美国三大实验室合计 | 中国模型 | 变化 |
|---|---|---|---|
| 2025 年 6 月 | 约 70% | 份额极低(2025 年初中国模型流量占比尚不足 2%) | 美国主导 |
| 2026 年 6 月 | 约 30% | 整体突破 61%,前十厂商合计约 46% | 一年内逆转 40 个百分点 |
这不是中国开发者「支持国产」的结果。OpenRouter 用户主体是全球开发者,其中大量来自美国、欧洲、印度。他们选择 DeepSeek、小米、MiniMax,核心原因是这三点:便宜、够快、够用。
一位圣地亚哥开发者的原话:「用 Claude 写代码,每小时大概花 10 美元。用 DeepSeek,不到 50 美分。」
DeepSeek 2025 年 1 月的发布证明了一件事:在足够高效的架构下,顶尖模型不需要顶尖算力。小米、腾讯、MiniMax、Moonshot 迅速复制这一逻辑,把「基础定价」打到地板价——这是经济学的故事,不是单一国家叙事。
很多人把 OpenRouter 流量榜与 Artificial Analysis Intelligence Index 混为一谈。2026 年 6 月的数据说明:高 Token 量与顶尖 Benchmark 表现,衡量的已是两件完全不同的事。
根据 Artificial Analysis Intelligence Index(截至 2026 年 5 月底)与 SWE-bench Pro 数据:
| 模型 | 综合质量指数 | SWE-bench Pro / Verified | 备注 |
|---|---|---|---|
| Claude Opus 4.8 | 61.4(#1) | 69.2% | 长上下文与 Agent 任务碾压级 |
| GPT-5.5 | 59–60 | 63.1% | 生态与工具调用速度领先 |
| Gemini 3.1 Pro | 57 | — | 最难推理任务表现突出 |
| Qwen 3.7 Max | 57 | — | 中国闭源旗舰代表 |
| Claude Sonnet 4.6 | — | 80.8%(SWE-bench Verified) | 写作与指令遵循极强 |
一位工程师在实测 20 个任务后的结论:Claude Opus 4.8 赢了 16 个,GPT-5.5 赢了 5 个,Gemini 3.1 Pro 赢了 4 个。特别是长上下文任务,Opus 几乎是碾压级别。
另需特别说明 Claude Fable 5:它在所有榜单上拿下满分质量评级(100/100),但因政府出口管制于 2026 年 6 月中旬全球下架,目前状态未定。它的存在说明:美国顶尖模型在纯能力层面仍然领先——但「领先」与「可稳定调用」之间,已出现政策裂缝。
中国模型拿到这么高的用量份额,核心逻辑只有三条:
价格:MiniMax M3 API 定价仅 $0.60/M 输入 token,约为 Claude Opus 4.8($5.00/M)的 1/8。
够用:日常编程辅助、代码补全、翻译、摘要等任务,中国模型能达到顶级模型 80–90% 的效果。
开放权重:DeepSeek V4、MiniMax M3 等提供开放权重,企业可自部署,彻底消除数据隐私顾虑。
选型提示:闭源前沿模型处理最难的 5% 任务,中国开放权重模型处理剩余 95% 的日常量——这是 2026 年 6 月最理性的账单结构,而非非黑即白的「谁更强」。
当「最强模型」不再存在单一答案,按场景路由比押注品牌更重要。下表汇总 8 类典型工作负载的推荐模型与理由,可与 OpenRouter 周调用量排行 交叉验证流量趋势。
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 复杂代码 / Agent | Claude Opus 4.8 | 综合能力第一,长上下文无敌 |
| 日常编程辅助 | DeepSeek V4 Flash / MiMo-V2.5 | 性价比极高,速度快 |
| 超高性价比 API | MiniMax M3 | $0.60/M,开放权重,可自部署 |
| 长上下文处理 | Kimi K2.6(1M context) | 超长窗口,价格合理 |
| Google 生态整合 | Gemini 3.5 Flash | Google Workspace 原生支持 |
| 实时 Web 搜索 | Grok 4.3 | X/Twitter 实时内容获取 |
| 自建本地部署 | GLM 5.2 / Kimi K2.6 | 顶级开放权重模型 |
| 图像生成 | ChatGPT Images 2.0 | 文字渲染最强 |
理智策略是:按任务复杂度路由,按成本目标优化。复杂 Agent 走 Opus,批处理与补全走 Flash 系,可自托管场景优先开放权重——而非把所有 Token 都押在单一供应商上。
Q3 2026 很可能是 AI 史上模型发布最密集的季度。五大实验室将在同一个 90 天窗口内密集发布产品,届时不会再有单一的「最强模型」——每家都会在某些维度领先。
| 模型 | 厂商 | 预计时间 | 核心看点 |
|---|---|---|---|
| GPT-6 | OpenAI | 2026 年 8–9 月 | 更长上下文(传闻 1.5M token),更强 Agent 能力 |
| Claude Opus 5 | Anthropic | 2026 年 9 月前后 | 接棒 Opus 4.8,长程 Agent 任务全面升级 |
| Gemini 4 | 2026 年 Q3 | 多模态升级,视频理解、音频输入全面强化 | |
| DeepSeek V5 | DeepSeek | 2026 年 Q3 | 开放权重,预计参数量破 1T,对标闭源前沿 |
| GLM 5.2 | 智谱 Z.ai | 已发布 | 当前顶级开放权重之一,编程能力极强 |
| Grok 4.3+ | xAI | 2026 年 Q3 | 1M 上下文,增强实时 Web 检索 |
「谁最强」停止成为有用问题:五家前沿模型在 90 天内密集发布,排名将按工作负载分化。正确策略是构建模型无关的路由层,按复杂度、延迟与成本切换——硬编码单一供应商即技术债。
中国份额继续上升,但企业合规是天花板:个人开发者侧中国模型无停止迹象;企业采购受美国国会监管、数据驻留与供应链安全约束,Fortune 500 采购占比可能长期远低于 OpenRouter 整体流量。
Agent 才是真正的战场:2026 年被业界定义为「Agent 从实验转向生产」元年。Anthropic《2026 年 AI Agent 状态报告》显示,近 44% 的 Claude API 调用来自数学和计算机任务——谁的 Agent 更稳定,谁赢企业合同。
IPO 压力重塑定价:OpenAI 与 Anthropic 均于 2026 年 6 月传出 IPO 意向。上市后投资者将推动毛利,定价更透明,也可能加速与中国模型的价格战——变相验证「两档市场」结构。
本地模型将在消费级硬件突破 80% SWE-bench:预计 2027 年内,32GB 消费级 GPU 上运行的本地模型将突破 SWE-bench 80% 编程能力门槛——在本地跑「接近 Opus 级别」的编程助手将不再是幻想。
这个故事的本质,不是「中国模型赢了」,而是 AI 模型层的利润正在被快速压缩。DeepSeek 2025 年 1 月的出现证明:顶尖模型不需要顶尖算力。小米、腾讯、MiniMax、Moonshot 共同把基础定价打到地板价。美国厂商的应对也因此分化:OpenAI 押注生态(插件、企业集成、DALL-E、Codex Mobile);Anthropic 死守质量高地(Opus 的 Agent 能力确实鹤立鸡群);Google 押注速度和多模态(Gemini Flash 系列是目前性价比最高的闭源选项之一)。中间的「质量不差但价格贵」位置,正在快速消失。
对于普通开发者和技术决策者来说,现在最值钱的能力,不是「选对最强模型」,而是构建一个能随时切换模型的架构——今天的第一名,三个月后可能就不是了。
把 OpenRouter 周榜从「新闻」变成「运维规范」,建议按以下步骤执行,并与 OpenClaw 多模型路由 衔接。
固定每周一打开 openrouter.ai/rankings:记录公司周 Token、模型日 Token Top 10 与中美占比变动,建立内部周报。
按场景写入网关规则:复杂 Agent → Opus 4.8;日常补全 → V4 Flash / MiMo-V2.5;批处理 → MiniMax M3;多模态 → Gemini Flash。
拆分 Token 账单 vs 美元账单:若 Token 大头在 Flash 系而收入大头在 Claude,说明路由已分层——显式固化,避免误用 Opus 做循环补全。
为最难 5% 任务保留质量出口:长上下文、SWE-bench Pro 级任务单独路由 Opus 4.8,其余 95% 走中国开放权重线。
跟踪 Q3 发布窗口:GPT-6、Opus 5、DeepSeek V5 落地后 48 小时内跑同一套 20 任务回归集,更新路由表而非重写应用。
固定 Agent 执行层:当月 API 超过高配 Mac 租金时,将长会话 CLI Agent、Ollama prefill 迁到 SSH 独占节点,OpenRouter 只承担弹性峰值。规格见 租赁价格说明。
纯笔电合盖睡眠或廉价 Linux VPS,难以承接 12 小时以上的 Agent 循环,也无法运行 xcodebuild、notarytool 等 macOS 工具链。把「看周榜」与「固定执行环境」绑在一起,比每周追逐单一「最强模型」更可持续。
对需要稳定 SSH 长会话、Keychain 隔离与可预期带宽的 iOS CI/CD 与 AI Agent 自动化团队而言,在网关里写清 OpenRouter 多模型路由、把重负载放在可独占的云端 Mac 上,通常比把所有 Token 都押在公有 API 上更可控。NodeMini Mac Mini 云端租赁可作为 Agent 执行层:更换 API Key 或模型端点时,SSH 节点与 CI 标签可保持不变。接入流程见 帮助中心,算力即时开通见 算力订购。
按公司周 Token 量,DeepSeek、小米、MiniMax、腾讯、Qwen 等中国厂商在前十合计约 46%;整体中国模型 Token 份额已突破 61%。榜单反映全球开发者真实生产调用。月度成本对比可参考 租赁价格说明,将 Agent 执行层固定为可预期月费。
不是二选一,而是分层路由:V4 Flash 日量 619B、单价约为 Opus 的 1/8 量级,适合日常补全与 Agent 批处理;Opus 4.8 Intelligence Index 61.4 居综合第一,适合最难 5% 的长上下文与复杂推理。圣地亚哥开发者实测:Claude 写代码约 $10/小时,DeepSeek 不到 50 美分。
高置信度窗口包括:GPT-6(8–9 月)、Claude Opus 5(约 9 月)、Gemini 4、DeepSeek V5(开放权重约 1T 参数)、Grok 4.3+。已发布的 GLM 5.2 是当前顶级开放权重选项之一。建议提前构建可切换路由层,而非等待「唯一最强」出现。