Jalapeño 什么时候部署？

首批商用部署计划于 2026 年底开始，从微软 Azure 数据中心起步。2027 年大规模量产，部署规模预计超过 1.3 吉瓦。

OpenAI × 博通发布首款自研 AI 芯片 Jalapeño：推理成本直降 50%

OpenAI 为什么要造自己的芯片？推理账单与六大痛点

2026 年 6 月 24 日，OpenAI 与博通（Broadcom）联合发布名为 Jalapeño 的首款定制 AI 推理芯片。在此之前，理解 OpenAI 为何必须走这条路，是读懂这场发布的关键。

OpenAI 是全球最大的 GPU 消耗方之一。每当用户向 ChatGPT 提问，背后服务器群组需要持续消耗大量算力完成推理（Inference）——即模型根据输入生成回答的过程。随着 GPT-4、GPT-5 系列能力升级，推理成本已成为 OpenAI 盈利路径上最重的一块石头。过去几乎完全依赖英伟达 H100、H200、Blackwell 系列——它们是通用加速器，在高度同质化的 LLM 推理场景里存在大量算力浪费。英伟达 GPU 是瑞士军刀，Jalapeño 是专业手术刀。

01
推理成本吞噬利润：ChatGPT 日活数亿级，每次 API 调用都在烧 GPU 推理算力——推理已是 OpenAI 运营支出最大单项。
02
通用 GPU 架构错配：GPU 为游戏、训练、仿真等广泛场景设计，LLM 推理的内存带宽瓶颈无法被通用架构最优化解。
03
竞争对手早已入局：Google TPU、Amazon Trainium/Inferentia、Microsoft Maia 100、Meta MTIA 均已量产——OpenAI 是大厂中最晚入局者。
04
单一供应商风险：完全依赖英伟达意味着采购价格、供货周期、涨价约束均无谈判筹码。
05
全栈效率竞争：OpenAI 官方表述：「不仅在开发前沿模型，更在设计其下方的基础设施——芯片架构、内核、内存系统、网络、调度与部署。」
06
开发者侧间接承压：数据中心推理成本若降 50%，API 定价可能下行；但本地跑 Agent 长会话的硬件瓶颈（内存、swap）不会因新闻消失——执行层仍需独立规划。

「Nobody wants to be beholden to Nvidia.」—— Quilter Cheviot 全球科技研究主管 Ben Barringer

Jalapeño 是什么？ASIC 架构与大厂自研芯片对比

ASIC（Application-Specific Integrated Circuit，专用集成电路）意味着这块芯片只做一件事——LLM 推理。不玩游戏、不跑训练、不做通用计算。高度专一带来在其专攻领域的极高效率。

OpenAI 硬件负责人 Richard Ho 表示：「Jalapeño 从零开始，专为 LLM 推理设计，融入了我们对前沿模型在内核执行、内存移动、网络通信和服务模式方面的深刻洞察。早期测试证明，它能在接近硬件理论极限的状态下高效运行我们最重要的工作负载。」

公司	自研芯片	用途
Google	TPU (Tensor Processing Unit)	训练 + 推理
Amazon	Trainium（训练）/ Inferentia（推理）	训练 + 推理
Microsoft	Maia 100	推理
Meta	MTIA	推理
OpenAI	Jalapeño（2026）	推理

核心架构亮点

从零设计（Blank-slate Design）：以现代 LLM 推理为出发点重新设计，每一个设计决策围绕 Transformer 运算模式，而非在通用 GPU 上打补丁。
最小化数据搬运（Minimize Data Movement）：LLM 推理瓶颈往往在内存带宽——数据在内存与计算单元间反复搬运消耗大量能量。Jalapeño 专门减少无效搬运。
计算 / 内存 / 网络均衡设计：针对 LLM 实际负载特征做专项平衡，使利用率更接近理论峰值。
博通 Tomahawk 网络互联：大规模集群部署时具备强大节点间通信能力，多卡协同推理超大模型至关重要。
Celestica 板卡 / 机架集成：电子制造服务商负责芯片集成进服务器主板、机架系统，提供规模化量产能力。

制造工艺与实验室运行模型

制造商：台积电（TSMC），工艺节点：3nm（与苹果 M4、英伟达 Blackwell 同代）。工程样品已在 OpenAI 实验室以目标频率和功耗运行 ML 工作负载，包括 GPT-5.3-Codex-Spark——面向编程场景的旗舰推理模型之一。

性能与成本：50% 推理节省与关键官方数据

warning

注意：以下数据来自博通 CEO 陈福阳及 OpenAI 官方声明，均为早期测试结果，完整技术报告将于数月后发布。需以「官方自测数字」看待，独立第三方验证尚未完成。

指标	Jalapeño（早期测试）	对比基准
推理成本节省	约 50%	相比当前主流 AI GPU
每瓦性能	显著优于当前最先进水平	OpenAI 官方声明
性能绝对值	与英伟达 Blackwell、谷歌 TPU 相当	博通 CEO 陈福阳（路透社）
热耗散表现	优于预期	OpenAI 内部测试

博通 CEO 陈福阳（Hock Tan） 在 Bloomberg 采访中表示：「到目前为止，Jalapeño 相比典型 AI GPU 展现出约 50% 的成本节省。」OpenAI 总裁 Greg Brockman 补充：「Jalapeño 从初始设计到流片只用了 9 个月，部分设计和优化过程还使用了 OpenAI 自己的 AI 模型。」

「50%」数字目前仍是 Broadcom 方面的早期实验室数据，正式量产后的实际效果需等待：① OpenAI 发布完整技术报告；② 微软等合作伙伴完成数据中心实际部署；③ 第三方独立基准测试。即便最终只有一半的效果，在 OpenAI 的推理规模下也意义非凡。

9 个月史上最快 ASIC 开发周期

Jalapeño 从初始设计到制造流片（Tape-out）仅用了 9 个月，OpenAI 和博通声称这是高性能先进半导体领域有史以来最快的 ASIC 开发周期。加速因素：① 软硬件深度协同——模型团队与芯片团队避免「硬件工程师猜测软件需求」的返工；② AI 辅助芯片设计——OpenAI 自己的 AI 模型加速部分决策（VentureBeat 援引知情人士称使用了前代 OpenAI 模型）；③ 博通成熟 IP 库缩短从逻辑设计到物理实现的周期。

产业链伙伴、部署路线图与竞争格局全景

角色	公司	负责内容
芯片架构设计	OpenAI	LLM 推理优化方向、全栈架构设计
芯片实现 & 网络	博通（Broadcom）	硅片实现、Tomahawk 网络芯片、量产支持
晶圆代工	台积电（TSMC）	3nm 工艺制造
系统集成	Celestica	主板、机架、服务器系统集成、量产
首批部署客户	微软 Azure	数据中心部署（年底开始）

部署计划与商业路线图

近期（2026 年底）：工程样品已在实验室测试；年底前正式部署至微软及其他数据中心合作伙伴；优先服务 OpenAI 内部推理（ChatGPT、Codex、API）。
中期（2027 年）：大规模量产；博通 CEO 预测部署规模将超过此前预测的 1.3 吉瓦（GW）；可能向外部 AI 公司开放（官方描述该芯片「为全行业当前和未来 LLM 而建」）。
长期（至 2029 年）：OpenAI 目标用自研芯片支撑 10 吉瓦（10 GW） 算力（约 10 座核电站发电量级别）；多代芯片路线图已规划，下一代预计 2028 年推出，此后每年迭代；未来可能扩展至训练芯片（目前仅覆盖推理）。

Jalapeño 能「替代」英伟达吗？

短期内：不能。原因：① 只做推理，不做训练——训练前沿大模型仍高度依赖英伟达 GPU；2026 年 2 月英伟达以 300 亿美元直接投资 OpenAI，双方战略绑定极深；② CUDA 软件生态——十余年构建的数百万开发者生态是最难跨越的护城河；③ ASIC 灵活性局限——若 LLM 架构发生根本性改变，专用芯片适配成本很高。

战略意义是「分散供应，谈判筹码」：哪怕 Jalapeño 只承担 20%–30% 推理负载，也意味着真实节约大量成本、获得与英伟达谈判采购价格的底气、不再受单一供应商约束。这与谷歌、亚马逊、微软策略一致：不是「抛弃英伟达」，而是「不再完全依赖英伟达」。

英伟达应对：Vera Rubin 平台、CUDA 生态护城河、与 OpenAI 300 亿美元投资绑定——双方既是竞争者又是深度利益共同体。博通则成为「AI 定制芯片界的代工皇」——同时为 Google（TPU v5/v6）、Meta（MTIA）和 OpenAI（Jalapeño）设计定制 ASIC；2026 年前 5 个月博通股价年涨幅约 18%，自 2022 年底以来累计涨幅接近 7 倍。

关键人物

姓名	职位	角色
Greg Brockman	OpenAI 联合创始人 & 总裁	公开宣布发布，定性为「全栈基础设施战略」
Richard Ho	OpenAI 硬件项目负责人	技术架构领导者
Hock Tan（陈福阳）	博通 CEO	公开声称性能媲美 Blackwell、成本节省 50%
Sam Altman	OpenAI CEO	整体战略推动者（曾公开表示希望 OpenAI 掌控算力命脉）

时间线梳理

timeline

2025 年 10 月  →  OpenAI 与博通正式宣布合作开发定制芯片
2026 年 2 月   →  英伟达向 OpenAI 直接投资 300 亿美元（含 Vera Rubin 算力协议）
2026 年 6 月 24 日 →  Jalapeño 芯片公开发布，工程样品在实验室运行
2026 年底     →  首批商用部署（微软 Azure 及其他合作伙伴数据中心）
2027 年       →  大规模量产，部署规模超 1.3 GW
2028 年（预计）→  第二代芯片发布
2029 年（目标）→  自研芯片支撑 10 GW 算力规模

行业影响、开发者六步行动清单与可引用技术数据

对 AI 行业的三大深远影响

推理经济学重塑商业模式：若 50% 成本节省在生产环境验证，ChatGPT API 调用成本可能进一步下降，OpenAI 盈利路径更清晰，「AI 价格战」底线进一步拉低。
「全栈 AI 公司」成为新标准：竞争维度从「谁的模型更好」演变为「谁的全栈效率更高」——芯片、内核、内存、网络、调度、部署全链路优化。
半导体格局加速分化：赢家包括博通（定制 ASIC）、台积电（3nm 代工）、SK 海力士 / 三星（HBM 内存）；承压方包括英伟达（推理份额可能被蚕食）、AMD（推理 ASIC 浪潮中存在感弱）。

开发者六步行动清单

01
区分训练与推理算力：Jalapeño 仅覆盖推理——训练仍依赖英伟达；不要把「自研芯片」误读为 CUDA 生态即将消失。
02
审慎看待 50% 数字：等待 OpenAI 技术报告、微软 Azure 实际部署数据与第三方 MLPerf 类基准，再调整 API 成本预算模型。
03
跟踪 API 定价曲线：推理成本下降可能传导至 ChatGPT / Codex 定价——结合6 月 AI 降价指南做模型路由与 Batch API 优化。
04
关注博通供应链：博通同时为 Google、Meta、OpenAI 设计 ASIC——其 Tomahawk 网络与 HBM 供应动态影响整个 hyperscaler 推理集群。
05
本地执行层独立规划：数据中心推理降本不解决本地 16GB 笔电跑 Cursor + Claude Code 长会话的 swap 问题——CLI Agent 仍需稳定硬件节点。
06
把重负载前置到云端 Mac：iOS CI/CD、notarytool、Keychain 隔离等 macOS 专属工具链无法受益于 Jalapeño——需独占的远程 Mac 执行层。

开发周期：Jalapeño 从设计到流片 9 个月，声称高性能先进半导体领域最快 ASIC 周期
工艺节点：台积电 3nm，与 Blackwell、苹果 M4 同代
长期算力目标：OpenAI 规划至 2029 年 10 GW 自研芯片算力规模
英伟达投资绑定：2026 年 2 月英伟达向 OpenAI 直接投资 300 亿美元—— diversification，not divorce

info

Bottom Line：Jalapeño 不是终结英伟达 dominance 的银弹，但它是真实的、已在跑真实模型的信号——AI 公司单纯向最高出价者购买算力的时代结束了。 OpenAI 用 AI 设计了自己的芯片。

Jalapeño 推高了数据中心推理效率的上限，但本地笔电跑 Agent 长会话仍频繁 swap；廉价 Linux VPS 又无法运行 xcodebuild、notarytool 等 macOS 工具链。对需要稳定 SSH 长会话、Keychain 隔离、可预期带宽的 iOS CI/CD 与 AI Agent 自动化团队，在理解这场芯片军备竞赛之后，把重负载放在可独占的云端 Mac 上通常比押注本地硬件更可控。NodeMini Mac Mini 云端租赁可作为 CLI Agent 执行层：无论 OpenAI API 如何随推理降本调整定价，SSH 节点保持不变。规格见租赁价格说明，接入见帮助中心。

FAQ

常见问题

不是，至少现在不是。它只做 LLM 推理，不做训练。英伟达在训练阶段的地位短期内无法撼动，双方更多是互补关系。2026 年 2 月英伟达还以 300 亿美元直接投资 OpenAI。详见租赁价格说明了解 Agent 长会话硬件建议。

这是博通 CEO 陈福阳接受彭博社采访时公布的早期实验室测试数据，尚未经过第三方独立验证。完整技术报告数月后才会发布。OpenAI 官方措辞更谨慎：「每瓦性能显著优于当前最先进水平」，但未给出具体数字。

如果成本节省验证成功，最直接的影响是 ChatGPT / API 调用费用进一步降低，响应速度可能更快。长期来看，AI 服务将变得更便宜、更普及。但 macOS 开发者仍需独立规划本地/远程执行环境。

官方未作说明。OpenAI 内部有以食物命名项目的传统，「辣椒」可能暗示这款芯片的「辛辣」性能或对市场格局的刺激效果。

OpenAI 和博通官方表述是该芯片「为全行业当前和未来 LLM 而建」，暗示未来可能向外部公司开放。但目前首要任务是满足 OpenAI 自身需求。更多远程开发环境配置见帮助中心。

博通和 OpenAI 已规划多代路线图，下一代芯片预计 2028 年推出，之后逐年迭代。2027 年大规模量产，部署规模预计超过 1.3 GW。

消息公布后，英伟达股价反应有限。市场普遍认为英伟达在训练领域的优势短期内不受威胁，但长期来看大客户自研芯片的趋势构成结构性压力。英伟达同时以 300 亿美元投资 OpenAI，双方利益深度绑定。

OpenAI × 博通发布首款自研 AI 芯片 Jalapeño 推理成本直降 50% · 台积电 3nm · 剑指英伟达

OpenAI 为什么要造自己的芯片？推理账单与六大痛点

Jalapeño 是什么？ASIC 架构与大厂自研芯片对比

核心架构亮点

制造工艺与实验室运行模型

性能与成本：50% 推理节省与关键官方数据

9 个月史上最快 ASIC 开发周期

产业链伙伴、部署路线图与竞争格局全景

部署计划与商业路线图

Jalapeño 能「替代」英伟达吗？

关键人物

时间线梳理

行业影响、开发者六步行动清单与可引用技术数据

对 AI 行业的三大深远影响

开发者六步行动清单

常见问题

OpenAI × 博通发布首款自研 AI 芯片 Jalapeño
推理成本直降 50% · 台积电 3nm · 剑指英伟达