OpenAI × Broadcom представили первый собственный AI-чип Jalapeño
Инференс −50% · TSMC 3nm · Вызов Nvidia

Если вы AI-разработчик, инженер инфраструктуры или tech-инвестор и следите только за рейтингами моделей, игнорируя, как ASIC для инференса Jalapeño, представленный 24 июня 2026 OpenAI и Broadcom, перекраивает кривую стоимости compute — вы, вероятно, недооцениваете следующий цикл. Первый кастомный ASIC заявляет ~50% экономии на инференсе относительно mainstream GPU — TSMC 3nm, 9 месяцев до tape-out, развёртывание в Azure к концу 2026. Статья покрывает все ключевые точки: контекст, архитектура, бенчмарки, supply chain, roadmap, конкуренция, отраслевое влияние, FAQ, ключевые лица и таймлайн — с таблицей сравнения hyperscaler ASIC, матрицей метрик и 6-step action list для разработчиков.

01

Зачем OpenAI делает свой чип: счёт за инференс и шесть системных ограничений

24 июня 2026 OpenAI и Broadcom представили Jalapeño — первый кастомный ASIC для AI-инференса. Чтобы понять стратегический смысл, нужно разобрать cost structure за ChatGPT и OpenAI API.

OpenAI — один из крупнейших потребителей GPU в мире. Каждый запрос к ChatGPT требует непрерывного инференса — генерации ответа по входному промпту. С GPT-4 и GPT-5 инференс стал тяжелейшей статьёй расходов на пути к прибыльности. До сих пор доминировали Nvidia H100, H200, Blackwell — универсальные ускорители с существенным overhead в однородных LLM-inference workloads. GPU Nvidia — швейцарский нож; Jalapeño — скальпель.

  1. 01

    Инференс съедает маржу: Сотни миллионов DAU у ChatGPT — каждый API-вызов сжигает GPU compute. Инференс — крупнейшая статья OPEX OpenAI.

  2. 02

    Архитектурный mismatch GPU: GPU проектировались для gaming, training, simulation. Bottleneck memory bandwidth в LLM-инференсе general-purpose архитектура не оптимизирует.

  3. 03

    Конкуренты уже в production: Google TPU, Amazon Trainium/Inferentia, Microsoft Maia 100, Meta MTIA — OpenAI последний среди hyperscalers.

  4. 04

    Single-supplier risk: Полная зависимость от Nvidia = нулевой leverage по цене, lead time и наценкам.

  5. 05

    Full-stack efficiency: OpenAI формулирует: проектируется не только frontier-модель, но и инфраструктура под ней — chip architecture, kernels, memory subsystem, network, scheduling, deployment.

  6. 06

    Косвенное давление на разработчиков: Если datacenter inference падает на 50%, API pricing может последовать — но локальные Agent-сессии на 16 GB laptop с swap не исчезнут. Execution layer нужно планировать отдельно.

«Nobody wants to be beholden to Nvidia.» — Ben Barringer, Global Technology Research Lead, Quilter Cheviot

02

Что такое Jalapeño? ASIC-архитектура и сравнение чипов hyperscalers

ASIC (Application-Specific Integrated Circuit) — чип делает одну вещь: LLM-инференс. Ни gaming, ни training, ни general compute. Специализация даёт максимальную эффективность в своём домене.

Richard Ho, руководитель hardware OpenAI: «Jalapeño спроектирован с нуля для LLM-инференса с учётом нашего понимания kernel execution, memory movement, network communication и serving patterns. Ранние тесты показывают эффективный запуск критичных workloads близко к теоретическому пределу железа.»

КомпанияСобственный чипНазначение
GoogleTPU (Tensor Processing Unit)Training + инференс
AmazonTrainium (training) / Inferentia (инференс)Training + инференс
MicrosoftMaia 100Инференс
MetaMTIAИнференс
OpenAIJalapeño (2026)Инференс

Архитектурные акценты

  • Blank-slate design: Перепроектирование от современного LLM-inference workload — каждое решение под Transformer compute pattern, не GPU-патчи.
  • Minimize data movement: Bottleneck в LLM-инференсе — memory bandwidth. Jalapeño сокращает лишние переносы между memory и compute units.
  • Баланс compute/memory/network: Под реальные LLM load profiles — utilization ближе к теоретическому peak.
  • Broadcom Tomahawk networking: Мощная inter-node коммуникация для крупных кластеров — критично для multi-GPU инференса больших моделей.
  • Celestica board/rack integration: EMS-интеграция в материнские платы и rack-системы для массового производства.

Производство и лабораторные тесты

Производитель: TSMC, нод: 3nm (та же генерация, что Apple M4 и Nvidia Blackwell). Engineering samples работают в лабораториях OpenAI на целевых частоте и TDP — включая GPT-5.3-Codex-Spark, флагманский inference-модель для coding.

03

Производительность и стоимость: 50% экономии и официальные метрики

warning

Внимание: Данные от Hock Tan (Broadcom) и OpenAI — ранние тесты. Полный техотчёт через несколько месяцев. Независимая валидация ещё не проведена.

МетрикаJalapeño (ранний тест)База сравнения
Экономия на инференсе~50%vs текущие mainstream AI GPU
Performance per wattзначительно выше SOTAОфициально OpenAI
Абсолютная производительностьсопоставима с Nvidia Blackwell, Google TPUHock Tan (Reuters)
Thermal behaviorлучше ожидаемогоВнутренние тесты OpenAI

CEO Broadcom Hock Tan Bloomberg: «Пока Jalapeño демонстрирует около 50% экономии относительно типичных AI GPU.» Президент OpenAI Greg Brockman: «От initial design до tape-out — 9 месяцев; часть design и optimization использовала собственные AI-модели OpenAI.»

«50%» — пока ранние лабораторные данные Broadcom. Production validation требует: ① техотчёт OpenAI; ② deployment data Azure; ③ независимые benchmarks типа MLPerf. Даже половина эффекта значима при масштабе инференса OpenAI.

9 месяцев — самый быстрый ASIC-цикл в отрасли?

От design до tape-out: 9 месяцев — по заявлению OpenAI и Broadcom, самый быстрый ASIC development cycle в high-performance semiconductors. Ускорители: ① hardware-software co-design; ② AI-assisted chip design с моделями OpenAI; ③ зрелая IP-библиотека Broadcom.

04

Supply chain, roadmap развёртывания и конкурентная карта

РольКомпанияЗона ответственности
Chip architectureOpenAILLM inference optimization, full-stack design
Silicon & networkBroadcomChip implementation, Tomahawk network, production support
FoundryTSMC3nm manufacturing
System integrationCelesticaМатеринские платы, rack, серверы, mass production
Первый deploymentMicrosoft AzureДата-центры (с конца 2026)

Roadmap развёртывания

  • Краткосрочно (конец 2026): Engineering samples в лаборатории; коммерческий deployment в Microsoft и partner DCs; приоритет — внутренний инференс OpenAI (ChatGPT, Codex, API).
  • Среднесрочно (2027): Mass production; CEO Broadcom прогнозирует deployment свыше 1,3 GW; возможное открытие для внешних AI-компаний (чип «для текущих и будущих LLM всей индустрии»).
  • Долгосрочно (до 2029): Цель OpenAI — 10 GW собственной chip capacity; multi-generation roadmap, следующее поколение ~2028, ежегодная итерация; training chips возможны позже (сейчас только инференс).

Может ли Jalapeño «заменить» Nvidia?

Краткосрочно: нет. Причины: ① Только инференс, не training — frontier training остаётся за Nvidia; в феврале 2026 Nvidia инвестировала $30 млрд в OpenAI; ② CUDA ecosystem — software moat десятилетия; ③ Ограниченная гибкость ASIC при радикальной смене LLM-архитектуры.

Стратегия — diversification и negotiating leverage: даже 20–30% inference load на Jalapeño = реальная экономия и рычаг против Nvidia. Как у Google, Amazon, Microsoft: не «уйти от Nvidia», а «перестать зависеть полностью».

Nvidia отвечает Vera Rubin, CUDA moat и инвестицией в OpenAI — конкурент и партнёр одновременно. Broadcom становится «королём custom ASIC» — Google (TPU v5/v6), Meta (MTIA), OpenAI (Jalapeño). Акции Broadcom: ~+18% YTD за первые 5 месяцев 2026, ~7× с конца 2022.

Ключевые лица

ИмяДолжностьРоль
Greg BrockmanCo-founder & President OpenAIПубличный анонс, full-stack infrastructure strategy
Richard HoРуководитель hardware OpenAIТехническая архитектура
Hock TanCEO BroadcomPerformance уровня Blackwell, 50% экономии
Sam AltmanCEO OpenAIОбщая стратегия (compute sovereignty)

Таймлайн

timeline
Окт. 2025      →  OpenAI и Broadcom объявляют партнёрство по custom chip
Фев. 2026      →  Nvidia инвестирует $30 млрд в OpenAI (Vera Rubin compute deal)
24 июня 2026    →  Публичный анонс Jalapeño, engineering samples в лаборатории
Конец 2026     →  Первые коммерческие deployments (Azure и партнёры)
2027           →  Mass production, deployment >1,3 GW
2028 (план)    →  Второе поколение чипа
2029 (цель)    →  10 GW собственной chip capacity
05

Отраслевое влияние, 6-step action list и цитируемые техданные

Три структурных эффекта

  • Inference economics меняет бизнес-модели: При валидации 50% в production — дальнейшее снижение стоимости ChatGPT API, новый пол «AI price war».
  • «Full-stack AI company» как новый стандарт: Конкуренция смещается от «лучшая модель» к «выше full-stack efficiency» — chip, kernels, memory, network, scheduling, deployment.
  • Перестройка полупроводников: Выигрывают Broadcom (custom ASIC), TSMC (3nm foundry), SK Hynix/Samsung (HBM). Под давлением Nvidia (доля инференса), AMD.

6-step action list для разработчиков

  1. 01

    Разделяйте training и inference compute: Jalapeño — только инференс. Training остаётся на Nvidia. CUDA ecosystem не исчезнет за ночь.

  2. 02

    Критически оценивайте 50%: Ждите техотчёт OpenAI, Azure deployment data и MLPerf-подобные benchmarks перед корректировкой API cost models.

  3. 03

    Отслеживайте API pricing curve: Снижение inference cost может передаться в ChatGPT/Codex pricing — комбинируйте с гайдом по снижению цен AI за июнь 2026 для model routing и Batch API.

  4. 04

    Следите за supply chain Broadcom: ASIC для Google, Meta, OpenAI — Tomahawk network и HBM supply влияют на все hyperscaler inference clusters.

  5. 05

    Планируйте локальный execution layer: Datacenter inference discount не решает swap при Cursor + Claude Code long sessions на 16 GB laptop — CLI Agent нуждается в стабильных hardware nodes.

  6. 06

    Выносите тяжёлые workloads на cloud Mac: iOS CI/CD, notarytool, Keychain isolation — macOS-only toolchains не выигрывают от Jalapeño. Нужен dedicated remote Mac execution layer.

  • Development cycle: Design до tape-out 9 месяцев — заявлен самый быстрый ASIC cycle в high-performance segment
  • Process node: TSMC 3nm, та же генерация что Blackwell и Apple M4
  • Долгосрочная цель: 10 GW собственной chip capacity к 2029
  • Nvidia investment binding: Февраль 2026, $30 млрд в OpenAI — diversification, not divorce
info

Итог: Jalapeño — не silver bullet против доминирования Nvidia, но реальный сигнал: engineering samples крутят настоящие модели. Эра, когда AI-компании покупали compute у highest bidder, заканчивается. OpenAI спроектировал свой чип с помощью AI.

Jalapeño поднимает потолок datacenter inference efficiency — но локальные laptops с Agent sessions всё ещё swapят; дешёвый Linux VPS не запустит xcodebuild и notarytool. Для команд iOS CI/CD и AI Agent automation, которым нужны стабильный SSH, Keychain isolation и предсказуемый bandwidth, после этой chip arms race dedicated cloud Mac часто контролируемее, чем ставка на локальное железо. Аренда Mac Mini в облаке NodeMini как CLI Agent execution layer: независимо от корректировок API pricing OpenAI, SSH-нода остаётся стабильной. Тарифы: цены аренды, подключение: центр помощи.

FAQ

Частые вопросы

Нет, по крайней мере пока. Только LLM-инференс, без training. Позиция Nvidia в training в ближайшей перспективе непоколебима; скорее дополнение. В феврале 2026 Nvidia инвестировала $30 млрд в OpenAI. Рекомендации по hardware для Agent sessions: цены аренды.

Ранние лабораторные данные Hock Tan в интервью Bloomberg — без независимой валидации. Полный техотчёт через несколько месяцев. OpenAI осторожнее: «performance per watt значительно выше SOTA» без конкретного процента.

При валидации экономии — ниже тарифы ChatGPT/API, возможно быстрее ответы. Долгосрочно — дешевле и доступнее AI-сервисы. macOS-разработчикам всё равно нужно планировать local/remote execution.

Официального объяснения нет. OpenAI традиционно называет внутренние проекты едой — «перец» может намекать на «острую» производительность или стимул для рынка.

Официально: чип «для текущих и будущих LLM всей индустрии» — намёк на внешнюю доступность. Приоритет — потребности OpenAI. Настройка remote dev: центр помощи.

Multi-generation roadmap запланирован. Следующее поколение ~2028, затем ежегодная итерация. Mass production 2027, deployment свыше 1,3 GW.

Реакция рынка ограничена. Преимущество Nvidia в training краткосрочно не под угрозой; долгосрочно — структурное давление от hyperscaler custom chips. Одновременно $30 млрд инвестиций в OpenAI — глубокая связь интересов.