openPangu 2.0 в open source
Ascend 505B MoE, 512K контекст, zero NVIDIA в пайплайне

30 июня 2026 Huawei выкатил на GitCode веса, inference-код и training ops для openPangu-2.0-Flash — как обещали на HDC 2026. Это первый frontier-scale open-source LLM, обученный целиком на Ascend 910B без единого NVIDIA GPU в training pipeline. Разбор для тех, кто копает в стек: таймлайн, спеки Pro/Flash, 7 компонентов, mHC/Muon/ModAttn/DSA+SWA, таблицы против DeepSeek/Qwen/Kimi, деплой через ModelArts curl и GitCode, железо, стратегия, openPangu License и дисклеймер по бенчмаркам.

01

Таймлайн и хардкорные цифры

12 июня 2026 на HDC 2026 в Дунгуане Richard Yu анонсировал openPangu 2.0. Семь компонентов выкатываются поэтапно — не маркетинговый слайд, а реальный release train.

ДатаСобытие
2026-06-12Официальный релиз на HDC 2026
2026-06-30Flash: веса + inference + ops на GitCode
2026-07 (план)Pro: веса + inference-код
H2 2026 (план)pre-training code, post-training code, доп. ops

Pro vs Flash — параметры

ВерсияВсегоАктивныхSparsityКонтекстСтатус
openPangu 2.0 Pro505B18B~28:1512KИюль 2026
openPangu 2.0 Flash92B6B~15:1512KLive

512K токенов — это примерно 8 полноразмерных романов в одном prompt. Для codebase dump'а или длинного контракта — game changer по сравнению с 128K у большинства конкурентов.

02

7 компонентов и архитектурный deep dive

  1. 01

    Архитектура модели

  2. 02

    Веса (Flash live, Pro в июле)

  3. 03

    Technical report

  4. 04

    Inference + training ops

  5. 05

    Pre-training code (H2)

  6. 06

    Post-training code SFT/RLHF (H2)

  7. 07

    Кастомные Ascend ops (H2)

Большинство OSS-моделей отдают weights + inference. Полный training stack на frontier scale — редкость. Здесь планируют все семь.

Ключевые фичи архитектуры

  • mHC routing — combinatorial expert routing, меньше load imbalance
  • Muon optimizer — second-order momentum от Microsoft research
  • ModAttn — modular attention под 512K без OOM на каждом шаге
  • DSA+SWA (только Flash) — ultra-sparse attention, sparsity 28:1
МетрикаЗначение
Single-card throughput vs mainstream OSS
Hypernode training efficiency+30%
512K sequence training+50%
Train/inference consistency>99% (боль MoE решена)
Flash-Int8Память -40%, quality loss <10%

Стек: CANN (CUDA-аналог) + import torch_npu — один импорт переключает PyTorch на NPU.

03

Сравнение с конкурентами

МодельВсегоАктивныхКонтекстЛицензияОбучениеOpen depth
openPangu 2.0 Pro505B18B512KopenPanguAscend7 компонентов
openPangu 2.0 Flash92B6B512KopenPanguAscend7 компонентов
DeepSeek V4 Pro1.6T~200B128KMITNVIDIAweights+infer
Qwen 3.7 Max~400B+varies128KApache 2.0NVIDIAчастично training
Kimi K2.71T32B256KModified MITNVIDIAweights+infer
Llama 4 405B405B128KLlama LicenseNVIDIAweights+infer

Capability matrix (архитектурный вывод)

ОсьopenPangu ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
Code genсреднетопвысоковысоко
Hard reasoningсреднетоптопвысоко
Tool calling / Agentвысоковысоковысокотоп
Long context512K128K128K256K
Inference efficiencyтоп на Ascendнизконизковысоко
Суверенитетмаксимумнизконизконизко
warning

Дисклеймер по бенчмаркам: на 01.07.2026 нет независимых third-party scores. Матрица выше — architectural inference, не leaderboard. Обновим после Hugging Face Open LLM Leaderboard / LiveBench.

Decision tree по сценариям

СценарийБериПочему
Code / hard reasoningDeepSeek V4 Pro200B active vs 18B
Agent + MCPKimi K2.7зрелый tool ecosystem
Документы >256KopenPangu Pro512K — outlier
Суверенный стек / без NVIDIAopenPangu 2.0единственный frontier вариант
Ascend / Huawei CloudopenPangu 2.02× native throughput
Дешёвый local inferopenPangu Flash6B active, ~96GB UMA
04

Деплой: ModelArts API и GitCode self-host

Вариант A — ModelArts (copy-paste curl)

bash
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "Объясни MoE простыми словами"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

Вариант B — GitCode, single Ascend 910B

bash
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

Репозитории: GitCode Ascend TribeopenPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op.

ВерсияРекомендуемое железоМинимумЗаметка
Flash (6B active)1× Ascend 910B~96GB UMAcommunity trials на fat Mac
Flash-Int8Ascend Atlas A2~48GB VRAMloss <10%
Pro (18B active)4+× Ascend 910Bmulti-card clusterпосле июля 2026
05

Стратегия, HarmonyOS Agent, openPangu License

Под экспортными ограничениями США на AI-чипы openPangu 2.0 — доказательство, что frontier training pipeline возможен без CUDA/NVIDIA. Full-stack open source = можно воспроизвести pretrain и кастомизировать vertical domain.

HarmonyOS 7 уходит в agent era: openPangu — native engine, >90% success rate на complex tasks. Edge 30B на Kirin — offline inference на телефоне без облака.

openPangu License — TL;DR

  • Commercial use — ок
  • Royalty-free, non-exclusive
  • Детали — в официальном репо на GitCode

«Без NVIDIA нельзя сделать большую модель» — этот тезис теперь имеет контрпример с открытыми весами.

06

6+ шагов деплоя и мост к NodeMini

  1. 01

    Регистрация Huawei Cloud → ModelArts → AI Gallery → подписка на openPangu 2.0.

  2. 02

    Smoke test API через curl; замерь latency и $/token.

  3. 03

    Клонируй GitCode: Flash weights + openPangu-2.0-Infer.

  4. 04

    Подними CANN + torch_npu, прогони bf16 single-card infer.

  5. 05

    Бенчмаркни Flash-Int8 — memory vs quality tradeoff.

  6. 06

    Спланируй Pro multi-card для 512K workloads (8-card distributed).

  7. 07

    Зафиксируй hybrid node: sensitive prefill и long-running CLI agents на облачном Mac с SSH. Тарифы: цены аренды, setup: help center.

Нет Ascend-кластера? 96GB UMA Mac Mini cloud — для Flash-Int8 экспериментов и prefill/agent split. NodeMini держит xcodebuild, Keychain, notarytool и многочасовые agent-сессии на одном SSH-узле.

FAQ

Частые вопросы

Flash: 92B/6B, live с 30.06.2026. Pro: 505B/18B, июль 2026. Оба на 512K, обучены на Ascend 910B.

512K docs, суверенный стек без NVIDIA, native Ascend deploy, research на full training pipeline. DeepSeek всё ещё king в code/reasoning (200B active).

ModelArts для burst; sensitive prefill на dedicated cloud Mac. Цены аренды, help center.

На 01.07.2026 — нет independent third-party tests. Матрица = architectural inference. Дата публикации: 01.07.2026.