Чем отличаются openPangu 2.0 Flash и Pro?

Flash: 92B всего, 6B активных, доступен с 30.06.2026. Pro: 505B всего, 18B активных, планируется на июль 2026. Оба поддерживают контекст 512K и обучены на Ascend 910B.

Можно ли деплоить в прод без NVIDIA GPU?

Да. Полное обучение на Ascend 910B. CANN + torch_npu переключают PyTorch на NPU-бэкенд. Единственный frontier-вариант без зависимости от NVIDIA для суверенного стека.

Как совместить API и локальный инференс?

ModelArts для burst-нагрузки; чувствительный prefill и длинные CLI-агенты — на облачном Mac с SSH. Тарифы и подключение — на страницах NodeMini.

Можно ли доверять бенчмаркам?

На 01.07.2026 независимые сторонние бенчмарки не опубликованы. Оценки основаны на архитектурном выводе; обновим после официальных результатов.

openPangu 2.0 open source: Ascend 505B MoE, 512K контекст, full-stack без NVIDIA

Таймлайн и хардкорные цифры

12 июня 2026 на HDC 2026 в Дунгуане Richard Yu анонсировал openPangu 2.0. Семь компонентов выкатываются поэтапно — не маркетинговый слайд, а реальный release train.

Дата	Событие
2026-06-12	Официальный релиз на HDC 2026
2026-06-30	Flash: веса + inference + ops на GitCode
2026-07 (план)	Pro: веса + inference-код
H2 2026 (план)	pre-training code, post-training code, доп. ops

Pro vs Flash — параметры

Версия	Всего	Активных	Sparsity	Контекст	Статус
openPangu 2.0 Pro	505B	18B	~28:1	512K	Июль 2026
openPangu 2.0 Flash	92B	6B	~15:1	512K	Live

512K токенов — это примерно 8 полноразмерных романов в одном prompt. Для codebase dump'а или длинного контракта — game changer по сравнению с 128K у большинства конкурентов.

7 компонентов и архитектурный deep dive

01
Архитектура модели
02
Веса (Flash live, Pro в июле)
03
Technical report
04
Inference + training ops
05
Pre-training code (H2)
06
Post-training code SFT/RLHF (H2)
07
Кастомные Ascend ops (H2)

Большинство OSS-моделей отдают weights + inference. Полный training stack на frontier scale — редкость. Здесь планируют все семь.

Ключевые фичи архитектуры

mHC routing — combinatorial expert routing, меньше load imbalance
Muon optimizer — second-order momentum от Microsoft research
ModAttn — modular attention под 512K без OOM на каждом шаге
DSA+SWA (только Flash) — ultra-sparse attention, sparsity 28:1

Метрика	Значение
Single-card throughput vs mainstream OSS	2×
Hypernode training efficiency	+30%
512K sequence training	+50%
Train/inference consistency	>99% (боль MoE решена)
Flash-Int8	Память -40%, quality loss <10%

Стек: CANN (CUDA-аналог) + import torch_npu — один импорт переключает PyTorch на NPU.

Сравнение с конкурентами

Модель	Всего	Активных	Контекст	Лицензия	Обучение	Open depth
openPangu 2.0 Pro	505B	18B	512K	openPangu	Ascend	7 компонентов
openPangu 2.0 Flash	92B	6B	512K	openPangu	Ascend	7 компонентов
DeepSeek V4 Pro	1.6T	~200B	128K	MIT	NVIDIA	weights+infer
Qwen 3.7 Max	~400B+	varies	128K	Apache 2.0	NVIDIA	частично training
Kimi K2.7	1T	32B	256K	Modified MIT	NVIDIA	weights+infer
Llama 4 405B	405B	—	128K	Llama License	NVIDIA	weights+infer

Capability matrix (архитектурный вывод)

Ось	openPangu Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
Code gen	средне	топ	высоко	высоко
Hard reasoning	средне	топ	топ	высоко
Tool calling / Agent	высоко	высоко	высоко	топ
Long context	512K	128K	128K	256K
Inference efficiency	топ на Ascend	низко	низко	высоко
Суверенитет	максимум	низко	низко	низко

warning

Дисклеймер по бенчмаркам: на 01.07.2026 нет независимых third-party scores. Матрица выше — architectural inference, не leaderboard. Обновим после Hugging Face Open LLM Leaderboard / LiveBench.

Decision tree по сценариям

Сценарий	Бери	Почему
Code / hard reasoning	DeepSeek V4 Pro	200B active vs 18B
Agent + MCP	Kimi K2.7	зрелый tool ecosystem
Документы >256K	openPangu Pro	512K — outlier
Суверенный стек / без NVIDIA	openPangu 2.0	единственный frontier вариант
Ascend / Huawei Cloud	openPangu 2.0	2× native throughput
Дешёвый local infer	openPangu Flash	6B active, ~96GB UMA

Деплой: ModelArts API и GitCode self-host

Вариант A — ModelArts (copy-paste curl)

bash

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "Объясни MoE простыми словами"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

Вариант B — GitCode, single Ascend 910B

bash

python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

Репозитории: GitCode Ascend Tribe — openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op.

Версия	Рекомендуемое железо	Минимум	Заметка
Flash (6B active)	1× Ascend 910B	~96GB UMA	community trials на fat Mac
Flash-Int8	Ascend Atlas A2	~48GB VRAM	loss <10%
Pro (18B active)	4+× Ascend 910B	multi-card cluster	после июля 2026

Стратегия, HarmonyOS Agent, openPangu License

Под экспортными ограничениями США на AI-чипы openPangu 2.0 — доказательство, что frontier training pipeline возможен без CUDA/NVIDIA. Full-stack open source = можно воспроизвести pretrain и кастомизировать vertical domain.

HarmonyOS 7 уходит в agent era: openPangu — native engine, >90% success rate на complex tasks. Edge 30B на Kirin — offline inference на телефоне без облака.

openPangu License — TL;DR

Commercial use — ок
Royalty-free, non-exclusive
Детали — в официальном репо на GitCode

«Без NVIDIA нельзя сделать большую модель» — этот тезис теперь имеет контрпример с открытыми весами.

6+ шагов деплоя и мост к NodeMini

01
Регистрация Huawei Cloud → ModelArts → AI Gallery → подписка на openPangu 2.0.
02
Smoke test API через curl; замерь latency и $/token.
03
Клонируй GitCode: Flash weights + openPangu-2.0-Infer.
04
Подними CANN + torch_npu, прогони bf16 single-card infer.
05
Бенчмаркни Flash-Int8 — memory vs quality tradeoff.
06
Спланируй Pro multi-card для 512K workloads (8-card distributed).
07
Зафиксируй hybrid node: sensitive prefill и long-running CLI agents на облачном Mac с SSH. Тарифы: цены аренды, setup: help center.

Нет Ascend-кластера? 96GB UMA Mac Mini cloud — для Flash-Int8 экспериментов и prefill/agent split. NodeMini держит xcodebuild, Keychain, notarytool и многочасовые agent-сессии на одном SSH-узле.

FAQ

Частые вопросы

Flash: 92B/6B, live с 30.06.2026. Pro: 505B/18B, июль 2026. Оба на 512K, обучены на Ascend 910B.

512K docs, суверенный стек без NVIDIA, native Ascend deploy, research на full training pipeline. DeepSeek всё ещё king в code/reasoning (200B active).

ModelArts для burst; sensitive prefill на dedicated cloud Mac. Цены аренды, help center.

На 01.07.2026 — нет independent third-party tests. Матрица = architectural inference. Дата публикации: 01.07.2026.