30 июня 2026 Huawei выкатил на GitCode веса, inference-код и training ops для openPangu-2.0-Flash — как обещали на HDC 2026. Это первый frontier-scale open-source LLM, обученный целиком на Ascend 910B без единого NVIDIA GPU в training pipeline. Разбор для тех, кто копает в стек: таймлайн, спеки Pro/Flash, 7 компонентов, mHC/Muon/ModAttn/DSA+SWA, таблицы против DeepSeek/Qwen/Kimi, деплой через ModelArts curl и GitCode, железо, стратегия, openPangu License и дисклеймер по бенчмаркам.
12 июня 2026 на HDC 2026 в Дунгуане Richard Yu анонсировал openPangu 2.0. Семь компонентов выкатываются поэтапно — не маркетинговый слайд, а реальный release train.
| Дата | Событие |
|---|---|
| 2026-06-12 | Официальный релиз на HDC 2026 |
| 2026-06-30 | Flash: веса + inference + ops на GitCode |
| 2026-07 (план) | Pro: веса + inference-код |
| H2 2026 (план) | pre-training code, post-training code, доп. ops |
| Версия | Всего | Активных | Sparsity | Контекст | Статус |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | ~28:1 | 512K | Июль 2026 |
| openPangu 2.0 Flash | 92B | 6B | ~15:1 | 512K | Live |
512K токенов — это примерно 8 полноразмерных романов в одном prompt. Для codebase dump'а или длинного контракта — game changer по сравнению с 128K у большинства конкурентов.
Архитектура модели
Веса (Flash live, Pro в июле)
Technical report
Inference + training ops
Pre-training code (H2)
Post-training code SFT/RLHF (H2)
Кастомные Ascend ops (H2)
Большинство OSS-моделей отдают weights + inference. Полный training stack на frontier scale — редкость. Здесь планируют все семь.
| Метрика | Значение |
|---|---|
| Single-card throughput vs mainstream OSS | 2× |
| Hypernode training efficiency | +30% |
| 512K sequence training | +50% |
| Train/inference consistency | >99% (боль MoE решена) |
| Flash-Int8 | Память -40%, quality loss <10% |
Стек: CANN (CUDA-аналог) + import torch_npu — один импорт переключает PyTorch на NPU.
| Модель | Всего | Активных | Контекст | Лицензия | Обучение | Open depth |
|---|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | openPangu | Ascend | 7 компонентов |
| openPangu 2.0 Flash | 92B | 6B | 512K | openPangu | Ascend | 7 компонентов |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | MIT | NVIDIA | weights+infer |
| Qwen 3.7 Max | ~400B+ | varies | 128K | Apache 2.0 | NVIDIA | частично training |
| Kimi K2.7 | 1T | 32B | 256K | Modified MIT | NVIDIA | weights+infer |
| Llama 4 405B | 405B | — | 128K | Llama License | NVIDIA | weights+infer |
| Ось | openPangu Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Code gen | средне | топ | высоко | высоко |
| Hard reasoning | средне | топ | топ | высоко |
| Tool calling / Agent | высоко | высоко | высоко | топ |
| Long context | 512K | 128K | 128K | 256K |
| Inference efficiency | топ на Ascend | низко | низко | высоко |
| Суверенитет | максимум | низко | низко | низко |
Дисклеймер по бенчмаркам: на 01.07.2026 нет независимых third-party scores. Матрица выше — architectural inference, не leaderboard. Обновим после Hugging Face Open LLM Leaderboard / LiveBench.
| Сценарий | Бери | Почему |
|---|---|---|
| Code / hard reasoning | DeepSeek V4 Pro | 200B active vs 18B |
| Agent + MCP | Kimi K2.7 | зрелый tool ecosystem |
| Документы >256K | openPangu Pro | 512K — outlier |
| Суверенный стек / без NVIDIA | openPangu 2.0 | единственный frontier вариант |
| Ascend / Huawei Cloud | openPangu 2.0 | 2× native throughput |
| Дешёвый local infer | openPangu Flash | 6B active, ~96GB UMA |
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "Объясни MoE простыми словами"}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
Репозитории: GitCode Ascend Tribe — openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op.
| Версия | Рекомендуемое железо | Минимум | Заметка |
|---|---|---|---|
| Flash (6B active) | 1× Ascend 910B | ~96GB UMA | community trials на fat Mac |
| Flash-Int8 | Ascend Atlas A2 | ~48GB VRAM | loss <10% |
| Pro (18B active) | 4+× Ascend 910B | multi-card cluster | после июля 2026 |
Под экспортными ограничениями США на AI-чипы openPangu 2.0 — доказательство, что frontier training pipeline возможен без CUDA/NVIDIA. Full-stack open source = можно воспроизвести pretrain и кастомизировать vertical domain.
HarmonyOS 7 уходит в agent era: openPangu — native engine, >90% success rate на complex tasks. Edge 30B на Kirin — offline inference на телефоне без облака.
«Без NVIDIA нельзя сделать большую модель» — этот тезис теперь имеет контрпример с открытыми весами.
Регистрация Huawei Cloud → ModelArts → AI Gallery → подписка на openPangu 2.0.
Smoke test API через curl; замерь latency и $/token.
Клонируй GitCode: Flash weights + openPangu-2.0-Infer.
Подними CANN + torch_npu, прогони bf16 single-card infer.
Бенчмаркни Flash-Int8 — memory vs quality tradeoff.
Спланируй Pro multi-card для 512K workloads (8-card distributed).
Зафиксируй hybrid node: sensitive prefill и long-running CLI agents на облачном Mac с SSH. Тарифы: цены аренды, setup: help center.
Нет Ascend-кластера? 96GB UMA Mac Mini cloud — для Flash-Int8 экспериментов и prefill/agent split. NodeMini держит xcodebuild, Keychain, notarytool и многочасовые agent-сессии на одном SSH-узле.
Flash: 92B/6B, live с 30.06.2026. Pro: 505B/18B, июль 2026. Оба на 512K, обучены на Ascend 910B.
512K docs, суверенный стек без NVIDIA, native Ascend deploy, research на full training pipeline. DeepSeek всё ещё king в code/reasoning (200B active).
ModelArts для burst; sensitive prefill на dedicated cloud Mac. Цены аренды, help center.
На 01.07.2026 — нет independent third-party tests. Матрица = architectural inference. Дата публикации: 01.07.2026.