Am 30. Juni 2026 hat Huawei die HDC-2026-Zusage eingelöst: openPangu-2.0-Flash Gewichte, Inferenzcode und Trainingsoperatoren sind auf GitCode live. Messbare Kernfakten: 505B MoE Pro (18B aktiv), 92B Flash (6B aktiv), beide mit 512K Kontext, Training ausschließlich auf Ascend 910B — kein A100/H100. Dieser datengetriebene Leitfaden für CTOs und Ascend-Teams deckt Timeline, 7 Komponenten, Architektur (mHC/Muon/ModAttn/DSA+SWA), Vergleichstabellen, ModelArts-API + GitCode-Deploy, DSGVO-relevante Souveränität und die openPangu License ab.
| Datum | Ereignis |
|---|---|
| 2026-06-12 | HDC 2026 Dongguan: offizielle Vorstellung openPangu 2.0 |
| 2026-06-30 | Flash-Gewichte + Inferenzcode + Operatoren auf GitCode |
| 2026-07 (geplant) | Pro-Gewichte + Inferenzcode |
| H2 2026 (geplant) | Pre-Training-Code, Post-Training-Code, weitere Operatoren |
| Version | Gesamt | Aktiv | Sparsity | Kontext | Status |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | ~28:1 | 512K | Juli 2026 |
| openPangu 2.0 Flash | 92B | 6B | ~15:1 | 512K | Live seit 30.06. |
512K Token entsprechen ca. 8 Romanlängen — relevant für Vertragsanalyse, Codebases und Transkripte in einem Prompt.
Modellarchitektur
Gewichte (Flash live, Pro Juli)
Technical Report
Inferenzcode + Trainingsoperatoren
Pre-Training-Code (H2)
Post-Training-Code SFT/RLHF (H2)
Ascend Custom Operatoren (H2)
Kerninnovationen: mHC-Routing, Muon-Optimizer, ModAttn für 512K, DSA+SWA (Flash, 28:1 Sparsity).
| KPI | Wert |
|---|---|
| Single-Card-Durchsatz vs. Mainstream OSS | 2× |
| Hypernode-Trainingseffizienz | +30% |
| 512K-Sequenz-Training | +50% |
| Train/Inferenz-Konsistenz | >99% |
| Flash-Int8 Speicher | -40%, Qualitätsverlust <10% |
Stack: CANN (CUDA-Äquivalent) + torch_npu für PyTorch auf Ascend.
| Modell | Gesamt | Aktiv | Kontext | Lizenz | Training | Open-Source-Tiefe |
|---|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | openPangu | Ascend | 7 Komponenten |
| openPangu 2.0 Flash | 92B | 6B | 512K | openPangu | Ascend | 7 Komponenten |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | MIT | NVIDIA | Gewichte+Inferenz |
| Qwen 3.7 Max | ~400B+ | variiert | 128K | Apache 2.0 | NVIDIA | teilweise Training |
| Kimi K2.7 | 1T | 32B | 256K | Modified MIT | NVIDIA | Gewichte+Inferenz |
| Llama 4 405B | 405B | — | 128K | Llama License | NVIDIA | Gewichte+Inferenz |
| Szenario | Empfehlung | Datengrundlage |
|---|---|---|
| Code/Reasoning Peak | DeepSeek V4 Pro | 200B aktiv vs. 18B |
| Agent/MCP | Kimi K2.7 | Ökosystem-Reife |
| Dokumente >256K | openPangu Pro | 512K einzigartig |
| Souveränität / DSGVO | openPangu 2.0 | Kein NVIDIA, Self-Host möglich |
| Ascend/Huawei Cloud | openPangu 2.0 | 2× Durchsatz nativ |
| Budget-Inferenz | openPangu Flash | 6B aktiv, ~96 GB UMA |
Benchmark-Hinweis: Stand 01.07.2026 keine unabhängigen Dritt-Benchmarks. Fähigkeitsmatrix = Architektur-Inferenz. Update nach Hugging Face Open LLM Leaderboard.
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "Erkläre MoE-Architektur"}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
Repos: GitCode Ascend Tribe — openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op.
| Version | Empfohlen | Minimum |
|---|---|---|
| Flash (6B aktiv) | 1× Ascend 910B | ~96 GB UMA |
| Flash-Int8 | Ascend Atlas A2 | ~48 GB VRAM |
| Pro (18B aktiv) | 4+× Ascend 910B | Multi-Card-Cluster |
openPangu 2.0 ist das erste Frontier-OSS-Modell ohne NVIDIA-Training. Für EU-Unternehmen mit DSGVO-Anforderungen an Datenhoheit und Technologieunabhängigkeit bietet Self-Host auf Ascend oder isoliertem Cloud-Mac eine dokumentierbare Alternative zu US-Cloud-APIs mit NVIDIA-Abhängigkeit.
HarmonyOS 7: openPangu als native Agent-Engine, >90 % Erfolgsrate bei komplexen Tasks. Edge-30B auf Kirin-Chips offline.
Huawei-Cloud-Konto: ModelArts → AI Gallery → openPangu 2.0 abonnieren.
API-Endpoint testen: curl-Latenz und Token-Kosten messen.
GitCode klonen: Flash-Gewichte + openPangu-2.0-Infer.
Ascend-Stack: CANN + torch_npu, bf16 Single-Card validieren.
Flash-Int8 benchmarken: Speicher vs. Qualität quantifizieren.
Pro Multi-Card planen: 8-Card distributed inference für 512K.
Hybrid-Node fixieren: DSGVO-sensitive Prefills und lange CLI-Agenten auf SSH-erreichbarem Cloud-Mac. Preise: Mietpreise, Setup: Hilfezentrum.
Ohne Ascend-Cluster: 96 GB UMA Mac Mini Cloud für Flash-Int8-Tests und Agent-Prefill-Trennung. NodeMini vereint xcodebuild, Keychain und lange Agent-Sessions auf einem SSH-Knoten.
Flash: 92B/6B, live seit 30.06.2026. Pro: 505B/18B, Juli 2026. Beide 512K Kontext, Ascend-Training.
Bei 512K-Dokumenten, Souveränität/DSGVO, Ascend-Native-Deploy und Full-Training-Pipeline-Forschung. DeepSeek führt bei Code/Reasoning (200B aktiv).
ModelArts für Bursts; sensible Prefills auf dediziertem Cloud-Mac. Mietpreise, Hilfezentrum.
Stand 01.07.2026: keine unabhängigen Dritt-Tests. Matrix = Architektur-Inferenz. Veröffentlichungsdatum: 01.07.2026.