Le 30 juin 2026, Huawei a honoré l'engagement pris au HDC 2026 : les poids, le code d'inférence et les opérateurs d'entraînement d'openPangu-2.0-Flash sont disponibles sur GitCode. Il s'agit du premier grand modèle de langage open source de calibre frontier entraîné intégralement sur des NPU Ascend 910B, sans aucun GPU NVIDIA. Ce guide s'adresse aux décideurs techniques et aux équipes Ascend : chronologie, spécifications Pro/Flash, 7 composants, architecture mHC/Muon/ModAttn/DSA+SWA, tableaux comparatifs, déploiement ModelArts et GitCode, exigences matérielles, enjeux stratégiques et licence openPangu.
Le 12 juin 2026, lors du Huawei Developer Conference (HDC 2026) à Dongguan, Richard Yu a officiellement présenté openPangu 2.0. Les sept composants sont déployés progressivement.
| Date | Événement |
|---|---|
| 2026-06-12 | Annonce officielle au HDC 2026 |
| 2026-06-30 | Flash : poids + inférence + opérateurs sur GitCode |
| 2026-07 (prévu) | Pro : poids + code d'inférence |
| S2 2026 (prévu) | Code pré-entraînement, post-entraînement, opérateurs supplémentaires |
| Version | Paramètres totaux | Actifs | Sparsité | Contexte | Statut |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | ~28:1 | 512K | Juillet 2026 |
| openPangu 2.0 Flash | 92B | 6B | ~15:1 | 512K | Disponible |
Le contexte de 512K permet de traiter l'équivalent d'environ huit romans en une seule requête — pertinent pour contrats, bases de code et transcriptions.
Architecture du modèle
Poids (Flash en ligne, Pro en juillet)
Rapport technique
Code d'inférence + opérateurs
Code de pré-entraînement (S2)
Code de post-entraînement SFT/RLHF (S2)
Opérateurs Ascend personnalisés (S2)
Innovations clés : routage mHC, optimiseur Muon, attention modulaire ModAttn, attention ultra-sparse DSA+SWA (Flash).
| Indicateur | Valeur |
|---|---|
| Débit mono-carte vs. OSS mainstream | 2× |
| Efficacité hypernœud | +30 % |
| Entraînement séquences 512K | +50 % |
| Cohérence entraînement/inférence | >99 % |
| Flash-Int8 | Mémoire -40 %, perte <10 % |
Stack logiciel : CANN (équivalent CUDA) + torch_npu pour PyTorch sur Ascend.
| Modèle | Total | Actifs | Contexte | Licence | Entraînement | Open source |
|---|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | openPangu | Ascend | 7 composants |
| openPangu 2.0 Flash | 92B | 6B | 512K | openPangu | Ascend | 7 composants |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | MIT | NVIDIA | Poids+inférence |
| Qwen 3.7 Max | ~400B+ | variable | 128K | Apache 2.0 | NVIDIA | partiel |
| Kimi K2.7 | 1T | 32B | 256K | Modified MIT | NVIDIA | Poids+inférence |
| Llama 4 405B | 405B | — | 128K | Llama License | NVIDIA | Poids+inférence |
| Dimension | openPangu Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Génération de code | Moyen | Excellent | Élevé | Élevé |
| Raisonnement complexe | Moyen | Excellent | Excellent | Élevé |
| Agents / outils | Élevé | Élevé | Élevé | Excellent |
| Contexte long | 512K | 128K | 128K | 256K |
| Efficacité inférence | Excellente | Faible | Faible | Élevée |
| Souveraineté | Maximale | Faible | Faible | Faible |
Avertissement benchmark : au 1er juillet 2026, aucun benchmark tiers indépendant n'est publié. Les évaluations reposent sur l'inférence architecturale ; mise à jour prévue après publication des résultats officiels.
| Scénario | Recommandation | Justification |
|---|---|---|
| Code / raisonnement avancé | DeepSeek V4 Pro | 200B paramètres actifs |
| Agents multi-outils | Kimi K2.7 | Écosystème MCP mature |
| Documents >256K | openPangu 2.0 Pro | 512K, record open source |
| Conformité souveraineté | openPangu 2.0 | Sans dépendance NVIDIA |
| Environnement Ascend / Huawei Cloud | openPangu 2.0 | 2× débit natif |
| Inférence locale économique | openPangu 2.0 Flash | 6B actifs, ~96 Go UMA |
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "Expliquez l architecture MoE"}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
Dépôts : GitCode Ascend Tribe — openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op.
| Version | Matériel recommandé | Minimum | Remarque |
|---|---|---|---|
| Flash (6B actifs) | 1× Ascend 910B | ~96 Go UMA | Tests communautaires sur Mac haute mémoire |
| Flash-Int8 | Ascend Atlas A2 | ~48 Go VRAM | Perte <10 % |
| Pro (18B actifs) | 4+× Ascend 910B | Cluster multi-cartes | Après juillet 2026 |
Sous les restrictions d'exportation américaines sur les puces IA avancées, openPangu 2.0 constitue la première preuve d'un pipeline d'entraînement frontier entièrement indépendant de NVIDIA. L'open source full-stack permet la reproduction académique et le pré-entraînement vertical en entreprise.
HarmonyOS 7 entre dans l'ère des agents : openPangu 2.0 en est le moteur natif, avec un taux de succès >90 % sur les tâches complexes. Le modèle edge 30B fonctionne hors ligne sur puces Kirin.
Premier modèle frontier open source entraîné sans un seul GPU NVIDIA — une réponse factuelle aux contraintes géopolitiques sur le matériel IA.
Créer un compte Huawei Cloud et accéder à ModelArts → AI Gallery → openPangu 2.0.
Valider l'endpoint API via curl ; mesurer latence et coût par token.
Cloner GitCode : poids Flash + dépôt openPangu-2.0-Infer.
Installer CANN + torch_npu ; valider l'inférence bf16 mono-carte.
Évaluer Flash-Int8 : compromis mémoire/qualité en environnement contraint.
Planifier le déploiement Pro multi-cartes pour les charges 512K.
Fixer le nœud hybride : prefill sensible et agents CLI longue durée sur Mac cloud SSH. Tarifs : tarifs location, connexion : centre d'aide.
Sans cluster Ascend, un Mac Mini cloud 96 Go UMA permet les tests Flash-Int8 et la séparation prefill/agent. NodeMini unifie xcodebuild, Keychain, notarytool et sessions agent longues sur un seul nœud SSH.
Flash : 92B/6B, disponible depuis le 30 juin 2026. Pro : 505B/18B, prévu en juillet. Contexte 512K pour les deux, entraînement Ascend 910B.
Documents 512K, conformité souveraineté, déploiement Ascend natif, recherche sur pipeline d'entraînement complet. DeepSeek reste leader en code/raisonnement (200B actifs).
ModelArts pour les pics ; prefill sensible sur Mac cloud dédié. Tarifs location, centre d'aide.
Au 1er juillet 2026 : aucun test tiers indépendant. Matrice = inférence architecturale. Date de publication : 1er juillet 2026.