openPangu 2.0 en open source
MoE Ascend 505B, contexte 512K, stack complet sans NVIDIA

Le 30 juin 2026, Huawei a honoré l'engagement pris au HDC 2026 : les poids, le code d'inférence et les opérateurs d'entraînement d'openPangu-2.0-Flash sont disponibles sur GitCode. Il s'agit du premier grand modèle de langage open source de calibre frontier entraîné intégralement sur des NPU Ascend 910B, sans aucun GPU NVIDIA. Ce guide s'adresse aux décideurs techniques et aux équipes Ascend : chronologie, spécifications Pro/Flash, 7 composants, architecture mHC/Muon/ModAttn/DSA+SWA, tableaux comparatifs, déploiement ModelArts et GitCode, exigences matérielles, enjeux stratégiques et licence openPangu.

01

Contexte et chronologie

Le 12 juin 2026, lors du Huawei Developer Conference (HDC 2026) à Dongguan, Richard Yu a officiellement présenté openPangu 2.0. Les sept composants sont déployés progressivement.

DateÉvénement
2026-06-12Annonce officielle au HDC 2026
2026-06-30Flash : poids + inférence + opérateurs sur GitCode
2026-07 (prévu)Pro : poids + code d'inférence
S2 2026 (prévu)Code pré-entraînement, post-entraînement, opérateurs supplémentaires

Spécifications Pro et Flash

VersionParamètres totauxActifsSparsitéContexteStatut
openPangu 2.0 Pro505B18B~28:1512KJuillet 2026
openPangu 2.0 Flash92B6B~15:1512KDisponible

Le contexte de 512K permet de traiter l'équivalent d'environ huit romans en une seule requête — pertinent pour contrats, bases de code et transcriptions.

02

Profondeur technique : 7 composants et architecture

  1. 01

    Architecture du modèle

  2. 02

    Poids (Flash en ligne, Pro en juillet)

  3. 03

    Rapport technique

  4. 04

    Code d'inférence + opérateurs

  5. 05

    Code de pré-entraînement (S2)

  6. 06

    Code de post-entraînement SFT/RLHF (S2)

  7. 07

    Opérateurs Ascend personnalisés (S2)

Innovations clés : routage mHC, optimiseur Muon, attention modulaire ModAttn, attention ultra-sparse DSA+SWA (Flash).

IndicateurValeur
Débit mono-carte vs. OSS mainstream
Efficacité hypernœud+30 %
Entraînement séquences 512K+50 %
Cohérence entraînement/inférence>99 %
Flash-Int8Mémoire -40 %, perte <10 %

Stack logiciel : CANN (équivalent CUDA) + torch_npu pour PyTorch sur Ascend.

03

Comparaison concurrentielle

ModèleTotalActifsContexteLicenceEntraînementOpen source
openPangu 2.0 Pro505B18B512KopenPanguAscend7 composants
openPangu 2.0 Flash92B6B512KopenPanguAscend7 composants
DeepSeek V4 Pro1.6T~200B128KMITNVIDIAPoids+inférence
Qwen 3.7 Max~400B+variable128KApache 2.0NVIDIApartiel
Kimi K2.71T32B256KModified MITNVIDIAPoids+inférence
Llama 4 405B405B128KLlama LicenseNVIDIAPoids+inférence

Matrice de capacités (inférence architecturale)

DimensionopenPangu ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
Génération de codeMoyenExcellentÉlevéÉlevé
Raisonnement complexeMoyenExcellentExcellentÉlevé
Agents / outilsÉlevéÉlevéÉlevéExcellent
Contexte long512K128K128K256K
Efficacité inférenceExcellenteFaibleFaibleÉlevée
SouverainetéMaximaleFaibleFaibleFaible
warning

Avertissement benchmark : au 1er juillet 2026, aucun benchmark tiers indépendant n'est publié. Les évaluations reposent sur l'inférence architecturale ; mise à jour prévue après publication des résultats officiels.

Guide de sélection par scénario

ScénarioRecommandationJustification
Code / raisonnement avancéDeepSeek V4 Pro200B paramètres actifs
Agents multi-outilsKimi K2.7Écosystème MCP mature
Documents >256KopenPangu 2.0 Pro512K, record open source
Conformité souverainetéopenPangu 2.0Sans dépendance NVIDIA
Environnement Ascend / Huawei CloudopenPangu 2.02× débit natif
Inférence locale économiqueopenPangu 2.0 Flash6B actifs, ~96 Go UMA
04

Acquisition et déploiement

Option A : API Huawei Cloud ModelArts

bash
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "Expliquez l architecture MoE"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

Option B : auto-hébergement GitCode (Ascend 910B)

bash
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

Dépôts : GitCode Ascend TribeopenPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op.

VersionMatériel recommandéMinimumRemarque
Flash (6B actifs)1× Ascend 910B~96 Go UMATests communautaires sur Mac haute mémoire
Flash-Int8Ascend Atlas A2~48 Go VRAMPerte <10 %
Pro (18B actifs)4+× Ascend 910BCluster multi-cartesAprès juillet 2026
05

Enjeux stratégiques, HarmonyOS Agent et licence openPangu

Sous les restrictions d'exportation américaines sur les puces IA avancées, openPangu 2.0 constitue la première preuve d'un pipeline d'entraînement frontier entièrement indépendant de NVIDIA. L'open source full-stack permet la reproduction académique et le pré-entraînement vertical en entreprise.

HarmonyOS 7 entre dans l'ère des agents : openPangu 2.0 en est le moteur natif, avec un taux de succès >90 % sur les tâches complexes. Le modèle edge 30B fonctionne hors ligne sur puces Kirin.

Licence openPangu

  • Usage commercial autorisé
  • Sans redevance, non exclusive
  • Conditions détaillées : dépôt GitCode officiel

Premier modèle frontier open source entraîné sans un seul GPU NVIDIA — une réponse factuelle aux contraintes géopolitiques sur le matériel IA.

06

Guide en six étapes et pont NodeMini

  1. 01

    Créer un compte Huawei Cloud et accéder à ModelArts → AI Gallery → openPangu 2.0.

  2. 02

    Valider l'endpoint API via curl ; mesurer latence et coût par token.

  3. 03

    Cloner GitCode : poids Flash + dépôt openPangu-2.0-Infer.

  4. 04

    Installer CANN + torch_npu ; valider l'inférence bf16 mono-carte.

  5. 05

    Évaluer Flash-Int8 : compromis mémoire/qualité en environnement contraint.

  6. 06

    Planifier le déploiement Pro multi-cartes pour les charges 512K.

  7. 07

    Fixer le nœud hybride : prefill sensible et agents CLI longue durée sur Mac cloud SSH. Tarifs : tarifs location, connexion : centre d'aide.

Sans cluster Ascend, un Mac Mini cloud 96 Go UMA permet les tests Flash-Int8 et la séparation prefill/agent. NodeMini unifie xcodebuild, Keychain, notarytool et sessions agent longues sur un seul nœud SSH.

FAQ

Questions fréquentes

Flash : 92B/6B, disponible depuis le 30 juin 2026. Pro : 505B/18B, prévu en juillet. Contexte 512K pour les deux, entraînement Ascend 910B.

Documents 512K, conformité souveraineté, déploiement Ascend natif, recherche sur pipeline d'entraînement complet. DeepSeek reste leader en code/raisonnement (200B actifs).

ModelArts pour les pics ; prefill sensible sur Mac cloud dédié. Tarifs location, centre d'aide.

Au 1er juillet 2026 : aucun test tiers indépendant. Matrice = inférence architecturale. Date de publication : 1er juillet 2026.