openPangu 2.0 オープンソース公開
昇腾 505B MoE・512K コンテキスト・7 大コンポーネント全链路开源

2026 年 6 月 30 日、华为は HDC 2026 の約束を果たし、openPangu-2.0-Flash のモデル重み・推論コード・訓推算子を GitCode に公開しました。これはNVIDIA GPU を一切使わず昇腾 910B NPU で全規模訓練されたフロンティア級オープンソース大モデルとして、業界初の事例です。本記事は技術責任者・昇腾開発者・信創コンプライアンス担当者向けに、タイムライン、Pro/Flash 仕様、7 大コンポーネント、mHC/Muon/ModAttn/DSA+SWA アーキテクチャ、競合比較、ModelArts API と GitCode 自デプロイ、ハードウェア要件、戦略的意義、openPangu Licenseを体系的に解説します。

01

イベント背景とタイムライン

2026 年 6 月 12 日、东莞松山湖で開催された华为开发者大会 HDC 2026 において、余承东氏が基調講演で openPangu 2.0 を正式発表しました。以降、7 大コンポーネントは段階的に公開されています。

時期イベント
2026-06-12HDC 2026 で openPangu 2.0 正式発表
2026-06-30Flash 版重み・推論コード・訓推算子を GitCode に公開
2026-07(予定)Pro 版重み・推論コード公開
2026 下半期(予定)事前訓練コード・後訓練コード・訓練算子など追加公開

Pro と Flash の仕様比較

バージョン総パラメータ活性化パラメータスパース比コンテキスト状態
openPangu 2.0 Pro505B18B約 28:1512K7 月公開予定
openPangu 2.0 Flash92B6B約 15:1512K公開済み

512K コンテキストは、『三体』第一部相当の約 8 冊分のテキストを一度に処理できる規模です。Flash は 6B 活性化のため、6B 密モデルに近い推論コストで 92B の知識プールにアクセスできます。

02

技術深度:7 大コンポーネントとアーキテクチャ革新

7 大オープンソースコンポーネント

  1. 01

    モデル構造(アーキテクチャ定義)

  2. 02

    モデル重み(Flash は 6/30 公開済み、Pro は 7 月予定)

  3. 03

    技術レポート(重みと同期公開)

  4. 04

    推論コード(基本推論 + 訓推算子)

  5. 05

    事前訓練コード(下半期予定)

  6. 06

    後訓練コード(SFT/RLHF 対応、下半期予定)

  7. 07

    訓練算子(昇腾高性能カスタム算子、下半期予定)

一般的なオープンソースモデルは重みと推論コードのみを公開します。事前訓練・後訓練コードと訓練算子まで含む全链路开源は、超大规模 MoE では極めて稀です。

アーキテクチャの核心技術

  • mHC(Multi-Head Combinatorial)ルーティング:エキスパート負荷不均衡を低減
  • Muon 最適化器:Microsoft 由来の二階モーメンタム最適化で訓練安定性を向上
  • ModAttn(Modular Attention):モジュラー注意機構で 512K 長コンテキストに対応
  • DSA+SWA 超スパース注意(Flash 専用):28:1 の極限スパース比を実現

昇腾訓練とハードウェア適合

openPangu 2.0 は昇腾 910B NPU で全規模訓練され、A100/H100 は使用していません。CANN(CUDA 相当)と torch_npu により標準 PyTorch コードを昇腾バックエンドで実行できます。

指標数値
単卡スループット主流オープンソースモデルの2 倍
ハイパーノード訓練効率+30%
512K 長序列訓練スループット+50%
訓推一致率>99%(MoE の既知課題を大幅改善)
端側 30B 入端モデル推論速度 +50%、メモリ -20%、麒麟チップでオフライン実行可

Flash-Int8 量子化版も公開済みで、W4A8 量子化によりメモリ占有を 40% 削減、精度損失は 10% 未満です。

03

競合横断比較と選定判断

主要パラメータ比較

モデル総パラメータ活性化コンテキストライセンス訓練 HW開源度
openPangu 2.0 Pro505B18B512KopenPangu昇腾全链路(7 组件)
openPangu 2.0 Flash92B6B512KopenPangu昇腾全链路(7 组件)
DeepSeek V4 Pro1.6T約 200B128KMITNVIDIA重み+推論
Qwen 3.7 Max約 400B+可変128KApache 2.0NVIDIA重み+推論+一部訓練
Kimi K2.71T32B256KModified MITNVIDIA重み+推論
Llama 4 405B405B128KLlama LicenseNVIDIA重み+推論

能力マトリクス(アーキテクチャ推論)

能力次元openPangu ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
コード生成最高
複雑推論最高最高
ツール呼び出し/Agent最高
超長コンテキスト最高(512K)
推論効率最高
国産化・自主可控最高
warning

ベンチマーク免責事項:2026 年 7 月 1 日時点では独立第三者ベンチマークは未公開です。上記能力評価はアーキテクチャ推論に基づき、Hugging Face Open LLM Leaderboard 等の公式結果公開後に更新します。

シーン別選定早見表

シーン推奨理由
コード生成・複雑推論DeepSeek V4 Pro200B 活性化で性能リード
Agent・多ツール協調Kimi K2.7MCP エコシステムが充実
超長文書(>256K)openPangu 2.0 Pro512K コンテキスト最長級
信創・国産化コンプライアンスopenPangu 2.0NVIDIA 非依存の唯一のフロンティア級選択肢
昇腾/华为云環境openPangu 2.0ネイティブ最適化、2x スループット
低コストローカル推論openPangu 2.0 Flash6B 活性化、約 96GB UMA で試行可
04

取得とデプロイ:ModelArts API と GitCode 自ホスト

方案 A:华为云 ModelArts API

bash
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "MoE アーキテクチャを説明してください"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

方案 B:GitCode 自デプロイ(昇腾 910B 単卡 Flash)

bash
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

主要リポジトリ:GitCode Ascend TribeopenPangu-2.0-FlashopenPangu-2.0-Flash-Int8openPangu-2.0-InferopenPangu-2.0-Op

ハードウェア要件

バージョン推奨 HW最低構成備考
Flash(6B 活性化)単卡昇腾 910B約 96GB 統一メモリ大メモリ Mac でもコミュニティ試行可
Flash-Int8昇腾 Atlas A2約 48GB 显存精度損失 <10%
Pro(18B 活性化)4+ 卡昇腾 910Bマルチ卡クラスタ7 月重み公開後に検証
05

戦略的意義・HarmonyOS Agent・openPangu License

米国の先端 AI チップ輸出規制の下で、openPangu 2.0 は非 NVIDIA ハードウェアでフロンティア規模訓練を完了した初のオープンソース大モデルです。全链路开源により、研究者は訓練パイプラインを完全再現でき、企業は垂直領域の二次事前訓練が可能になります。

HarmonyOS 7 は Agent 時代に全面移行し、openPangu 2.0 はネイティブ AI エンジンとして複雑タスク実行成功率 90% 超を支えます。端側 30B モデルは麒麟チップのスマートフォンでオフライン推論が可能です。

openPangu License の要点

  • 商用利用可(Commercial Use Permitted)
  • ロイヤリティフリー(Royalty-free)
  • 非排他的(Non-exclusive)
  • 詳細条項は GitCode リポジトリの公式文書に従う

「NVIDIA なしでは大モデルは作れない」という前提に対する、実証に基づく反論です。

06

6 ステップ実装ガイドと NodeMini ハイブリッド算力

  1. 01

    华为云アカウント登録:ModelArts にアクセスし、AI Gallery で openPangu 2.0 を検索・購読します。

  2. 02

    API Endpoint 取得:上記 curl 形式で Flash を疎通確認し、レイテンシとトークン単価を記録します。

  3. 03

    GitCode から重み取得:Ascend Tribe から Flash 重みと openPangu-2.0-Infer をクローンします。

  4. 04

    昇腾環境セットアップ:CANN + torch_npu をインストールし、単卡 bf16 推論を検証します。

  5. 05

    Int8 量子化版を評価:メモリ制約環境では Flash-Int8 で品質とスループットのトレードオフを測定します。

  6. 06

    Pro 公開後にマルチ卡構成を計画:512K 長文書ワークロード向けに 8 卡分散推論をテストします。

  7. 07

    ハイブリッド実行ノードを固定:機密 prefill と長時間 CLI Agent は SSH 到達可能なクラウド Mac に配置。API はバースト処理に使い分けます。料金はレンタル価格、接続はヘルプセンターをご覧ください。

昇腾クラスタがないチームでも、96GB 統一メモリの Mac Mini クラウドで Flash-Int8 の試行や Agent パイプラインの prefill 分離が可能です。NodeMini は xcodebuild・Keychain・notarytool と AI Agent の長セッションを同一 SSH ノードで支えます。

FAQ

よくある質問

Flash は 92B 総パラメータ・6B 活性化で 2026 年 6 月 30 日に公開済みです。Pro は 505B 総パラメータ・18B 活性化で 7 月公開予定です。両方とも 512K コンテキストをサポートし、昇腾 910B で訓練されています。

コード生成・複雑推論では DeepSeek が依然リードします。512K 超長文書、信創コンプライアンス、昇腾 ネイティブ環境、全链路訓練コードの研究用途では openPangu 2.0 がほぼ唯一の選択肢です。

可能です。ModelArts API でバースト処理を担い、機密 prefill や長時間 Agent は SSH 到達可能なクラウド Mac に配置します。料金はレンタル価格、SSH 設定はヘルプセンターをご覧ください。

2026 年 7 月 1 日時点では独立第三者ベンチマークは未公開です。本記事の能力マトリクスはアーキテクチャ推論に基づき、公式結果公開後に数値を更新します。発表日:2026 年 7 月 1 日。