2026 年 6 月 30 日、华为は HDC 2026 の約束を果たし、openPangu-2.0-Flash のモデル重み・推論コード・訓推算子を GitCode に公開しました。これはNVIDIA GPU を一切使わず昇腾 910B NPU で全規模訓練されたフロンティア級オープンソース大モデルとして、業界初の事例です。本記事は技術責任者・昇腾開発者・信創コンプライアンス担当者向けに、タイムライン、Pro/Flash 仕様、7 大コンポーネント、mHC/Muon/ModAttn/DSA+SWA アーキテクチャ、競合比較、ModelArts API と GitCode 自デプロイ、ハードウェア要件、戦略的意義、openPangu Licenseを体系的に解説します。
2026 年 6 月 12 日、东莞松山湖で開催された华为开发者大会 HDC 2026 において、余承东氏が基調講演で openPangu 2.0 を正式発表しました。以降、7 大コンポーネントは段階的に公開されています。
| 時期 | イベント |
|---|---|
| 2026-06-12 | HDC 2026 で openPangu 2.0 正式発表 |
| 2026-06-30 | Flash 版重み・推論コード・訓推算子を GitCode に公開 |
| 2026-07(予定) | Pro 版重み・推論コード公開 |
| 2026 下半期(予定) | 事前訓練コード・後訓練コード・訓練算子など追加公開 |
| バージョン | 総パラメータ | 活性化パラメータ | スパース比 | コンテキスト | 状態 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 約 28:1 | 512K | 7 月公開予定 |
| openPangu 2.0 Flash | 92B | 6B | 約 15:1 | 512K | 公開済み |
512K コンテキストは、『三体』第一部相当の約 8 冊分のテキストを一度に処理できる規模です。Flash は 6B 活性化のため、6B 密モデルに近い推論コストで 92B の知識プールにアクセスできます。
モデル構造(アーキテクチャ定義)
モデル重み(Flash は 6/30 公開済み、Pro は 7 月予定)
技術レポート(重みと同期公開)
推論コード(基本推論 + 訓推算子)
事前訓練コード(下半期予定)
後訓練コード(SFT/RLHF 対応、下半期予定)
訓練算子(昇腾高性能カスタム算子、下半期予定)
一般的なオープンソースモデルは重みと推論コードのみを公開します。事前訓練・後訓練コードと訓練算子まで含む全链路开源は、超大规模 MoE では極めて稀です。
openPangu 2.0 は昇腾 910B NPU で全規模訓練され、A100/H100 は使用していません。CANN(CUDA 相当)と torch_npu により標準 PyTorch コードを昇腾バックエンドで実行できます。
| 指標 | 数値 |
|---|---|
| 単卡スループット | 主流オープンソースモデルの2 倍 |
| ハイパーノード訓練効率 | +30% |
| 512K 長序列訓練スループット | +50% |
| 訓推一致率 | >99%(MoE の既知課題を大幅改善) |
| 端側 30B 入端モデル | 推論速度 +50%、メモリ -20%、麒麟チップでオフライン実行可 |
Flash-Int8 量子化版も公開済みで、W4A8 量子化によりメモリ占有を 40% 削減、精度損失は 10% 未満です。
| モデル | 総パラメータ | 活性化 | コンテキスト | ライセンス | 訓練 HW | 開源度 |
|---|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | openPangu | 昇腾 | 全链路(7 组件) |
| openPangu 2.0 Flash | 92B | 6B | 512K | openPangu | 昇腾 | 全链路(7 组件) |
| DeepSeek V4 Pro | 1.6T | 約 200B | 128K | MIT | NVIDIA | 重み+推論 |
| Qwen 3.7 Max | 約 400B+ | 可変 | 128K | Apache 2.0 | NVIDIA | 重み+推論+一部訓練 |
| Kimi K2.7 | 1T | 32B | 256K | Modified MIT | NVIDIA | 重み+推論 |
| Llama 4 405B | 405B | — | 128K | Llama License | NVIDIA | 重み+推論 |
| 能力次元 | openPangu Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| コード生成 | 中 | 最高 | 高 | 高 |
| 複雑推論 | 中 | 最高 | 最高 | 高 |
| ツール呼び出し/Agent | 高 | 高 | 高 | 最高 |
| 超長コンテキスト | 最高(512K) | 中 | 中 | 高 |
| 推論効率 | 最高 | 低 | 低 | 高 |
| 国産化・自主可控 | 最高 | 低 | 低 | 低 |
ベンチマーク免責事項:2026 年 7 月 1 日時点では独立第三者ベンチマークは未公開です。上記能力評価はアーキテクチャ推論に基づき、Hugging Face Open LLM Leaderboard 等の公式結果公開後に更新します。
| シーン | 推奨 | 理由 |
|---|---|---|
| コード生成・複雑推論 | DeepSeek V4 Pro | 200B 活性化で性能リード |
| Agent・多ツール協調 | Kimi K2.7 | MCP エコシステムが充実 |
| 超長文書(>256K) | openPangu 2.0 Pro | 512K コンテキスト最長級 |
| 信創・国産化コンプライアンス | openPangu 2.0 | NVIDIA 非依存の唯一のフロンティア級選択肢 |
| 昇腾/华为云環境 | openPangu 2.0 | ネイティブ最適化、2x スループット |
| 低コストローカル推論 | openPangu 2.0 Flash | 6B 活性化、約 96GB UMA で試行可 |
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "MoE アーキテクチャを説明してください"}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
主要リポジトリ:GitCode Ascend Tribe の openPangu-2.0-Flash、openPangu-2.0-Flash-Int8、openPangu-2.0-Infer、openPangu-2.0-Op。
| バージョン | 推奨 HW | 最低構成 | 備考 |
|---|---|---|---|
| Flash(6B 活性化) | 単卡昇腾 910B | 約 96GB 統一メモリ | 大メモリ Mac でもコミュニティ試行可 |
| Flash-Int8 | 昇腾 Atlas A2 | 約 48GB 显存 | 精度損失 <10% |
| Pro(18B 活性化) | 4+ 卡昇腾 910B | マルチ卡クラスタ | 7 月重み公開後に検証 |
米国の先端 AI チップ輸出規制の下で、openPangu 2.0 は非 NVIDIA ハードウェアでフロンティア規模訓練を完了した初のオープンソース大モデルです。全链路开源により、研究者は訓練パイプラインを完全再現でき、企業は垂直領域の二次事前訓練が可能になります。
HarmonyOS 7 は Agent 時代に全面移行し、openPangu 2.0 はネイティブ AI エンジンとして複雑タスク実行成功率 90% 超を支えます。端側 30B モデルは麒麟チップのスマートフォンでオフライン推論が可能です。
「NVIDIA なしでは大モデルは作れない」という前提に対する、実証に基づく反論です。
华为云アカウント登録:ModelArts にアクセスし、AI Gallery で openPangu 2.0 を検索・購読します。
API Endpoint 取得:上記 curl 形式で Flash を疎通確認し、レイテンシとトークン単価を記録します。
GitCode から重み取得:Ascend Tribe から Flash 重みと openPangu-2.0-Infer をクローンします。
昇腾環境セットアップ:CANN + torch_npu をインストールし、単卡 bf16 推論を検証します。
Int8 量子化版を評価:メモリ制約環境では Flash-Int8 で品質とスループットのトレードオフを測定します。
Pro 公開後にマルチ卡構成を計画:512K 長文書ワークロード向けに 8 卡分散推論をテストします。
ハイブリッド実行ノードを固定:機密 prefill と長時間 CLI Agent は SSH 到達可能なクラウド Mac に配置。API はバースト処理に使い分けます。料金はレンタル価格、接続はヘルプセンターをご覧ください。
昇腾クラスタがないチームでも、96GB 統一メモリの Mac Mini クラウドで Flash-Int8 の試行や Agent パイプラインの prefill 分離が可能です。NodeMini は xcodebuild・Keychain・notarytool と AI Agent の長セッションを同一 SSH ノードで支えます。
Flash は 92B 総パラメータ・6B 活性化で 2026 年 6 月 30 日に公開済みです。Pro は 505B 総パラメータ・18B 活性化で 7 月公開予定です。両方とも 512K コンテキストをサポートし、昇腾 910B で訓練されています。
コード生成・複雑推論では DeepSeek が依然リードします。512K 超長文書、信創コンプライアンス、昇腾 ネイティブ環境、全链路訓練コードの研究用途では openPangu 2.0 がほぼ唯一の選択肢です。
2026 年 7 月 1 日時点では独立第三者ベンチマークは未公開です。本記事の能力マトリクスはアーキテクチャ推論に基づき、公式結果公開後に数値を更新します。発表日:2026 年 7 月 1 日。