NVIDIA GPU なしで本番デプロイできますか？

はい。openPangu 2.0 は昇腾 910B で全規模訓練され、CANN と torch_npu により PyTorch コードを昇腾バックエンドで実行できます。信創・国産化要件では唯一のフロンティア級選択肢です。

ローカル推論と API のハイブリッド構成は可能ですか？

可能です。機密 prefill や長時間 Agent は SSH 到達可能なクラウド Mac に配置し、ModelArts API はバースト処理に使えます。料金はレンタル価格ページ、接続はヘルプセンターをご覧ください。

ベンチマークスコアは信頼できますか？

2026 年 7 月 1 日時点では独立第三者ベンチマークは未公開です。本記事の能力評価はアーキテクチャ推論に基づき、公式結果公開後に更新します。

openPangu 2.0 オープンソース公開
昇腾 505B MoE・512K コンテキスト・7 大コンポーネント全链路开源

Q: openPangu 2.0 Flash と Pro の違いは何ですか？

Flash は 92B 総パラメータ・6B 活性化で 2026 年 6 月 30 日に公開済みです。Pro は 505B 総パラメータ・18B 活性化で 7 月公開予定です。両方とも 512K コンテキストをサポートします。

2026 年 6 月 30 日、华为は HDC 2026 の約束を果たし、openPangu-2.0-Flash のモデル重み・推論コード・訓推算子を GitCode に公開しました。これはNVIDIA GPU を一切使わず昇腾 910B NPU で全規模訓練されたフロンティア級オープンソース大モデルとして、業界初の事例です。本記事は技術責任者・昇腾開発者・信創コンプライアンス担当者向けに、タイムライン、Pro/Flash 仕様、7 大コンポーネント、mHC/Muon/ModAttn/DSA+SWA アーキテクチャ、競合比較、ModelArts API と GitCode 自デプロイ、ハードウェア要件、戦略的意義、openPangu Licenseを体系的に解説します。

イベント背景とタイムライン

2026 年 6 月 12 日、东莞松山湖で開催された华为开发者大会 HDC 2026 において、余承东氏が基調講演で openPangu 2.0 を正式発表しました。以降、7 大コンポーネントは段階的に公開されています。

時期	イベント
2026-06-12	HDC 2026 で openPangu 2.0 正式発表
2026-06-30	Flash 版重み・推論コード・訓推算子を GitCode に公開
2026-07（予定）	Pro 版重み・推論コード公開
2026 下半期（予定）	事前訓練コード・後訓練コード・訓練算子など追加公開

Pro と Flash の仕様比較

バージョン	総パラメータ	活性化パラメータ	スパース比	コンテキスト	状態
openPangu 2.0 Pro	505B	18B	約 28:1	512K	7 月公開予定
openPangu 2.0 Flash	92B	6B	約 15:1	512K	公開済み

512K コンテキストは、『三体』第一部相当の約 8 冊分のテキストを一度に処理できる規模です。Flash は 6B 活性化のため、6B 密モデルに近い推論コストで 92B の知識プールにアクセスできます。

技術深度：7 大コンポーネントとアーキテクチャ革新

7 大オープンソースコンポーネント

01
モデル構造（アーキテクチャ定義）
02
モデル重み（Flash は 6/30 公開済み、Pro は 7 月予定）
03
技術レポート（重みと同期公開）
04
推論コード（基本推論 + 訓推算子）
05
事前訓練コード（下半期予定）
06
後訓練コード（SFT/RLHF 対応、下半期予定）
07
訓練算子（昇腾高性能カスタム算子、下半期予定）

一般的なオープンソースモデルは重みと推論コードのみを公開します。事前訓練・後訓練コードと訓練算子まで含む全链路开源は、超大规模 MoE では極めて稀です。

アーキテクチャの核心技術

mHC（Multi-Head Combinatorial）ルーティング：エキスパート負荷不均衡を低減
Muon 最適化器：Microsoft 由来の二階モーメンタム最適化で訓練安定性を向上
ModAttn（Modular Attention）：モジュラー注意機構で 512K 長コンテキストに対応
DSA+SWA 超スパース注意（Flash 専用）：28:1 の極限スパース比を実現

昇腾訓練とハードウェア適合

openPangu 2.0 は昇腾 910B NPU で全規模訓練され、A100/H100 は使用していません。CANN（CUDA 相当）と torch_npu により標準 PyTorch コードを昇腾バックエンドで実行できます。

指標	数値
単卡スループット	主流オープンソースモデルの2 倍
ハイパーノード訓練効率	+30%
512K 長序列訓練スループット	+50%
訓推一致率	>99%（MoE の既知課題を大幅改善）
端側 30B 入端モデル	推論速度 +50%、メモリ -20%、麒麟チップでオフライン実行可

Flash-Int8 量子化版も公開済みで、W4A8 量子化によりメモリ占有を 40% 削減、精度損失は 10% 未満です。

競合横断比較と選定判断

主要パラメータ比較

モデル	総パラメータ	活性化	コンテキスト	ライセンス	訓練 HW	開源度
openPangu 2.0 Pro	505B	18B	512K	openPangu	昇腾	全链路（7 组件）
openPangu 2.0 Flash	92B	6B	512K	openPangu	昇腾	全链路（7 组件）
DeepSeek V4 Pro	1.6T	約 200B	128K	MIT	NVIDIA	重み+推論
Qwen 3.7 Max	約 400B+	可変	128K	Apache 2.0	NVIDIA	重み+推論+一部訓練
Kimi K2.7	1T	32B	256K	Modified MIT	NVIDIA	重み+推論
Llama 4 405B	405B	—	128K	Llama License	NVIDIA	重み+推論

能力マトリクス（アーキテクチャ推論）

能力次元	openPangu Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
コード生成	中	最高	高	高
複雑推論	中	最高	最高	高
ツール呼び出し/Agent	高	高	高	最高
超長コンテキスト	最高（512K）	中	中	高
推論効率	最高	低	低	高
国産化・自主可控	最高	低	低	低

warning

ベンチマーク免責事項：2026 年 7 月 1 日時点では独立第三者ベンチマークは未公開です。上記能力評価はアーキテクチャ推論に基づき、Hugging Face Open LLM Leaderboard 等の公式結果公開後に更新します。

シーン別選定早見表

シーン	推奨	理由
コード生成・複雑推論	DeepSeek V4 Pro	200B 活性化で性能リード
Agent・多ツール協調	Kimi K2.7	MCP エコシステムが充実
超長文書（>256K）	openPangu 2.0 Pro	512K コンテキスト最長級
信創・国産化コンプライアンス	openPangu 2.0	NVIDIA 非依存の唯一のフロンティア級選択肢
昇腾/华为云環境	openPangu 2.0	ネイティブ最適化、2x スループット
低コストローカル推論	openPangu 2.0 Flash	6B 活性化、約 96GB UMA で試行可

取得とデプロイ：ModelArts API と GitCode 自ホスト

方案 A：华为云 ModelArts API

bash

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "MoE アーキテクチャを説明してください"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

方案 B：GitCode 自デプロイ（昇腾 910B 単卡 Flash）

bash

python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

主要リポジトリ：GitCode Ascend Tribe の openPangu-2.0-Flash、openPangu-2.0-Flash-Int8、openPangu-2.0-Infer、openPangu-2.0-Op。

ハードウェア要件

バージョン	推奨 HW	最低構成	備考
Flash（6B 活性化）	単卡昇腾 910B	約 96GB 統一メモリ	大メモリ Mac でもコミュニティ試行可
Flash-Int8	昇腾 Atlas A2	約 48GB 显存	精度損失 <10%
Pro（18B 活性化）	4+ 卡昇腾 910B	マルチ卡クラスタ	7 月重み公開後に検証

戦略的意義・HarmonyOS Agent・openPangu License

米国の先端 AI チップ輸出規制の下で、openPangu 2.0 は非 NVIDIA ハードウェアでフロンティア規模訓練を完了した初のオープンソース大モデルです。全链路开源により、研究者は訓練パイプラインを完全再現でき、企業は垂直領域の二次事前訓練が可能になります。

HarmonyOS 7 は Agent 時代に全面移行し、openPangu 2.0 はネイティブ AI エンジンとして複雑タスク実行成功率 90% 超を支えます。端側 30B モデルは麒麟チップのスマートフォンでオフライン推論が可能です。

openPangu License の要点

商用利用可（Commercial Use Permitted）
ロイヤリティフリー（Royalty-free）
非排他的（Non-exclusive）
詳細条項は GitCode リポジトリの公式文書に従う

「NVIDIA なしでは大モデルは作れない」という前提に対する、実証に基づく反論です。

6 ステップ実装ガイドと NodeMini ハイブリッド算力

01
华为云アカウント登録：ModelArts にアクセスし、AI Gallery で openPangu 2.0 を検索・購読します。
02
API Endpoint 取得：上記 curl 形式で Flash を疎通確認し、レイテンシとトークン単価を記録します。
03
GitCode から重み取得：Ascend Tribe から Flash 重みと openPangu-2.0-Infer をクローンします。
04
昇腾環境セットアップ：CANN + torch_npu をインストールし、単卡 bf16 推論を検証します。
05
Int8 量子化版を評価：メモリ制約環境では Flash-Int8 で品質とスループットのトレードオフを測定します。
06
Pro 公開後にマルチ卡構成を計画：512K 長文書ワークロード向けに 8 卡分散推論をテストします。
07
ハイブリッド実行ノードを固定：機密 prefill と長時間 CLI Agent は SSH 到達可能なクラウド Mac に配置。API はバースト処理に使い分けます。料金はレンタル価格、接続はヘルプセンターをご覧ください。

昇腾クラスタがないチームでも、96GB 統一メモリの Mac Mini クラウドで Flash-Int8 の試行や Agent パイプラインの prefill 分離が可能です。NodeMini は xcodebuild・Keychain・notarytool と AI Agent の長セッションを同一 SSH ノードで支えます。

FAQ

よくある質問

Flash は 92B 総パラメータ・6B 活性化で 2026 年 6 月 30 日に公開済みです。Pro は 505B 総パラメータ・18B 活性化で 7 月公開予定です。両方とも 512K コンテキストをサポートし、昇腾 910B で訓練されています。

コード生成・複雑推論では DeepSeek が依然リードします。512K 超長文書、信創コンプライアンス、昇腾ネイティブ環境、全链路訓練コードの研究用途では openPangu 2.0 がほぼ唯一の選択肢です。

可能です。ModelArts API でバースト処理を担い、機密 prefill や長時間 Agent は SSH 到達可能なクラウド Mac に配置します。料金はレンタル価格、SSH 設定はヘルプセンターをご覧ください。

2026 年 7 月 1 日時点では独立第三者ベンチマークは未公開です。本記事の能力マトリクスはアーキテクチャ推論に基づき、公式結果公開後に数値を更新します。発表日：2026 年 7 月 1 日。