华为 openPangu 2.0 正式开源
505B MoE、512K 上下文与昇腾全链路开源

若你负责信创合规昇腾集群超长文档 Agent选型,2026 年 6 月 30 日华为兑现 HDC 承诺——openPangu-2.0-Flash 权重与推理代码上线 GitCode Ascend Tribe,成为全球首个全程无 NVIDIA、纯昇腾 910B 训练的前沿开源 MoE。本文面向技术决策者与开发者,拆解时间线、7 大开源组件、Pro/Flash 参数、架构创新、竞品矩阵、ModelArts API 与自部署命令,并给出六步落地清单与选型决策表。Pro(505B/18B 激活)规划 7 月上线,下半年将陆续开放预训练与后训练代码。

01

为什么开发者现在必须读懂 openPangu 2.0

HDC 2026(2026-06-12)余承东主题演讲后,Flash 版于 6 月 30 日正式开源——这不只是「又多了一个权重包」,而是训练硬件、上下文长度、开源深度三个维度同时改写选型假设。若仍按 2025 年「NVIDIA + 权重推理」框架决策,以下痛点会在 Q3 集中爆发。

  1. 01

    把「开源」等同于「权重 + inference」:多数前沿模型只开放权重与推理脚本;openPangu 2.0 规划7 大组件全链路开源(含下半年预训练、SFT/RLHF 后训练代码与昇腾算子),学术复现与垂直域二次预训练门槛将显著降低。

  2. 02

    忽视 512K 上下文对 Agent 架构的冲击:Pro 与 Flash 均支持 512K(约 8 本《三体》第一部篇幅),远超 DeepSeek/Qwen 的 128K 与 Kimi 的 256K——超长合同、完整代码库、小时级转录可单次注入,路由与缓存策略需重算。

  3. 03

    信创场景仍押注 NVIDIA 迁移路径:openPangu 2.0 是首个在非英伟达硬件上完成全规模训练的前沿 LLM,全程昇腾 910B,在美国出口管制背景下为国产化提供可验证样本。

  4. 04

    混淆 Flash 与 Pro 的激活参数量:Flash 为 92B 总参 / 6B 激活(稀疏比 ~15:1),Pro 为 505B / 18B 激活(~28:1)——高并发 API 与长文档旗舰是两条产品线,不可混用部署规格。

  5. 05

    低估昇腾原生吞吐优势:华为宣称单卡吞吐率为业界主流开源模型的 2 倍,训推一致率 >99%,在已有昇腾或 ModelArts 存量环境里,换模型比换硬件更划算。

  6. 06

    HarmonyOS Agent 与端侧 30B 被当作独立故事:openPangu 2.0 是 HarmonyOS 7 Agent 原生引擎底座,30B 入端模型已嵌入麒麟手机——端云一体选型需把 openPangu 纳入默认候选,而非事后补丁。

「在我余生的字典里,没有第二,只有第一。我们会从中国第一,走向将来的世界第一。」——余承东,HDC 2026

02

事件背景:HDC 2026 发布与开源时间线

2026 年 6 月 12 日,华为开发者大会 HDC 2026 在东莞松山湖举办,余承东在主题演讲中正式发布 openPangu 2.0。两周后,华为兑现首批开源承诺。

开源时间线

时间事件状态
2026-06-12HDC 2026 正式发布 openPangu 2.0(Pro + Flash 双版本)已发布
2026-06-30openPangu-2.0-Flash 模型权重、基础推理代码、训推算子上线 GitCode✅ 已开源
2026-07openPangu-2.0-Pro 模型权重与推理代码上线🔜 规划中
2026 下半年预训练代码、后训练代码(SFT/RLHF)、更多训练算子与数据处理工具📋 规划中

Pro vs Flash 核心参数

维度openPangu 2.0 ProopenPangu 2.0 Flash
总参数量505B92B
激活参数量18B6B
稀疏比~28:1~15:1
上下文窗口512K512K
权重开源2026 年 7 月(规划)2026-06-30 已上线
典型场景超长文档、复杂任务、二次预训练高并发 API、低成本本地推理

7 大开源组件(全链路规划)

  1. 1

    模型结构(架构定义)——已随 Flash 发布

  2. 2

    模型权重——Flash 6/30 已上线,Pro 7 月规划上线

  3. 3

    技术报告——随权重同步发布

  4. 4

    推理代码(基础推理 + 训推算子)——Flash 已上线

  5. 5

    预训练代码——2026 下半年发布

  6. 6

    后训练代码(SFT / RLHF)——2026 下半年发布

  7. 7

    训练算子(昇腾高性能自定义算子)——2026 下半年发布

info

含金量差异:业界常规只开放前四项(结构、权重、报告、推理);后三项在超大规模 MoE 中极为罕见,意味着可从零理解并复现前沿 MoE 训练全流程。

03

技术深度:MoE 架构、昇腾训练与开发者生态

openPangu 2.0 采用 MoE(混合专家)架构,在昇腾 910B 上完成全规模训练——训练管线中未使用任何 NVIDIA A100/H100。以下为核心技术创新与硬件适配要点。

架构创新

  • mHC(Multi-Head Combinatorial)路由:改进专家路由效率,降低 MoE 常见负载不均衡。
  • Muon 优化器:微软提出的二阶动量优化方案,提升大规模训练稳定性。
  • ModAttn(Modular Attention):模块化注意力,适配 512K 超长上下文。
  • DSA+SWA 超稀疏注意力(Flash 版):Flash 独有,配合 ~15:1 稀疏比,大幅降低推理算力——激活仅 6B 却可调阅 92B 知识池。
  • 512K 上下文:两版本统一支持,相当于一次处理约 8 本长篇小说、完整大型代码库或带附录的全文合同。

硬件与训练突破

指标数据说明
训练硬件昇腾 910B NPU全程无 NVIDIA,首个非英伟达前沿规模训练开源 LLM
单卡吞吐率约 2× 主流开源模型昇腾亲和架构推理优化
超节点训练效率+30%hyper-node 集群训练提升
512K 长序列训练+50% 吞吐率长上下文训练专项优化
训推一致性>99%MoE 模型常见痛点,极具工程价值
Flash-Int8 量化W4A8,内存 -40%精度损失 <10%(官方宣称)
端侧 Embedded30B 入端模型麒麟芯片手机离线运行,推理提速 50%,内存 -20%

开发者生态:CANN + torch_npu + ModelArts

软件栈基于 CANN(华为自研,类 CUDA)与 torch_npu(PyTorch 昇腾适配层)。标准 PyTorch 代码通过 import torch_npu 即可切换昇腾后端。部署路径分三路:

  • 云端 API:华为云 ModelArts AI Gallery 订阅,无需自管硬件。
  • 开源自部署:GitCode Ascend Tribe 下载权重与推理源码。
  • 端侧:鸿蒙原生集成,HarmonyOS 7 Agent 引擎底座。
warning

免责声明:本文部分能力评估为基于架构的推断性分析;独立第三方 benchmark 结果公布后将持续更新。发布日期:2026-07-01。

04

竞品横向对比、能力矩阵与选型决策

openPangu 2.0 并非所有维度上的「综合最强」——在代码与复杂推理上 DeepSeek V4 Pro 仍占优。但在上下文长度、国产化、昇腾效率与全链路开源上,它几乎无可替代。下表供技术决策者快速对照。

主要参数横向对比

模型总参数激活参数上下文训练硬件开源程度
openPangu 2.0 Pro505B18B512K昇腾 NPU全链路(7 组件)
openPangu 2.0 Flash92B6B512K昇腾 NPU全链路(7 组件)
DeepSeek V4 Pro1.6T~200B128KNVIDIA权重 + 推理
Qwen 3.7 Max~400B+因版本而异128KNVIDIA权重 + 推理 + 部分训练
Kimi K2.71T32B256KNVIDIA权重 + 推理
Llama 4 405B405B128KNVIDIA权重 + 推理

开源协议均为宽松商用:openPangu License(可商业使用、免版权费、非排他,具体条款以 GitCode 仓库为准)。DeepSeek 为 MIT,Qwen 为 Apache 2.0,Kimi 为 Modified MIT,Llama 为 Llama License。

能力矩阵评估

能力维度openPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
代码生成⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
复杂推理⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
工具调用 / Agent⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
超长上下文⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
推理效率⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
自主可控(国产化)⭐⭐⭐⭐⭐
全链路开源⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

选型决策树(场景速查)

你的主要场景推荐选择理由
代码生成 / 复杂推理DeepSeek V4 Pro~200B 激活参数,性能领先
Agent / 多工具协作Kimi K2.7MCP 生态最完善
超长文档(>256K Token)openPangu 2.0 Pro512K 上下文首选
国产化 / 信创 / 无 NVIDIAopenPangu 2.0唯一纯昇腾训练的前沿选项
昇腾 / 华为云环境openPangu 2.0原生优化,吞吐约 2×
端侧 / 手机部署openPangu Embedded(30B)麒麟芯片本地推理
低成本本地推理(有限显存)openPangu 2.0 Flash6B 激活,~96GB 统一内存可尝试
05

获取与部署:ModelArts API、GitCode 自托管与硬件需求

Flash 版已可立即使用。以下六步覆盖从云端 API 到昇腾集群自部署的完整路径,并附 curl 与 Python 推理命令。

六步落地清单

  1. 01

    注册华为云账号:访问 huaweicloud.com,完成实名认证与项目创建。

  2. 02

    订阅 ModelArts API(最快路径):进入 ModelArts → AI Gallery → 搜索「openPangu 2.0」,订阅 Flash 或 Pro,获取 API Endpoint 与 X-Auth-Token

  3. 03

    验证 Chat Completions 调用:用下方 curl 模板发送首条请求,确认延迟与配额。

  4. 04

    (可选)GitCode 下载权重:访问 Ascend Tribe 仓库——openPangu-2.0-FlashopenPangu-2.0-Flash-Int8openPangu-2.0-InferopenPangu-2.0-Op

  5. 05

    配置昇腾环境:安装 CANN + torch_npu,确认 npu-smi info 可见 910B 设备。

  6. 06

    运行推理或 LoRA 微调:Flash 单卡用 inference.py,Pro 多卡用 distributed_inference.py,领域适配用 finetune.py(见下方命令)。

方案一:ModelArts API(curl)

bash
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [
      {"role": "user", "content": "你好,请介绍一下你自己"}
    ],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

方案二:GitCode 自部署推理命令

Flash 单卡推理(昇腾 910B):

bash
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

Pro 多卡分布式推理:

bash
python distributed_inference.py \
  --model_path ./openPangu-Pro \
  --num_devices 8 \
  --context_length 512000

领域微调(LoRA 示例):

bash
python finetune.py \
  --model_path ./openPangu-Pro \
  --data_path ./domain_data \
  --output_dir ./fine_tuned_model \
  --method lora \
  --lora_rank 16

硬件需求参考

版本推荐硬件最低配置备注
Flash(6B 激活)单卡昇腾 910B~96GB 统一内存社区测试可在大内存系统运行
Flash-Int8单卡昇腾 Atlas A2~48GB 显存W4A8 量化,内存减少 40%
Pro(18B 激活)4+ 卡昇腾 910B多卡集群7 月权重上线后可验证
info

GitCode 主要仓库:openPangu-2.0-Flash(权重)、openPangu-2.0-Flash-Int8(量化版)、openPangu-2.0-Infer(推理源码)、openPangu-2.0-Op(昇腾算子)。入口:gitcode.com/org/ascend-tribe

06

战略意义、开源路线图与行业影响

在美国长期限制先进 AI 芯片对华出口的背景下,openPangu 2.0 的意义不止于「又一个 500B 模型」——它证明了无 NVIDIA 亦可完成前沿规模训练,并以 7 大组件推动昇腾生态从「能跑推理」走向「能复现训练」。

地缘政治与全链路开源价值

业界绝大多数开源大模型只开放权重与推理代码。openPangu 2.0 规划开放的预训练与后训练代码,使研究者能完整复现训练流程,企业可基于专有数据做垂直域二次预训练,同时降低开发者使用昇腾算力的门槛——这是国产 AI 硬件生态的关键一环。

HarmonyOS 7 Agent 底座

openPangu 2.0 是华为完整 AI 战略的核心:HarmonyOS 7 全面进入 Agent 智能时代,鸿蒙智能体框架 2.0 复杂任务执行成功率 >90%,依托 openPangu 加持;端侧 30B 模型实现手机本地大模型运行,无需联网。

openPangu License

  • 可商业使用(Commercial Use Permitted)
  • 免版权费(Royalty-free)
  • 非排他性(Non-exclusive)
  • 需遵守 GitCode 仓库公示的使用条款

开源路线图

时间节点交付内容状态
2026-06-30Flash 权重 + 推理代码 + 训推算子✅ 已交付
2026-07Pro 权重 + 推理代码🔜 规划中
2026 下半年预训练代码、后训练代码、更多算子与数据处理工具📋 规划中
info

可引用硬核数据:① 全球首个无 NVIDIA前沿规模训练开源 LLM。② 双版本统一 512K 上下文(约 8 本长篇)。③ 昇腾单卡吞吐约 、训推一致率 >99%、512K 训练吞吐 +50%、超节点效率 +30%。④ Flash-Int8 W4A8 内存 -40%。撰写时请以 GitCode 与华为官方公告为准更新状态。

对需要同时集成 openPangu ModelArts API 与本地 Agent 工具链的团队而言,纯笔电合盖睡眠或廉价 Linux VPS 难以承接 12 小时以上的 CLI Agent 循环,也无法运行 xcodebuild、notarytool 等 macOS 工具链。把 ModelArts 弹性推理与稳定 SSH 长会话执行层拆开:API 负责峰值,独占云端 Mac 负责长任务与 iOS CI/CD。NodeMini Mac Mini 云端租赁可作为 Agent 执行层——更换 API Key 或模型端点时,SSH 节点与 CI 标签可保持不变。规格见 租赁价格说明,接入流程见 帮助中心,算力即时开通见 算力订购

FAQ

常见问题

Flash(92B 总参 / 6B 激活,稀疏比约 15:1)已于 2026-06-30 开源,适合低成本高并发 API;Pro(505B / 18B 激活,稀疏比约 28:1)规划 2026 年 7 月 上线,面向超长文档与复杂任务。两版本均支持 512K 上下文。若需对比固定月成本与 Agent 执行层,可参考 租赁价格说明

最快路径:华为云 ModelArts → AI Gallery → 订阅 openPangu 2.0,用标准 Chat Completions curl 调用。自部署:从 GitCode Ascend Tribe 下载 Flash 权重与 openPangu-2.0-Infer,单卡运行 inference.py --device npu:0;Pro 多卡使用 distributed_inference.py。环境需 CANN + torch_npu。

代码生成与复杂推理优先 DeepSeek V4 Pro(约 200B 激活参数);超长文档(>256K)、信创合规、昇腾原生部署或需全链路训练代码复现时,openPangu 2.0 几乎无可替代。注意:第三方 benchmark 尚在评测,能力矩阵部分为架构推断,结果公布后本文将更新。

ModelArts / OpenRouter 等多模型网关负责弹性路由与账单跟踪;长会话 CLI Agent、敏感 prefill 与 iOS CI 宜放在 SSH 独占云端 Mac 上固定月成本。接入与密钥配置见 帮助中心;闭源或云端 API 仍走 HTTP,本地节点降低对外部账单的依赖与合盖中断风险。