2026년 6월 30일, 화웨이는 HDC 2026에서 약속한 openPangu-2.0-Flash 모델 가중치·추론 코드·학습 연산자를 GitCode에 공개했습니다. 이는 NVIDIA GPU 없이 Ascend 910B NPU로 전규모 학습된 프론티어급 오픈소스 대형 언어 모델로서 업계 최초의 사례입니다. 본 글은 기술 의사결정자·Ascend 개발자·국산화 컴플라이언스 담당자를 위해 타임라인, Pro/Flash 사양, 7대 컴포넌트, mHC/Muon/ModAttn/DSA+SWA 아키텍처, 경쟁 비교, ModelArts API와 GitCode 자체 배포, 하드웨어 요건, 전략적 의미, openPangu License를 체계적으로 설명합니다.
2026년 6월 12일 동관 송산호에서 열린 화웨이 개발자 대회 HDC 2026에서 위청동이 기조연설을 통해 openPangu 2.0을 공식 발표했습니다. 이후 7대 컴포넌트가 단계적으로 공개되고 있습니다.
| 시기 | 이벤트 |
|---|---|
| 2026-06-12 | HDC 2026에서 openPangu 2.0 공식 발표 |
| 2026-06-30 | Flash 버전 가중치·추론 코드·학습 연산자 GitCode 공개 |
| 2026-07(예정) | Pro 버전 가중치·추론 코드 공개 |
| 2026 하반기(예정) | 사전학습 코드·후학습 코드·학습 연산자 등 추가 공개 |
| 버전 | 총 파라미터 | 활성 파라미터 | 스파스 비율 | 컨텍스트 | 상태 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 약 28:1 | 512K | 7월 공개 예정 |
| openPangu 2.0 Flash | 92B | 6B | 약 15:1 | 512K | 공개 완료 |
512K 컨텍스트는 『삼체』 1부 분량의 약 8권에 해당하는 텍스트를 한 번에 처리할 수 있는 규모입니다. Flash는 6B 활성화로 6B 밀집 모델에 가까운 추론 비용으로 92B 지식 풀에 접근할 수 있습니다.
모델 구조(아키텍처 정의)
모델 가중치(Flash는 6/30 공개, Pro는 7월 예정)
기술 보고서(가중치와 동기 공개)
추론 코드(기본 추론 + 학습 연산자)
사전학습 코드(하반기 예정)
후학습 코드(SFT/RLHF 지원, 하반기 예정)
학습 연산자(Ascend 고성능 커스텀 연산자, 하반기 예정)
일반 오픈소스 모델은 가중치와 추론 코드만 공개합니다. 사전학습·후학습 코드와 학습 연산자까지 포함한 풀스택 오픈소스는 초대규모 MoE에서 극히 드뭅니다.
openPangu 2.0은 Ascend 910B NPU로 전규모 학습되었으며 A100/H100은 사용하지 않았습니다. CANN(CUDA 상당)과 torch_npu로 표준 PyTorch 코드를 Ascend 백엔드에서 실행할 수 있습니다.
| 지표 | 수치 |
|---|---|
| 단카드 처리량 | 주류 오픈소스 모델의 2배 |
| 하이퍼노드 학습 효율 | +30% |
| 512K 장시퀀스 학습 처리량 | +50% |
| 학습-추론 일치율 | >99%(MoE의 알려진 과제를 크게 개선) |
| 엣지 30B 온디바이스 모델 | 추론 속도 +50%, 메모리 -20%, 기린 칩 오프라인 실행 가능 |
Flash-Int8 양자화 버전도 공개되었으며, W4A8 양자화로 메모리 점유 40% 감소, 정밀도 손실 10% 미만입니다.
| 모델 | 총 파라미터 | 활성화 | 컨텍스트 | 라이선스 | 학습 HW | 오픈 정도 |
|---|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | openPangu | Ascend | 풀스택(7대) |
| openPangu 2.0 Flash | 92B | 6B | 512K | openPangu | Ascend | 풀스택(7대) |
| DeepSeek V4 Pro | 1.6T | 약 200B | 128K | MIT | NVIDIA | 가중치+추론 |
| Qwen 3.7 Max | 약 400B+ | 가변 | 128K | Apache 2.0 | NVIDIA | 가중치+추론+일부 학습 |
| Kimi K2.7 | 1T | 32B | 256K | Modified MIT | NVIDIA | 가중치+추론 |
| Llama 4 405B | 405B | — | 128K | Llama License | NVIDIA | 가중치+추론 |
| 역량 차원 | openPangu Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| 코드 생성 | 중 | 최고 | 높음 | 높음 |
| 복잡 추론 | 중 | 최고 | 최고 | 높음 |
| 도구 호출/Agent | 높음 | 높음 | 높음 | 최고 |
| 초장 컨텍스트 | 최고(512K) | 중 | 중 | 높음 |
| 추론 효율 | 최고 | 낮음 | 낮음 | 높음 |
| 국산화·자주可控 | 최고 | 낮음 | 낮음 | 낮음 |
벤치마크 면책 조항: 2026년 7월 1일 기준 독립 제3자 벤치마크는 아직 공개되지 않았습니다. 위 역량 평가는 아키텍처 추론에 기반하며, Hugging Face Open LLM Leaderboard 등 공식 결과 공개 후 업데이트합니다.
| 시나리오 | 권장 | 이유 |
|---|---|---|
| 코드 생성·복잡 추론 | DeepSeek V4 Pro | 200B 활성화로 성능 리드 |
| Agent·다중 도구 협업 | Kimi K2.7 | MCP 생태계가 가장 성숙 |
| 초장문서(>256K) | openPangu 2.0 Pro | 512K 컨텍스트 최장급 |
| 국산화·자주可控 컴플라이언스 | openPangu 2.0 | NVIDIA 비의존 유일 프론티어급 선택지 |
| Ascend/화웨이 클라우드 환경 | openPangu 2.0 | 네이티브 최적화, 2배 처리량 |
| 저비용 로컬 추론 | openPangu 2.0 Flash | 6B 활성화, 약 96GB UMA에서 시험 가능 |
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "MoE 아키텍처를 설명해 주세요"}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
주요 저장소: GitCode Ascend Tribe의 openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op.
| 버전 | 권장 HW | 최소 구성 | 비고 |
|---|---|---|---|
| Flash(6B 활성화) | 단카드 Ascend 910B | 약 96GB 통합 메모리 | 대용량 Mac에서도 커뮤니티 시험 가능 |
| Flash-Int8 | Ascend Atlas A2 | 약 48GB VRAM | 정밀도 손실 <10% |
| Pro(18B 활성화) | 4+카드 Ascend 910B | 멀티카드 클러스터 | 7월 가중치 공개 후 검증 |
미국의 첨단 AI 칩 수출 규제 하에서 openPangu 2.0은 비 NVIDIA 하드웨어로 프론티어 규모 학습을 완료한 최초의 오픈소스 대형 모델입니다. 풀스택 오픈소스로 연구자는 학습 파이프라인을 완전 재현할 수 있고, 기업은 수직 영역의 2차 사전학습이 가능합니다.
HarmonyOS 7은 Agent 시대로 전면 전환하며, openPangu 2.0은 네이티브 AI 엔진으로 복잡 태스크 실행 성공률 90% 초과를 뒷받침합니다. 엣지 30B 모델은 기린 칩 스마트폰에서 오프라인 추론이 가능합니다.
「NVIDIA 없이는 대형 모델을 만들 수 없다」는 전제에 대한 실증 기반 반론입니다.
화웨이 클라우드 계정 등록: ModelArts에 접속해 AI Gallery에서 openPangu 2.0을 검색·구독합니다.
API Endpoint 획득: 위 curl 형식으로 Flash를 연결 확인하고 지연시간과 토큰 단가를 기록합니다.
GitCode에서 가중치 다운로드: Ascend Tribe에서 Flash 가중치와 openPangu-2.0-Infer를 클론합니다.
Ascend 환경 설정: CANN + torch_npu를 설치하고 단카드 bf16 추론을 검증합니다.
Int8 양자화 버전 평가: 메모리 제약 환경에서 Flash-Int8로 품질과 처리량 트레이드오프를 측정합니다.
Pro 공개 후 멀티카드 구성 계획: 512K 장문서 워크로드용 8카드 분산 추론을 테스트합니다.
하이브리드 실행 노드 고정: 민감 prefill과 장시간 CLI Agent는 SSH 접근 가능한 클라우드 Mac에 배치합니다. API는 버스트 처리에 활용합니다. 요금은대여 가격, 연결은헬프센터를 참고하세요.
Ascend 클러스터가 없는 팀도 96GB 통합 메모리 Mac Mini 클라우드에서 Flash-Int8 시험과 Agent 파이프라인 prefill 분리가 가능합니다. NodeMini는 xcodebuild·Keychain·notarytool과 AI Agent 장세션을 동일 SSH 노드에서 지원합니다.
Flash는 92B 총 파라미터, 6B 활성화로 2026년 6월 30일에 공개되었습니다. Pro는 505B 총 파라미터, 18B 활성화로 7월 공개 예정입니다. 둘 다 512K 컨텍스트를 지원하며 Ascend 910B로 학습되었습니다.
코드 생성·복잡 추론에서는 DeepSeek이 여전히 리드합니다. 512K 초장문서, 국산화 컴플라이언스, Ascend 네이티브 환경, 풀스택 학습 코드 연구 용도에서는 openPangu 2.0이 거의 유일한 선택지입니다.
2026년 7월 1일 기준 독립 제3자 벤치마크는 아직 공개되지 않았습니다. 본문의 역량 매트릭스는 아키텍처 추론에 기반하며, 공식 결과 공개 후 수치를 업데이트합니다. 발표일: 2026년 7월 1일.