openPangu 2.0 Flash와 Pro의 차이는 무엇입니까?

Flash는 92B 총 파라미터, 6B 활성화로 2026년 6월 30일 공개되었습니다. Pro는 505B 총 파라미터, 18B 활성화로 7월 공개 예정입니다. 둘 다 512K 컨텍스트를 지원합니다.

NVIDIA GPU 없이 프로덕션 배포가 가능합니까?

가능합니다. openPangu 2.0은 Ascend 910B에서 전규모 학습되었으며, CANN과 torch_npu로 PyTorch 코드를 Ascend 백엔드에서 실행할 수 있습니다. 국산화·자주可控 요건에서는 유일한 프론티어급 선택지입니다.

로컬 추론과 API 하이브리드 구성이 가능합니까?

가능합니다. 민감 prefill과 장시간 Agent는 SSH 접근 가능한 클라우드 Mac에 배치하고, ModelArts API는 버스트 처리에 사용합니다. 요금은 대여 가격 페이지, 연결은 헬프센터를 참고하세요.

벤치마크 점수를 신뢰할 수 있습니까?

2026년 7월 1일 기준 독립 제3자 벤치마크는 아직 공개되지 않았습니다. 본문의 역량 평가는 아키텍처 추론에 기반하며, 공식 결과 공개 후 업데이트합니다.

openPangu 2.0 오픈소스 공개
Ascend 505B MoE·512K 컨텍스트·7대 컴포넌트 풀스택 오픈소스

2026년 6월 30일, 화웨이는 HDC 2026에서 약속한 openPangu-2.0-Flash 모델 가중치·추론 코드·학습 연산자를 GitCode에 공개했습니다. 이는 NVIDIA GPU 없이 Ascend 910B NPU로 전규모 학습된 프론티어급 오픈소스 대형 언어 모델로서 업계 최초의 사례입니다. 본 글은 기술 의사결정자·Ascend 개발자·국산화 컴플라이언스 담당자를 위해 타임라인, Pro/Flash 사양, 7대 컴포넌트, mHC/Muon/ModAttn/DSA+SWA 아키텍처, 경쟁 비교, ModelArts API와 GitCode 자체 배포, 하드웨어 요건, 전략적 의미, openPangu License를 체계적으로 설명합니다.

이벤트 배경과 타임라인

2026년 6월 12일 동관 송산호에서 열린 화웨이 개발자 대회 HDC 2026에서 위청동이 기조연설을 통해 openPangu 2.0을 공식 발표했습니다. 이후 7대 컴포넌트가 단계적으로 공개되고 있습니다.

시기	이벤트
2026-06-12	HDC 2026에서 openPangu 2.0 공식 발표
2026-06-30	Flash 버전 가중치·추론 코드·학습 연산자 GitCode 공개
2026-07(예정)	Pro 버전 가중치·추론 코드 공개
2026 하반기(예정)	사전학습 코드·후학습 코드·학습 연산자 등 추가 공개

Pro와 Flash 사양 비교

버전	총 파라미터	활성 파라미터	스파스 비율	컨텍스트	상태
openPangu 2.0 Pro	505B	18B	약 28:1	512K	7월 공개 예정
openPangu 2.0 Flash	92B	6B	약 15:1	512K	공개 완료

512K 컨텍스트는 『삼체』 1부 분량의 약 8권에 해당하는 텍스트를 한 번에 처리할 수 있는 규모입니다. Flash는 6B 활성화로 6B 밀집 모델에 가까운 추론 비용으로 92B 지식 풀에 접근할 수 있습니다.

기술 심층: 7대 컴포넌트와 아키텍처 혁신

7대 오픈소스 컴포넌트

01
모델 구조(아키텍처 정의)
02
모델 가중치(Flash는 6/30 공개, Pro는 7월 예정)
03
기술 보고서(가중치와 동기 공개)
04
추론 코드(기본 추론 + 학습 연산자)
05
사전학습 코드(하반기 예정)
06
후학습 코드(SFT/RLHF 지원, 하반기 예정)
07
학습 연산자(Ascend 고성능 커스텀 연산자, 하반기 예정)

일반 오픈소스 모델은 가중치와 추론 코드만 공개합니다. 사전학습·후학습 코드와 학습 연산자까지 포함한 풀스택 오픈소스는 초대규모 MoE에서 극히 드뭅니다.

아키텍처 핵심 기술

mHC(Multi-Head Combinatorial) 라우팅: 전문가 부하 불균형 완화
Muon 옵티마이저: Microsoft 기원의 2차 모멘텀 최적화로 학습 안정성 향상
ModAttn(Modular Attention): 모듈형 어텐션으로 512K 장컨텍스트 지원
DSA+SWA 초희소 어텐션(Flash 전용): 28:1 극한 스파스 비율 실현

Ascend 학습 및 하드웨어 적합

openPangu 2.0은 Ascend 910B NPU로 전규모 학습되었으며 A100/H100은 사용하지 않았습니다. CANN(CUDA 상당)과 torch_npu로 표준 PyTorch 코드를 Ascend 백엔드에서 실행할 수 있습니다.

지표	수치
단카드 처리량	주류 오픈소스 모델의 2배
하이퍼노드 학습 효율	+30%
512K 장시퀀스 학습 처리량	+50%
학습-추론 일치율	>99%(MoE의 알려진 과제를 크게 개선)
엣지 30B 온디바이스 모델	추론 속도 +50%, 메모리 -20%, 기린 칩 오프라인 실행 가능

Flash-Int8 양자화 버전도 공개되었으며, W4A8 양자화로 메모리 점유 40% 감소, 정밀도 손실 10% 미만입니다.

경쟁사 횡단 비교와 선정 판단

주요 파라미터 비교

모델	총 파라미터	활성화	컨텍스트	라이선스	학습 HW	오픈 정도
openPangu 2.0 Pro	505B	18B	512K	openPangu	Ascend	풀스택(7대)
openPangu 2.0 Flash	92B	6B	512K	openPangu	Ascend	풀스택(7대)
DeepSeek V4 Pro	1.6T	약 200B	128K	MIT	NVIDIA	가중치+추론
Qwen 3.7 Max	약 400B+	가변	128K	Apache 2.0	NVIDIA	가중치+추론+일부 학습
Kimi K2.7	1T	32B	256K	Modified MIT	NVIDIA	가중치+추론
Llama 4 405B	405B	—	128K	Llama License	NVIDIA	가중치+추론

역량 매트릭스(아키텍처 추론)

역량 차원	openPangu Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
코드 생성	중	최고	높음	높음
복잡 추론	중	최고	최고	높음
도구 호출/Agent	높음	높음	높음	최고
초장 컨텍스트	최고(512K)	중	중	높음
추론 효율	최고	낮음	낮음	높음
국산화·자주可控	최고	낮음	낮음	낮음

warning

벤치마크 면책 조항: 2026년 7월 1일 기준 독립 제3자 벤치마크는 아직 공개되지 않았습니다. 위 역량 평가는 아키텍처 추론에 기반하며, Hugging Face Open LLM Leaderboard 등 공식 결과 공개 후 업데이트합니다.

시나리오별 선정 가이드

시나리오	권장	이유
코드 생성·복잡 추론	DeepSeek V4 Pro	200B 활성화로 성능 리드
Agent·다중 도구 협업	Kimi K2.7	MCP 생태계가 가장 성숙
초장문서(>256K)	openPangu 2.0 Pro	512K 컨텍스트 최장급
국산화·자주可控 컴플라이언스	openPangu 2.0	NVIDIA 비의존 유일 프론티어급 선택지
Ascend/화웨이 클라우드 환경	openPangu 2.0	네이티브 최적화, 2배 처리량
저비용 로컬 추론	openPangu 2.0 Flash	6B 활성화, 약 96GB UMA에서 시험 가능

획득 및 배포: ModelArts API와 GitCode 자체 호스팅

방안 A: 화웨이 클라우드 ModelArts API

bash

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "MoE 아키텍처를 설명해 주세요"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

방안 B: GitCode 자체 배포(Ascend 910B 단카드 Flash)

bash

python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

주요 저장소: GitCode Ascend Tribe의 openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op.

하드웨어 요건

버전	권장 HW	최소 구성	비고
Flash(6B 활성화)	단카드 Ascend 910B	약 96GB 통합 메모리	대용량 Mac에서도 커뮤니티 시험 가능
Flash-Int8	Ascend Atlas A2	약 48GB VRAM	정밀도 손실 <10%
Pro(18B 활성화)	4+카드 Ascend 910B	멀티카드 클러스터	7월 가중치 공개 후 검증

전략적 의미·HarmonyOS Agent·openPangu License

미국의 첨단 AI 칩 수출 규제 하에서 openPangu 2.0은 비 NVIDIA 하드웨어로 프론티어 규모 학습을 완료한 최초의 오픈소스 대형 모델입니다. 풀스택 오픈소스로 연구자는 학습 파이프라인을 완전 재현할 수 있고, 기업은 수직 영역의 2차 사전학습이 가능합니다.

HarmonyOS 7은 Agent 시대로 전면 전환하며, openPangu 2.0은 네이티브 AI 엔진으로 복잡 태스크 실행 성공률 90% 초과를 뒷받침합니다. 엣지 30B 모델은 기린 칩 스마트폰에서 오프라인 추론이 가능합니다.

openPangu License 요약

상업적 이용 허용(Commercial Use Permitted)
로열티 프리(Royalty-free)
비독점(Non-exclusive)
세부 조항은 GitCode 저장소 공식 문서를 따릅니다

「NVIDIA 없이는 대형 모델을 만들 수 없다」는 전제에 대한 실증 기반 반론입니다.

6단계 구현 가이드와 NodeMini 하이브리드 연산

01
화웨이 클라우드 계정 등록: ModelArts에 접속해 AI Gallery에서 openPangu 2.0을 검색·구독합니다.
02
API Endpoint 획득: 위 curl 형식으로 Flash를 연결 확인하고 지연시간과 토큰 단가를 기록합니다.
03
GitCode에서 가중치 다운로드: Ascend Tribe에서 Flash 가중치와 openPangu-2.0-Infer를 클론합니다.
04
Ascend 환경 설정: CANN + torch_npu를 설치하고 단카드 bf16 추론을 검증합니다.
05
Int8 양자화 버전 평가: 메모리 제약 환경에서 Flash-Int8로 품질과 처리량 트레이드오프를 측정합니다.
06
Pro 공개 후 멀티카드 구성 계획: 512K 장문서 워크로드용 8카드 분산 추론을 테스트합니다.
07
하이브리드 실행 노드 고정: 민감 prefill과 장시간 CLI Agent는 SSH 접근 가능한 클라우드 Mac에 배치합니다. API는 버스트 처리에 활용합니다. 요금은대여 가격, 연결은헬프센터를 참고하세요.

Ascend 클러스터가 없는 팀도 96GB 통합 메모리 Mac Mini 클라우드에서 Flash-Int8 시험과 Agent 파이프라인 prefill 분리가 가능합니다. NodeMini는 xcodebuild·Keychain·notarytool과 AI Agent 장세션을 동일 SSH 노드에서 지원합니다.

FAQ

자주 묻는 질문

Flash는 92B 총 파라미터, 6B 활성화로 2026년 6월 30일에 공개되었습니다. Pro는 505B 총 파라미터, 18B 활성화로 7월 공개 예정입니다. 둘 다 512K 컨텍스트를 지원하며 Ascend 910B로 학습되었습니다.

코드 생성·복잡 추론에서는 DeepSeek이 여전히 리드합니다. 512K 초장문서, 국산화 컴플라이언스, Ascend 네이티브 환경, 풀스택 학습 코드 연구 용도에서는 openPangu 2.0이 거의 유일한 선택지입니다.

가능합니다. ModelArts API로 버스트 처리를 담당하고, 민감 prefill과 장시간 Agent는 SSH 접근 가능한 클라우드 Mac에 배치합니다. 요금은대여 가격, SSH 설정은헬프센터를 참고하세요.

2026년 7월 1일 기준 독립 제3자 벤치마크는 아직 공개되지 않았습니다. 본문의 역량 매트릭스는 아키텍처 추론에 기반하며, 공식 결과 공개 후 수치를 업데이트합니다. 발표일: 2026년 7월 1일.