openPangu 2.0 오픈소스 공개
Ascend 505B MoE·512K 컨텍스트·7대 컴포넌트 풀스택 오픈소스

2026년 6월 30일, 화웨이는 HDC 2026에서 약속한 openPangu-2.0-Flash 모델 가중치·추론 코드·학습 연산자를 GitCode에 공개했습니다. 이는 NVIDIA GPU 없이 Ascend 910B NPU로 전규모 학습된 프론티어급 오픈소스 대형 언어 모델로서 업계 최초의 사례입니다. 본 글은 기술 의사결정자·Ascend 개발자·국산화 컴플라이언스 담당자를 위해 타임라인, Pro/Flash 사양, 7대 컴포넌트, mHC/Muon/ModAttn/DSA+SWA 아키텍처, 경쟁 비교, ModelArts API와 GitCode 자체 배포, 하드웨어 요건, 전략적 의미, openPangu License를 체계적으로 설명합니다.

01

이벤트 배경과 타임라인

2026년 6월 12일 동관 송산호에서 열린 화웨이 개발자 대회 HDC 2026에서 위청동이 기조연설을 통해 openPangu 2.0을 공식 발표했습니다. 이후 7대 컴포넌트가 단계적으로 공개되고 있습니다.

시기이벤트
2026-06-12HDC 2026에서 openPangu 2.0 공식 발표
2026-06-30Flash 버전 가중치·추론 코드·학습 연산자 GitCode 공개
2026-07(예정)Pro 버전 가중치·추론 코드 공개
2026 하반기(예정)사전학습 코드·후학습 코드·학습 연산자 등 추가 공개

Pro와 Flash 사양 비교

버전총 파라미터활성 파라미터스파스 비율컨텍스트상태
openPangu 2.0 Pro505B18B약 28:1512K7월 공개 예정
openPangu 2.0 Flash92B6B약 15:1512K공개 완료

512K 컨텍스트는 『삼체』 1부 분량의 약 8권에 해당하는 텍스트를 한 번에 처리할 수 있는 규모입니다. Flash는 6B 활성화로 6B 밀집 모델에 가까운 추론 비용으로 92B 지식 풀에 접근할 수 있습니다.

02

기술 심층: 7대 컴포넌트와 아키텍처 혁신

7대 오픈소스 컴포넌트

  1. 01

    모델 구조(아키텍처 정의)

  2. 02

    모델 가중치(Flash는 6/30 공개, Pro는 7월 예정)

  3. 03

    기술 보고서(가중치와 동기 공개)

  4. 04

    추론 코드(기본 추론 + 학습 연산자)

  5. 05

    사전학습 코드(하반기 예정)

  6. 06

    후학습 코드(SFT/RLHF 지원, 하반기 예정)

  7. 07

    학습 연산자(Ascend 고성능 커스텀 연산자, 하반기 예정)

일반 오픈소스 모델은 가중치와 추론 코드만 공개합니다. 사전학습·후학습 코드와 학습 연산자까지 포함한 풀스택 오픈소스는 초대규모 MoE에서 극히 드뭅니다.

아키텍처 핵심 기술

  • mHC(Multi-Head Combinatorial) 라우팅: 전문가 부하 불균형 완화
  • Muon 옵티마이저: Microsoft 기원의 2차 모멘텀 최적화로 학습 안정성 향상
  • ModAttn(Modular Attention): 모듈형 어텐션으로 512K 장컨텍스트 지원
  • DSA+SWA 초희소 어텐션(Flash 전용): 28:1 극한 스파스 비율 실현

Ascend 학습 및 하드웨어 적합

openPangu 2.0은 Ascend 910B NPU로 전규모 학습되었으며 A100/H100은 사용하지 않았습니다. CANN(CUDA 상당)과 torch_npu로 표준 PyTorch 코드를 Ascend 백엔드에서 실행할 수 있습니다.

지표수치
단카드 처리량주류 오픈소스 모델의 2배
하이퍼노드 학습 효율+30%
512K 장시퀀스 학습 처리량+50%
학습-추론 일치율>99%(MoE의 알려진 과제를 크게 개선)
엣지 30B 온디바이스 모델추론 속도 +50%, 메모리 -20%, 기린 칩 오프라인 실행 가능

Flash-Int8 양자화 버전도 공개되었으며, W4A8 양자화로 메모리 점유 40% 감소, 정밀도 손실 10% 미만입니다.

03

경쟁사 횡단 비교와 선정 판단

주요 파라미터 비교

모델총 파라미터활성화컨텍스트라이선스학습 HW오픈 정도
openPangu 2.0 Pro505B18B512KopenPanguAscend풀스택(7대)
openPangu 2.0 Flash92B6B512KopenPanguAscend풀스택(7대)
DeepSeek V4 Pro1.6T약 200B128KMITNVIDIA가중치+추론
Qwen 3.7 Max약 400B+가변128KApache 2.0NVIDIA가중치+추론+일부 학습
Kimi K2.71T32B256KModified MITNVIDIA가중치+추론
Llama 4 405B405B128KLlama LicenseNVIDIA가중치+추론

역량 매트릭스(아키텍처 추론)

역량 차원openPangu ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
코드 생성최고높음높음
복잡 추론최고최고높음
도구 호출/Agent높음높음높음최고
초장 컨텍스트최고(512K)높음
추론 효율최고낮음낮음높음
국산화·자주可控최고낮음낮음낮음
warning

벤치마크 면책 조항: 2026년 7월 1일 기준 독립 제3자 벤치마크는 아직 공개되지 않았습니다. 위 역량 평가는 아키텍처 추론에 기반하며, Hugging Face Open LLM Leaderboard 등 공식 결과 공개 후 업데이트합니다.

시나리오별 선정 가이드

시나리오권장이유
코드 생성·복잡 추론DeepSeek V4 Pro200B 활성화로 성능 리드
Agent·다중 도구 협업Kimi K2.7MCP 생태계가 가장 성숙
초장문서(>256K)openPangu 2.0 Pro512K 컨텍스트 최장급
국산화·자주可控 컴플라이언스openPangu 2.0NVIDIA 비의존 유일 프론티어급 선택지
Ascend/화웨이 클라우드 환경openPangu 2.0네이티브 최적화, 2배 처리량
저비용 로컬 추론openPangu 2.0 Flash6B 활성화, 약 96GB UMA에서 시험 가능
04

획득 및 배포: ModelArts API와 GitCode 자체 호스팅

방안 A: 화웨이 클라우드 ModelArts API

bash
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "MoE 아키텍처를 설명해 주세요"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

방안 B: GitCode 자체 배포(Ascend 910B 단카드 Flash)

bash
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

주요 저장소: GitCode Ascend TribeopenPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op.

하드웨어 요건

버전권장 HW최소 구성비고
Flash(6B 활성화)단카드 Ascend 910B약 96GB 통합 메모리대용량 Mac에서도 커뮤니티 시험 가능
Flash-Int8Ascend Atlas A2약 48GB VRAM정밀도 손실 <10%
Pro(18B 활성화)4+카드 Ascend 910B멀티카드 클러스터7월 가중치 공개 후 검증
05

전략적 의미·HarmonyOS Agent·openPangu License

미국의 첨단 AI 칩 수출 규제 하에서 openPangu 2.0은 비 NVIDIA 하드웨어로 프론티어 규모 학습을 완료한 최초의 오픈소스 대형 모델입니다. 풀스택 오픈소스로 연구자는 학습 파이프라인을 완전 재현할 수 있고, 기업은 수직 영역의 2차 사전학습이 가능합니다.

HarmonyOS 7은 Agent 시대로 전면 전환하며, openPangu 2.0은 네이티브 AI 엔진으로 복잡 태스크 실행 성공률 90% 초과를 뒷받침합니다. 엣지 30B 모델은 기린 칩 스마트폰에서 오프라인 추론이 가능합니다.

openPangu License 요약

  • 상업적 이용 허용(Commercial Use Permitted)
  • 로열티 프리(Royalty-free)
  • 비독점(Non-exclusive)
  • 세부 조항은 GitCode 저장소 공식 문서를 따릅니다

「NVIDIA 없이는 대형 모델을 만들 수 없다」는 전제에 대한 실증 기반 반론입니다.

06

6단계 구현 가이드와 NodeMini 하이브리드 연산

  1. 01

    화웨이 클라우드 계정 등록: ModelArts에 접속해 AI Gallery에서 openPangu 2.0을 검색·구독합니다.

  2. 02

    API Endpoint 획득: 위 curl 형식으로 Flash를 연결 확인하고 지연시간과 토큰 단가를 기록합니다.

  3. 03

    GitCode에서 가중치 다운로드: Ascend Tribe에서 Flash 가중치와 openPangu-2.0-Infer를 클론합니다.

  4. 04

    Ascend 환경 설정: CANN + torch_npu를 설치하고 단카드 bf16 추론을 검증합니다.

  5. 05

    Int8 양자화 버전 평가: 메모리 제약 환경에서 Flash-Int8로 품질과 처리량 트레이드오프를 측정합니다.

  6. 06

    Pro 공개 후 멀티카드 구성 계획: 512K 장문서 워크로드용 8카드 분산 추론을 테스트합니다.

  7. 07

    하이브리드 실행 노드 고정: 민감 prefill과 장시간 CLI Agent는 SSH 접근 가능한 클라우드 Mac에 배치합니다. API는 버스트 처리에 활용합니다. 요금은대여 가격, 연결은헬프센터를 참고하세요.

Ascend 클러스터가 없는 팀도 96GB 통합 메모리 Mac Mini 클라우드에서 Flash-Int8 시험과 Agent 파이프라인 prefill 분리가 가능합니다. NodeMini는 xcodebuild·Keychain·notarytool과 AI Agent 장세션을 동일 SSH 노드에서 지원합니다.

FAQ

자주 묻는 질문

Flash는 92B 총 파라미터, 6B 활성화로 2026년 6월 30일에 공개되었습니다. Pro는 505B 총 파라미터, 18B 활성화로 7월 공개 예정입니다. 둘 다 512K 컨텍스트를 지원하며 Ascend 910B로 학습되었습니다.

코드 생성·복잡 추론에서는 DeepSeek이 여전히 리드합니다. 512K 초장문서, 국산화 컴플라이언스, Ascend 네이티브 환경, 풀스택 학습 코드 연구 용도에서는 openPangu 2.0이 거의 유일한 선택지입니다.

가능합니다. ModelArts API로 버스트 처리를 담당하고, 민감 prefill과 장시간 Agent는 SSH 접근 가능한 클라우드 Mac에 배치합니다. 요금은대여 가격, SSH 설정은헬프센터를 참고하세요.

2026년 7월 1일 기준 독립 제3자 벤치마크는 아직 공개되지 않았습니다. 본문의 역량 매트릭스는 아키텍처 추론에 기반하며, 공식 결과 공개 후 수치를 업데이트합니다. 발표일: 2026년 7월 1일.