ds4로 DeepSeek V4 Pro도 돌릴 수 있습니까?

현재는 불가능합니다. ds4는 DeepSeek V4 Flash 전용 추론 엔진입니다. Flash는 총 284B·활성 13B, Pro는 총 1.6T·활성 49B의 MoE로 양자화 후에도 일반 Mac의 통합 메모리를 초과합니다. Pro는 단기적으로 클라우드 vLLM/SGLang에 의존하는 것이 현실적입니다.

96GB로 정말 돌아가나요? 아니면 128GB가 필수인가요?

저자는 96GB를 하한선으로 명시했습니다. 커뮤니티에는 96GB Mac에서 2-bit 양자화, 일부는 250k 컨텍스트까지 통과시킨 사례가 있습니다. 에이전트와 IDE를 함께 쓰는 일상 운영에서 antirez가 권장하는 수준은 128GB입니다. 1M 토큰에 근접하려면 indexer만으로 약 26GB가 추가로 필요합니다.

고사양 Mac이 없습니다. 가장 빨리 ds4를 써보려면?

NodeMini 고메모리 Mac 노드를 임대하는 것이 가장 빠른 경로입니다. SSH 접속 후 git clone, make, GGUF 다운로드, ./ds4-server 실행으로 마무리되며 전체 과정이 2시간을 넘지 않습니다. 사양과 요금은 NodeMini 임대 가격 페이지, 접속 방법은 헬프 센터를 참고하세요.

2026년 antirez의 ds4로 DeepSeek V4 Flash를 진짜 Mac 로컬에서
96GB UMA 벽, 디스크 KV 캐시, 원격 고메모리 Mac 돌파구

Redis의 창시자 antirez(Salvatore Sanfilippo)가 일주일 만에 작성한 약 1,000줄의 순수 C 코드 ds4(DwarfStar 4)가 DeepSeek V4 Flash를 처음으로 진짜 Mac 로컬에서 구동시킵니다. 공개 3주가 채 안 되어 11,500+ 스타·30명의 컨트리뷰터가 모였습니다. 그러나 하드웨어 벽도 그만큼 단단합니다. 96GB 통합 메모리가 하한선, 128GB가 편안한 지점이며, Mac Studio 기준 600만 원대에서 시작해 1,500만 원을 넘어갑니다. 본 글은 README를 반복하지 않고 세 가지를 깊이 다룹니다: ① ds4가 왜 또 하나의 llama.cpp 래퍼가 아닌지, ② Apple Silicon UMA가 왜 Metal을 최우선 백엔드로 결정짓는지, ③ 고사양 Mac을 사지 않고 원격 고메모리 Mac 노드로 오늘 ds4를 띄우는 방법.

3주 만에 11.5k 스타, 그 뒤편의 1,500만 원짜리 하드웨어 벽

ds4는 2026-05-06에 공개되어 3주가 채 안 되어 11,500+ 스타·30명의 컨트리뷰터를 모았습니다. 순수 C, MIT 라이선스입니다. 로컬 추론을 추적하는 개발자라면 이 뉴스를 놓치지 않았을 것입니다. 그러나 실제로 빌드하고, GGUF를 받고, 서버까지 띄운 사람은 스타 수에 비해 훨씬 적습니다. 이유는 명확합니다. ds4의 하드웨어 기준이 대부분의 Mac을 제외시키기 때문입니다. 아래 6가지는 ds4를 시도하려는 사람이 거의 반드시 부딪히는 장벽입니다.

01
기본 사양 MacBook Pro의 메모리가 부족합니다. 14"/16" 모델은 16/24/36GB 표준이라 81GB의 q2 가중치조차 적재되지 않습니다.
02
메모리 업그레이드는 저렴하지 않습니다. 64GB에서 96GB / 128GB로 가려면 M3/M4/M5 Max 최상위 구성이 필요하며 차액은 100만~200만 원대에 이릅니다.
03
Mac Studio는 가볍게 살 물건이 아닙니다. 128GB Mac Studio는 약 600만 원, V4 Pro를 시도하려고 512GB까지 가면 1,500만 원을 넘어갑니다. 독립 개발자에게는 현실적인 부담이 아닙니다.
04
Windows / Linux 워크스테이션 경로는 우회 길입니다. 컨슈머 GPU의 24/32GB VRAM으로는 ds4의 작업 세트를 담을 수 없습니다. DGX Spark급 장비는 비용과 운영 부담이 Mac보다 높습니다.
05
고사양 Mac 한 대를 팀에서 공유하기는 번거롭습니다. 상시 구동되는 ds4-server가 메모리 대부분을 점유해 다중 사용자는 대기열과 세션 오염을 부릅니다.
06
6개월 후 모델이 바뀔 수 있습니다. ds4 스스로 알파 품질이라 명시하고 DeepSeek V4 Flash도 프리뷰입니다. "새 모델 시연용"으로 1,500만 원짜리 Mac을 사는 것은 감가 위험이 큽니다.

여섯 가지를 모은 결론은 분명합니다. 소프트웨어는 준비됐지만 하드웨어가 따라오지 못했습니다. ds4는 "Mac에서 DeepSeek V4 Flash 로컬 구동"을 불가능에서 가능으로 옮겼습니다. "구동 가능"과 "누구나 구동 가능" 사이에는 Mac Studio 영수증 한 장의 거리가 남아 있습니다.

ds4는 또 하나의 llama.cpp가 아닙니다: 전용 설계 + 2-bit 비대칭 양자화 + 디스크 KV 캐시

ds4의 한계를 이해하는 것이 ds4가 무엇을 할 수 있는지 이해하는 것만큼 중요합니다. antirez는 README에서 매우 명확하게 적습니다: "범용 GGUF 러너가 아니다, 다른 런타임의 래퍼가 아니다, 프레임워크도 아니다". ds4는 단 하나만 합니다 — DeepSeek V4 Flash를 Metal과 CUDA에서 정확하고 빠르게 실행 — 그 한 가지를 극한까지 다듬습니다. 다음 표는 ds4를 익숙한 로컬 추론 도구들과 나란히 두고 각각의 트레이드오프를 보여줍니다.

도구	대상 모델	최적 용도	핵심 제약
ds4 (DwarfStar 4)	DeepSeek V4 Flash 전용	V4 Flash를 Mac에서 최고 속도로, 코딩 에이전트와 장기 사용	단일 모델, 알파 품질, 96~128GB 메모리 전제
llama.cpp	주요 GGUF 전반	매주 모델 교체, 범용성 중시	V4 Flash 전용 최적화와 영속 KV는 ds4에 못 미침
Ollama	주류 GGUF + 원라인 풀	팀 공용 로컬 모델을 API로 캡슐화	속도와 제어성은 중간, 긴 컨텍스트는 불안정
vLLM / SGLang	대부분 HuggingFace 가중치	클라우드 다중 GPU 서빙, 공유 엔드포인트	단일 Mac이 우선 대상 아님
클라우드 API(DeepSeek 공식 등)	풀 정밀도 V4 Flash / Pro	하드웨어 신경 끄고 최고 품질	데이터가 외부로 나감, 긴 세션은 토큰 단위 과금

ds4의 실제 엔지니어링 차별점은 세 가지입니다. 첫째, 전용 그래프 실행기로 V4 Flash의 텐서 배치·토크나이저·MoE 라우팅을 못 박아 작성하여 범용 러너보다 빠릅니다. 둘째, 2-bit 비대칭 양자화입니다. 라우팅 MoE 전문가처럼 오차에 관대한 레이어에는 IQ2_XXS(게이트)와 Q2_K(다운)의 공격적 저정밀을, 핵심 레이어에는 더 높은 정밀도를 유지합니다. 결과적으로 81GB의 q2 가중치가 128GB UMA에 들어가고 도구 호출도 안정적입니다. 셋째, 디스크 KV 캐시입니다. 토큰 ID 시퀀스의 SHA1을 키로 영속화되어 세션 전환과 서버 재시작을 넘어 살아남습니다. 25k 토큰의 초기 prefill은 단 한 번만 지불됩니다.

ds4는 "V4 Flash를 Mac에서"라는 슬로건을 엔지니어링 경로로 바꿉니다. 다른 모든 것을 하지 않고, 이 한 가지를 Apple Silicon과 CUDA가 낼 수 있는 한계까지 밀어붙입니다.

왜 Metal이 최우선 백엔드인가: Apple Silicon UMA는 다른 플랫폼이 따라올 수 없습니다

ds4의 백엔드 우선순위는 의도적입니다. Metal이 최우선, CUDA가 그다음(DGX Spark / GB10에 집중), ROCm은 별도 브랜치, CPU는 정확성 확인 전용입니다. 이 순서는 Apple Silicon의 통합 메모리 아키텍처(UMA, Unified Memory Architecture)와 직결됩니다.

Mac에서는 CPU와 GPU가 동일한 물리 메모리를 공유합니다. 81GB q2 GGUF를 로드할 때 "메인 메모리 → VRAM" 전체 복사가 불필요하고 텐서는 GPU가 직접 읽습니다. 활성값·KV 상태·토크나이저 버퍼가 같은 주소 공간에 있고 Metal 커널이 즉석에서 다룹니다. 토큰마다 거대한 희소 전문가 가중치를 건드리는 ds4의 MoE 추론에서, 이 복사 제거는 추론 지연의 하한을 직접 낮춥니다.

독립 GPU 경로는 이 수준을 맞출 수 없습니다. 32GB 컨슈머 GPU는 작업 세트조차 담지 못하고, 80GB H100은 데이터센터 섀시와 냉각이 필요합니다. "Mac을 책상에 둔다"는 제품 형태에서 이를 재현하는 것은 불가능합니다. 그래서 antirez는 Metal을 최우선에 두고 CUDA 최적화를 DGX Spark / GB10이라는 통합 메모리 형태의 NVIDIA 플랫폼에 집중합니다. 그가 추구하는 것은 또 다른 추론 프레임워크가 아니라, "대용량 메모리를 GPU가 직접 만질 수 있는" 현재 컨슈머 유일의 제품 형태를 최대한 활용하는 일입니다.

bash

# Apple Silicon Mac (96/128GB UMA)에서 ds4를 처음부터 빌드하고 기동
git clone https://github.com/antirez/ds4.git
cd ds4
make                        # 기본 Metal 백엔드

# DeepSeek V4 Flash q2-imatrix GGUF 다운로드 (~81GB → ./gguf/)
./download_model.sh q2-imatrix

# 서버 기동: 100k 컨텍스트 + 8GB 디스크 KV 캐시
./ds4-server --ctx 100000 \
             --kv-disk-dir /tmp/ds4-kv \
             --kv-disk-space-mb 8192
# http://127.0.0.1:8000/v1/chat/completions 리슨 (OpenAI 호환)

기동 후에는 Claude Code / Cursor / opencode 같은 코딩 에이전트의 OpenAI base URL을 http://127.0.0.1:8000/v1로 바꾸면 본기를 벗어나지 않는 완전 오프라인 V4 Flash 추론 엔드포인트가 손에 들어옵니다. 권한 경계도 자연스럽게 본기에 남습니다.

메모리 청구서의 진실: 96GB가 바닥, 128GB가 편안, 1M 컨텍스트는 추가 26GB

하드웨어 구매·임대 결정 전에 ds4의 메모리 계산을 다시 정리해 두세요. q2 GGUF는 디스크에 약 81GB로 자리잡고, 적재된 가중치에 활성값·토크나이저·Metal 버퍼를 더하면 96GB UMA가 커뮤니티 보고의 가용 하한입니다. 250k 컨텍스트까지 밀어 올린 사례도 있습니다. antirez가 실제 권장하는 수준은 128GB입니다. 컨텍스트를 1M 토큰(V4 시리즈 상한)에 가깝게 가져가려면 indexer만 약 22GB, 전체 KV는 약 26GB가 추가로 필요해 128GB가 빠듯해집니다. 128GB의 실용 영역은 100~300k 토큰으로 보세요.

형태	통합 메모리	ds4 (V4 Flash q2) 구동	실용 컨텍스트
MacBook Pro 표준(16~36GB)	16 / 24 / 36GB	불가, 가중치가 안 들어감	—
MacBook Pro 중간(48~64GB)	48 / 64GB	불가, 가중치가 메모리 점유	—
MacBook Pro M3/M4/M5 Max 96GB	96GB	겨우 가능, 다른 무거운 프로세스 종료 필요	커뮤니티 ~250k 보고
Mac Studio / MacBook Pro 128GB	128GB	편안, 에디터·에이전트 여유	100~300k 안정
Mac Studio M3 Ultra 256GB+	256GB+	충분, 긴 세션과 영속 KV 동시	1M 토큰 근접 가능
Mac Studio M3 Ultra 512GB(V4 Pro 시도)	512GB	미지원 — ds4는 Flash만	—

info

팁: 디스크 KV 캐시가 진가를 발휘합니다. --kv-disk-dir을 Mac 내장 SSD로 향하게 하면 세션 전환·서버 재시작·다음 날 재사용까지 수천 토큰 분량의 prefill이 절약됩니다. 범용 추론 서버와 가장 본질적으로 다른 사용자 경험입니다.

warning

주의: README는 현재 macOS의 CPU 경로가 가상 메모리 구현 문제로 커널 크래시를 일으킨다고 명시합니다. 반드시 Metal 백엔드를 사용하고 macOS에서는 make cpu를 선택하지 마세요. 이것이 ds4 로드맵에 Apple Silicon CPU 폴백이 없는 현실적 이유 중 하나입니다.

하드 데이터: 모델 규모·양자화 크기·하드웨어 벽

아래 숫자는 ds4 README, Hugging Face DeepSeek-V4-Flash 모델 카드, 커뮤니티 실측에서 추렸습니다. 한 질문에 답합니다: "내 Mac에는 무엇이 얼마나 부족한가".

데이터 1 · 모델 규모: DeepSeek-V4-Flash는 총 284B·활성 13B이고 네이티브 1M 토큰 컨텍스트입니다. V4-Pro는 총 1.6T·활성 49B. ds4는 당분간 Flash만 지원하며 Pro는 클라우드 vLLM / SGLang가 현실적입니다.
데이터 2 · 양자화 크기: 권장 q2-imatrix GGUF는 디스크 기준 약 81GB입니다. 핵심은 비대칭 분포로, 라우팅 MoE 전문가 게이트는 IQ2_XXS, 다운은 Q2_K, 중요 레이어는 더 높은 정밀도를 유지합니다. 96~128GB UMA에 담기고 도구 호출도 안정적입니다.
데이터 3 · 메모리 예산: 1M 토큰 컨텍스트는 약 26GB가 추가로 필요합니다(indexer만 ~22GB). 128GB에 가중치, KV, OS, 앱을 함께 담으면 실용 영역은 100~300k 토큰입니다.
데이터 4 · 하드웨어 비용: ds4를 편하게 구동할 수 있는 형태: 96GB MacBook Pro M3/M4/M5 Max 약 600만 원~, 128GB Mac Studio 약 600만 원~, 256GB Mac Studio Ultra 약 1,000만 원~, 512GB Mac Studio M3 Ultra 최상위 1,500만 원+. "새 모델 시연"에 드는 초기 자본입니다.
데이터 5 · 프로젝트 상태: 2026-05-06 생성, 2026-05-24 최신 푸시. 11,593 스타·30명·순수 C·MIT. 저자는 코드를 알파 품질로 표시했고 몇 달 내에 인터페이스와 가중치 포맷이 변동할 가능성이 있어, 이 스택을 위해 산 1,500만 원 Mac의 재판매 가치는 보장되지 않습니다.

숫자를 의사결정으로 옮기면 이렇습니다. Mac Studio 최상위 구매는 작동하지만 비쌉니다. 1,000만~1,500만 원의 자산을 알파 엔진과 프리뷰 모델에 묶어 둡니다. 클라우드 API는 풀 정밀도를 제공하지만 데이터가 본기를 떠나고 긴 세션은 prefill마다 토큰 단위 과금이며 에이전트와 권한 경계는 손에 남지 않습니다. ds4 + V4 Flash의 진짜 로컬 추론을 누리면서 Mac의 재판매 가치 위험에 베팅하고 싶지 않은 개발자에게는 NodeMini의 Mac Mini 클라우드 임대가 통상 더 나은 답입니다. SSH 즉시 사용, 사용 후 정지, 데이터는 전용 인스턴스 내부에 머뭅니다. 사양·요금은 임대 가격 페이지, 과금 세부는 SLA와 계약 포인트를 참고하세요.

실전: 원격 고메모리 Mac 노드로 오늘 ds4를 일상 추론으로 운용하는 6단계

아래 순서는 "고사양 Mac을 사지 않고 ds4 + V4 Flash를 띄우는" 최소 경로입니다. 각 단계가 앞에서 논한 제약에 대응합니다. 엔드 투 엔드 2시간 이내에 OpenAI 호환 V4 Flash 엔드포인트를 손에 얻을 수 있습니다.

01
스펙은 128GB부터 역산합니다. 2-bit 가중치 + 약 100k 컨텍스트는 128GB가 편안한 지점이고, 1M에 근접하려면 256GB+를 선택하세요. 96GB로 절약하면 IDE·에이전트·브라우저가 동시에 켜지는 순간 무너집니다.
02
NodeMini 고메모리 Mac 노드를 개통합니다. 주문 페이지에서 메모리·리전·기간을 선택합니다. 초 단위 프로비저닝, SSH 키 쌍 수령 후 ssh user@host로 접속합니다.
03
노드에서 클론·의존성·빌드를 진행합니다. git clone https://github.com/antirez/ds4.git && cd ds4 && make. Apple Silicon은 기본 Metal입니다. macOS에서는 make cpu를 시도하지 마세요. README가 커널 크래시 위험을 명시합니다.
04
q2-imatrix GGUF를 받고 디스크 KV 캐시를 설정합니다. 동봉된 download_model.sh로 q2 / q2-imatrix / q4 중 하나를 받습니다. --kv-disk-dir은 노드 내장 SSD의 고정 경로, --kv-disk-space-mb는 8~32GB로 두어 디스크 KV가 확실히 동작하게 합니다.
05
ds4-server를 코딩 에이전트에 연결합니다. ./ds4-server --ctx 200000 --kv-disk-dir ... --kv-disk-space-mb 16384로 기동한 뒤 Claude Code / Cursor / opencode의 OpenAI base URL을 http://127.0.0.1:8000/v1(SSH 포트 포워딩 권장, 공개 노출 금지)로 향하게 합니다. OpenAI / Anthropic 도구 프로토콜은 ds4가 네이티브로 지원합니다.
06
접근 토폴로지를 고정합니다. SSH 공개키 + Tailscale 같은 프라이빗 터널로 노드를 제로 트러스트 내부망에 둡니다. 사용하지 않을 때는 정지해 과금을 끊고, 상시 가동은 launchd로 부팅 자동 실행을 걸어 영속 KV 캐시와 함께 "다음 날도 그대로 이어 쓰기"가 가능합니다.

이 6단계를 마치고 Mac Studio 구매를 다시 보면 세 가지 실제 제약이 분명해집니다. 감가가 알파 엔진과 프리뷰 모델에 묶이고, 본기에서 ds4를 길게 돌리면 일상 업무와 메모리를 다투며, 팀이 한 대를 공유하면 대기열로 퇴화합니다. ds4 + V4 Flash를 일상 생산성 도구로 편입하면서 감가 위험을 온디맨드로 분산하고 싶은 개발자에게는 NodeMini의 Mac Mini 클라우드 임대가 통상 더 나은 답입니다. 3년 TCO 구매 비교나 24/7 클라우드 Mac 자동화와 방향성이 일치합니다. 접속 세부는 헬프 센터를 참고하세요.

FAQ

자주 묻는 질문

현재는 불가능합니다. ds4는 DeepSeek V4 Flash 전용 엔진입니다. Flash는 총 284B·활성 13B, Pro는 총 1.6T·활성 49B의 MoE로 양자화 후에도 일반 Mac의 UMA를 초과합니다. Pro는 클라우드의 vLLM 또는 SGLang이 현실적인 경로입니다.

96GB가 문서상 하한입니다. 커뮤니티에서는 96GB Mac에서 2-bit 양자화, 때로는 250k 컨텍스트까지 통과시킨 사례가 있습니다. 에디터·에이전트와 함께 쓰는 일상 운영에서는 antirez가 권장하는 128GB가 편안합니다. 1M 토큰에 근접하려면 추가로 약 26GB가 필요합니다. 안전한 선택은 256GB+ 노드이며 임대 가격 페이지를 참고하세요.

NodeMini의 고메모리 Mac 노드를 임대하는 것이 가장 빠른 경로입니다. SSH 접속 후 git clone, make, GGUF 다운로드, ./ds4-server 기동으로 엔드 투 엔드 2시간 이내에 도달합니다. 접속 방법은 헬프 센터, 상시 에이전트 조합 사례는 24/7 클라우드 Mac 자동화를 참고하세요.