Redis の作者 antirez(Salvatore Sanfilippo)が一週間で書き上げた約 1,000 行の C コード ds4(DwarfStar 4)が、DeepSeek V4 Flash を初めて本当に Mac ローカルで走らせます。公開から 3 週間も経たないうちに 11,500+ スター・30 名のコントリビューターを集めました。しかしハードウェアの壁も同じだけ硬く、96GB のユニファイドメモリが下限、128GB が快適点です。Mac Studio で言えば 50 万円超〜150 万円超の世界です。本稿は README の繰り返しではなく、3 つを掘り下げます:① ds4 はなぜ llama.cpp の単なるラッパーではないのか、② Apple Silicon UMA がなぜ Metal を第一バックエンドに決めるのか、③ ハイエンド Mac を買わずに、リモート高メモリ Mac ノードで今日のうちに ds4 を立ち上げる方法です。
ds4 は 2026-05-06 に公開され、3 週間足らずで 11,500+ スター・30 名のコントリビューターを獲得しました。ピュア C、MIT ライセンスです。ローカル推論を追っている開発者でこのニュースを見逃した人はほぼいません。しかし実際にビルドし、GGUF を取得し、サーバーを立ち上げた人は遥かに少ないのが現実です。理由は明確で、ds4 のハードウェア基準が大多数の Mac を弾くからです。以下の 6 つは、ds4 を試したい人がほぼ確実に遭遇する障害です。
標準構成の MacBook Pro はメモリが足りません。 14"/16" は 16/24/36GB が標準で、81GB の q2 重みすら載りません。
メモリ追加は安くありません。 64GB から 96GB / 128GB に進むには M3/M4/M5 Max の最上位構成が必要で、差額は十数万円から二十万円超に達します。
Mac Studio は気軽な買い物ではありません。 128GB Mac Studio は 50 万円台から始まり、V4 Pro を試すために 512GB を狙うと 150 万円超になります。個人開発者には現実的な負担ではありません。
Windows / Linux ワークステーションは回り道になります。 コンシューマー GPU の 24/32GB VRAM では ds4 の作業セットを保持できません。DGX Spark クラスの装置はコストと運用負荷が Mac より重くなります。
1 台のハイエンド Mac をチームで共有するのは面倒です。 常駐する ds4-server がメモリの大半を占有するため、複数人の利用は順番待ちとセッション状態の汚染を招きます。
半年後にはモデルが変わっている可能性があります。 ds4 自身がアルファ品質と明言し、DeepSeek V4 Flash もプレビューです。「新モデル試行」のために 150 万円の Mac を買うのは、減価リスクが高い投資です。
この 6 つを並べた結論は明確です:ソフトウェアは整いましたが、ハードウェアが追いついていません。ds4 は「Mac ローカルで DeepSeek V4 Flash を走らせる」を不可能から可能に変えました。「走らせられる」と「誰でも走らせられる」の間には、Mac Studio の請求書 1 枚分の距離が残っています。
ds4 の境界を理解することは、ds4 ができることを理解することと同じくらい重要です。antirez は README で 「汎用 GGUF ランナーではない、ラッパーではない、フレームワークでもない」と断言しています。やるのは一つだけ——DeepSeek V4 Flash を Metal と CUDA 上で正確かつ高速に走らせる——そしてその 1 点を極限まで磨きます。下表は ds4 と既知のローカル推論ツールを並べて、それぞれのトレードオフを示します。
| ツール | 対象モデル | 最適な用途 | 主な制約 |
|---|---|---|---|
| ds4 (DwarfStar 4) | DeepSeek V4 Flash 専用 | V4 Flash を Mac で最高速で走らせ、コーディングエージェントと長期利用 | 単一モデル、アルファ品質、96~128GB が前提 |
| llama.cpp | 主要 GGUF ほぼ全般 | 毎週モデルを差し替えたい、汎用性を重視 | V4 Flash 専用最適化と永続 KV では ds4 に及ばない |
| Ollama | 主流 GGUF + ワンライン取得 | チーム共有のローカルモデルを API 越しに | 速度と制御性は中庸、長文脈用途では不安定 |
| vLLM / SGLang | HuggingFace 重み全般 | クラウド多 GPU サービング、共有エンドポイント | 単一 Mac は第一目標ではない |
| クラウド API(DeepSeek 公式など) | フル精度 V4 Flash / Pro | ハードウェアを忘れ、品質を最優先 | データは外に出る、長セッションは prefill 込みで課金 |
ds4 の工学的な差別化は 3 つあります。第一は専用グラフ実行系で、V4 Flash のテンソル配置、トークナイザー、MoE ルーティングに合わせて書き切られ、汎用ランナーより速く動きます。第二は2-bit 非対称量子化で、誤差耐性のある層(ルーティング MoE エキスパート)に IQ2_XXS(ゲート)と Q2_K(ダウン)の積極的な低精度を充て、重要な層は高精度を維持します。結果として 81GB の q2 が 128GB UMA に収まり、ツール呼び出しも安定します。第三はディスク KV キャッシュで、トークン ID 列の SHA1 をキーに永続化し、セッション切替やサーバー再起動を越えて残ります。25k トークンの初回 prefill は一度しか払いません。
ds4 は「V4 Flash を Mac で走らせる」をスローガンから工学的経路に変えます。他の何もせず、この一点を Apple Silicon と CUDA で出せる極限まで磨くのです。
ds4 のバックエンド優先順位は意図的です。Metal が最優先、CUDA が続き(DGX Spark / GB10 に特に注力)、ROCm は別ブランチ、CPU は正確性確認専用です。この順序は Apple Silicon のユニファイドメモリアーキテクチャ(UMA, Unified Memory Architecture)に直結します。
Mac では CPU と GPU が同じ物理メモリを共有します。81GB の q2 GGUF をロードする際に「メインメモリ → VRAM」のフルコピーが不要で、テンソルは GPU から直接読まれます。活性値・KV 状態・トークナイザーバッファも同じアドレス空間に収まり、Metal カーネルがその場で操作できます。トークンごとに大規模なスパース専門家重みを叩く MoE 推論である ds4 にとって、このコピー削減は推論遅延の下限を直接下げます。
独立 GPU の経路はこれに追いつけません。32GB のコンシューマー GPU では作業セットが入らず、80GB H100 はデータセンター用の筐体と冷却を要します。「Mac を机に置く」というプロダクト形態でこれを再現するのは不可能です。だからこそ antirez は Metal を最優先に置き、CUDA の最適化を DGX Spark / GB10——ユニファイドメモリ形態を備えた NVIDIA プラットフォーム——に集中させているのです。目指すのはもう一つの推論フレームワークではなく、「大容量メモリを GPU が直接触れる」という現行コンシューマー唯一のプロダクト形態を限界まで使い切ることです。
# Apple Silicon Mac (96/128GB UMA) でゼロから ds4 をビルドして起動
git clone https://github.com/antirez/ds4.git
cd ds4
make # 既定で Metal バックエンド
# DeepSeek V4 Flash の q2-imatrix GGUF を取得 (~81GB を ./gguf/ へ)
./download_model.sh q2-imatrix
# サーバー起動:100k コンテキスト + 8GB ディスク KV キャッシュ
./ds4-server --ctx 100000 \
--kv-disk-dir /tmp/ds4-kv \
--kv-disk-space-mb 8192
# http://127.0.0.1:8000/v1/chat/completions で待ち受け(OpenAI 互換)
起動後は Claude Code / Cursor / opencode などのコーディングエージェントの OpenAI base URL を http://127.0.0.1:8000/v1 に向けるだけで、本機を出ない完全オフラインな V4 Flash 推論エンドポイントが手に入ります。権限境界も自然に本機内に収まります。
ハードウェアを買うか借りるかを決める前に、ds4 のメモリ計算を一度整理してください。q2 GGUF はディスク上で約 81GB です。ロード後の重み、活性値、トークナイザー状態、Metal バッファを合わせると 96GB UMA がコミュニティ報告の下限で、コンテキストを 250k まで押し上げた事例もあります。antirez が実際に推奨するのは 128GB です。コンテキストを 1M トークン(V4 シリーズの上限)に近づけるなら、indexer だけで約 22GB、合計で約 26GB が追加で必要になり、128GB の余裕は急速に減ります。128GB での実用域は 100〜300k トークンと考えてください。
| 形態 | UMA | ds4 (V4 Flash q2) を動かせるか | 実用コンテキスト幅 |
|---|---|---|---|
| MacBook Pro 標準(16〜36GB) | 16 / 24 / 36GB | 不可、重みが入らない | — |
| MacBook Pro 中構成(48〜64GB) | 48 / 64GB | 不可、重みでメモリが埋まる | — |
| MacBook Pro M3/M4/M5 Max 96GB | 96GB | ギリギリ可、他の重メモリを終了する必要 | コミュニティ報告で ~250k |
| Mac Studio / MacBook Pro 128GB | 128GB | 快適、エディタとエージェントの余裕あり | 100〜300k が安定 |
| Mac Studio M3 Ultra 256GB+ | 256GB+ | 十分、長セッション・永続 KV 同時稼働 | 1M トークンに肉薄可能 |
| Mac Studio M3 Ultra 512GB(V4 Pro 試行) | 512GB | 未対応——ds4 は Flash のみ | — |
ヒント:ディスク KV キャッシュが効果を発揮します。--kv-disk-dir を Mac 内蔵 SSD に向ければ、セッション切替・サーバー再起動・翌日の再利用までを通じて、数千トークン分の prefill が省けます。これが汎用推論サーバーとの最も本質的な体験差です。
注意:README には現行 macOS では CPU パスが仮想メモリ実装の問題でカーネルクラッシュを起こすと明記されています。必ず Metal バックエンドを使用し、macOS では make cpu を選ばないでください。これが ds4 のロードマップに Apple Silicon の CPU フォールバックが無い現実的な理由でもあります。
以下の数字は ds4 README、Hugging Face の DeepSeek-V4-Flash モデルカード、コミュニティ実測の組み合わせから抽出しました。一つの問いに答えます:「自分の Mac には何がどれだけ足りないか」です。
数字を意思決定に翻訳すると次の通りです。Mac Studio 最上位の購入は機能しますが高額で、90〜150 万円の資産をアルファエンジンとプレビューモデルに固定することになります。クラウド API はフル精度を得られますが、データが本機を離れ、長セッションは prefill ごとにトークン課金されます。エージェントと権限境界も手元から外れます。ds4 + V4 Flash のリアルなローカル推論を求めつつ、Mac の再販価値リスクに賭けたくない開発者には、NodeMini の Mac Mini クラウドレンタルが通常はより良い解です。SSH で即利用でき、使い終わったら停止、データは専有インスタンスから出ません。仕様と料金はレンタル価格ページ、課金詳細はSLA とコミットメントを参照してください。
以下は「ハイエンド Mac を買わずに ds4 + V4 Flash を立ち上げる」最小経路です。各ステップが前節で議論した制約に対応します。エンドツーエンドで 2 時間以内に、OpenAI 互換の V4 Flash エンドポイントを手元に得られます。
スペックは 128GB から逆算します。 2-bit 重み + 約 100k コンテキストには 128GB が快適点、1M に近づけるなら 256GB+ を選んでください。96GB で節約すると、IDE・エージェント・ブラウザが同時に動いた瞬間に破綻します。
NodeMini の高メモリ Mac ノードを開通します。 注文ページでメモリ・リージョン・期間を選びます。秒単位でプロビジョニングされ、SSH 鍵ペアが届いたら ssh user@host で接続します。
ノード上でクローン・依存導入・ビルドを実行します。 git clone https://github.com/antirez/ds4.git && cd ds4 && make。Apple Silicon では既定で Metal です。macOS では make cpu を試さないでください。README にカーネルクラッシュの警告が明記されています。
q2-imatrix GGUF を取得し、ディスク KV キャッシュを設定します。 同梱の download_model.sh で q2 / q2-imatrix / q4 を取得します。--kv-disk-dir はノード内蔵 SSD の固定パスに、--kv-disk-space-mb は 8〜32GB を指定して、ディスク KV を確実に効かせます。
ds4-server をコーディングエージェントに接続します。 ./ds4-server --ctx 200000 --kv-disk-dir ... --kv-disk-space-mb 16384 を起動し、Claude Code / Cursor / opencode の OpenAI base URL を http://127.0.0.1:8000/v1(SSH ポート転送経由を推奨、公開禁止)に向けます。OpenAI / Anthropic のツールプロトコルは ds4 がネイティブ対応します。
アクセス経路を固定します。 SSH 公開鍵 + Tailscale 等のプライベートトンネルでノードをゼロトラスト内網に収めます。使わない時は停止して課金停止、常時稼働なら launchd で起動時自動起動を設定し、永続 KV キャッシュと組み合わせれば「翌日もそのまま継続」が可能です。
この 6 ステップを終えてから Mac Studio 購入の選択肢を再考すると、3 つの実際的な制約が見えます:減価がアルファエンジンとプレビューモデルに固定される、本機で常駐すると日常業務とメモリを奪い合う、チーム共有は順番待ちに退化する、です。ds4 + V4 Flash を日常生産力として組み込みつつ、減価リスクをオンデマンドに分散したい開発者には、NodeMini の Mac Mini クラウドレンタルが通常はより良い解です。3 年 TCO の購入比較や24/7 クラウド Mac 自動化と方向性が一致します。接続詳細はヘルプセンターを参照してください。
現時点では動きません。ds4 は DeepSeek V4 Flash 専用エンジンです。Flash は総 284B・活性 13B、Pro は総 1.6T・活性 49B の MoE で、量子化後でも一般的な Mac の UMA に収まりません。Pro はクラウドの vLLM / SGLang が現実的な経路です。
96GB が文書上の下限です。コミュニティでは 96GB Mac で 2-bit 量子化、ときに 250k コンテキストまでの報告があります。エディタやエージェントを同時に走らせる日常運用では、antirez が推奨する 128GB が快適です。1M トークンに近づけるなら追加で約 26GB が必要です。安全策は 256GB+ ノードの選定で、レンタル価格ページを参照してください。
NodeMini の高メモリ Mac ノードを借りるのが最短経路です。SSH 接続後に git clone、make、GGUF ダウンロード、./ds4-server 起動でエンドツーエンド 2 時間以内に到達します。接続方法はヘルプセンター、常駐エージェントとの組み合わせは24/7 クラウド Mac 自動化を参照してください。