2026 年 antirez の ds4 が DeepSeek V4 Flash を Mac ローカルで走らせる
96GB UMA の壁、ディスク KV キャッシュ、リモート高メモリ Mac という突破路

Redis の作者 antirez(Salvatore Sanfilippo)が一週間で書き上げた約 1,000 行の C コード ds4(DwarfStar 4)が、DeepSeek V4 Flash を初めて本当に Mac ローカルで走らせます。公開から 3 週間も経たないうちに 11,500+ スター・30 名のコントリビューターを集めました。しかしハードウェアの壁も同じだけ硬く、96GB のユニファイドメモリが下限、128GB が快適点です。Mac Studio で言えば 50 万円超〜150 万円超の世界です。本稿は README の繰り返しではなく、3 つを掘り下げます:① ds4 はなぜ llama.cpp の単なるラッパーではないのか、② Apple Silicon UMA がなぜ Metal を第一バックエンドに決めるのか、③ ハイエンド Mac を買わずに、リモート高メモリ Mac ノードで今日のうちに ds4 を立ち上げる方法です。

01

3 週間で 11.5k スター、その裏には 100 万円超のハードウェア壁があります

ds4 は 2026-05-06 に公開され、3 週間足らずで 11,500+ スター・30 名のコントリビューターを獲得しました。ピュア C、MIT ライセンスです。ローカル推論を追っている開発者でこのニュースを見逃した人はほぼいません。しかし実際にビルドし、GGUF を取得し、サーバーを立ち上げた人は遥かに少ないのが現実です。理由は明確で、ds4 のハードウェア基準が大多数の Mac を弾くからです。以下の 6 つは、ds4 を試したい人がほぼ確実に遭遇する障害です。

  1. 01

    標準構成の MacBook Pro はメモリが足りません。 14"/16" は 16/24/36GB が標準で、81GB の q2 重みすら載りません。

  2. 02

    メモリ追加は安くありません。 64GB から 96GB / 128GB に進むには M3/M4/M5 Max の最上位構成が必要で、差額は十数万円から二十万円超に達します。

  3. 03

    Mac Studio は気軽な買い物ではありません。 128GB Mac Studio は 50 万円台から始まり、V4 Pro を試すために 512GB を狙うと 150 万円超になります。個人開発者には現実的な負担ではありません。

  4. 04

    Windows / Linux ワークステーションは回り道になります。 コンシューマー GPU の 24/32GB VRAM では ds4 の作業セットを保持できません。DGX Spark クラスの装置はコストと運用負荷が Mac より重くなります。

  5. 05

    1 台のハイエンド Mac をチームで共有するのは面倒です。 常駐する ds4-server がメモリの大半を占有するため、複数人の利用は順番待ちとセッション状態の汚染を招きます。

  6. 06

    半年後にはモデルが変わっている可能性があります。 ds4 自身がアルファ品質と明言し、DeepSeek V4 Flash もプレビューです。「新モデル試行」のために 150 万円の Mac を買うのは、減価リスクが高い投資です。

この 6 つを並べた結論は明確です:ソフトウェアは整いましたが、ハードウェアが追いついていません。ds4 は「Mac ローカルで DeepSeek V4 Flash を走らせる」を不可能から可能に変えました。「走らせられる」と「誰でも走らせられる」の間には、Mac Studio の請求書 1 枚分の距離が残っています。

02

ds4 は llama.cpp の焼き直しではありません:専用設計 + 2-bit 非対称量子化 + ディスク KV キャッシュ

ds4 の境界を理解することは、ds4 ができることを理解することと同じくらい重要です。antirez は README で 「汎用 GGUF ランナーではない、ラッパーではない、フレームワークでもない」と断言しています。やるのは一つだけ——DeepSeek V4 Flash を Metal と CUDA 上で正確かつ高速に走らせる——そしてその 1 点を極限まで磨きます。下表は ds4 と既知のローカル推論ツールを並べて、それぞれのトレードオフを示します。

ツール対象モデル最適な用途主な制約
ds4 (DwarfStar 4)DeepSeek V4 Flash 専用V4 Flash を Mac で最高速で走らせ、コーディングエージェントと長期利用単一モデル、アルファ品質、96~128GB が前提
llama.cpp主要 GGUF ほぼ全般毎週モデルを差し替えたい、汎用性を重視V4 Flash 専用最適化と永続 KV では ds4 に及ばない
Ollama主流 GGUF + ワンライン取得チーム共有のローカルモデルを API 越しに速度と制御性は中庸、長文脈用途では不安定
vLLM / SGLangHuggingFace 重み全般クラウド多 GPU サービング、共有エンドポイント単一 Mac は第一目標ではない
クラウド API(DeepSeek 公式など)フル精度 V4 Flash / Proハードウェアを忘れ、品質を最優先データは外に出る、長セッションは prefill 込みで課金

ds4 の工学的な差別化は 3 つあります。第一は専用グラフ実行系で、V4 Flash のテンソル配置、トークナイザー、MoE ルーティングに合わせて書き切られ、汎用ランナーより速く動きます。第二は2-bit 非対称量子化で、誤差耐性のある層(ルーティング MoE エキスパート)に IQ2_XXS(ゲート)と Q2_K(ダウン)の積極的な低精度を充て、重要な層は高精度を維持します。結果として 81GB の q2 が 128GB UMA に収まり、ツール呼び出しも安定します。第三はディスク KV キャッシュで、トークン ID 列の SHA1 をキーに永続化し、セッション切替やサーバー再起動を越えて残ります。25k トークンの初回 prefill は一度しか払いません。

ds4 は「V4 Flash を Mac で走らせる」をスローガンから工学的経路に変えます。他の何もせず、この一点を Apple Silicon と CUDA で出せる極限まで磨くのです。

03

なぜ Metal が第一バックエンドなのか:Apple Silicon UMA は他プラットフォームに真似できない

ds4 のバックエンド優先順位は意図的です。Metal が最優先、CUDA が続き(DGX Spark / GB10 に特に注力)、ROCm は別ブランチ、CPU は正確性確認専用です。この順序は Apple Silicon のユニファイドメモリアーキテクチャ(UMA, Unified Memory Architecture)に直結します。

Mac では CPU と GPU が同じ物理メモリを共有します。81GB の q2 GGUF をロードする際に「メインメモリ → VRAM」のフルコピーが不要で、テンソルは GPU から直接読まれます。活性値・KV 状態・トークナイザーバッファも同じアドレス空間に収まり、Metal カーネルがその場で操作できます。トークンごとに大規模なスパース専門家重みを叩く MoE 推論である ds4 にとって、このコピー削減は推論遅延の下限を直接下げます。

独立 GPU の経路はこれに追いつけません。32GB のコンシューマー GPU では作業セットが入らず、80GB H100 はデータセンター用の筐体と冷却を要します。「Mac を机に置く」というプロダクト形態でこれを再現するのは不可能です。だからこそ antirez は Metal を最優先に置き、CUDA の最適化を DGX Spark / GB10——ユニファイドメモリ形態を備えた NVIDIA プラットフォーム——に集中させているのです。目指すのはもう一つの推論フレームワークではなく、「大容量メモリを GPU が直接触れる」という現行コンシューマー唯一のプロダクト形態を限界まで使い切ることです。

bash
# Apple Silicon Mac (96/128GB UMA) でゼロから ds4 をビルドして起動
git clone https://github.com/antirez/ds4.git
cd ds4
make                        # 既定で Metal バックエンド

# DeepSeek V4 Flash の q2-imatrix GGUF を取得 (~81GB を ./gguf/ へ)
./download_model.sh q2-imatrix

# サーバー起動:100k コンテキスト + 8GB ディスク KV キャッシュ
./ds4-server --ctx 100000 \
             --kv-disk-dir /tmp/ds4-kv \
             --kv-disk-space-mb 8192
# http://127.0.0.1:8000/v1/chat/completions で待ち受け(OpenAI 互換)

起動後は Claude Code / Cursor / opencode などのコーディングエージェントの OpenAI base URL を http://127.0.0.1:8000/v1 に向けるだけで、本機を出ない完全オフラインな V4 Flash 推論エンドポイントが手に入ります。権限境界も自然に本機内に収まります。

04

メモリ計算書の真実:96GB は下限、128GB が快適点、1M コンテキストは追加で 26GB

ハードウェアを買うか借りるかを決める前に、ds4 のメモリ計算を一度整理してください。q2 GGUF はディスク上で約 81GB です。ロード後の重み、活性値、トークナイザー状態、Metal バッファを合わせると 96GB UMA がコミュニティ報告の下限で、コンテキストを 250k まで押し上げた事例もあります。antirez が実際に推奨するのは 128GB です。コンテキストを 1M トークン(V4 シリーズの上限)に近づけるなら、indexer だけで約 22GB、合計で約 26GB が追加で必要になり、128GB の余裕は急速に減ります。128GB での実用域は 100〜300k トークンと考えてください。

形態UMAds4 (V4 Flash q2) を動かせるか実用コンテキスト幅
MacBook Pro 標準(16〜36GB)16 / 24 / 36GB不可、重みが入らない
MacBook Pro 中構成(48〜64GB)48 / 64GB不可、重みでメモリが埋まる
MacBook Pro M3/M4/M5 Max 96GB96GBギリギリ可、他の重メモリを終了する必要コミュニティ報告で ~250k
Mac Studio / MacBook Pro 128GB128GB快適、エディタとエージェントの余裕あり100〜300k が安定
Mac Studio M3 Ultra 256GB+256GB+十分、長セッション・永続 KV 同時稼働1M トークンに肉薄可能
Mac Studio M3 Ultra 512GB(V4 Pro 試行)512GB未対応——ds4 は Flash のみ
info

ヒント:ディスク KV キャッシュが効果を発揮します。--kv-disk-dir を Mac 内蔵 SSD に向ければ、セッション切替・サーバー再起動・翌日の再利用までを通じて、数千トークン分の prefill が省けます。これが汎用推論サーバーとの最も本質的な体験差です。

warning

注意:README には現行 macOS では CPU パスが仮想メモリ実装の問題でカーネルクラッシュを起こすと明記されています。必ず Metal バックエンドを使用し、macOS では make cpu を選ばないでください。これが ds4 のロードマップに Apple Silicon の CPU フォールバックが無い現実的な理由でもあります。

05

硬めの数字:モデル規模・量子化サイズ・ハードウェア壁

以下の数字は ds4 README、Hugging Face の DeepSeek-V4-Flash モデルカード、コミュニティ実測の組み合わせから抽出しました。一つの問いに答えます:「自分の Mac には何がどれだけ足りないか」です。

  • 数字 1 · モデル規模:DeepSeek-V4-Flash は総パラメータ 284B、活性 13B、ネイティブで 1M トークンコンテキスト。V4-Pro は 総 1.6T、活性 49B。ds4 は当面 Flash のみで、Pro はクラウドの vLLM / SGLang が現実解です。
  • 数字 2 · 量子化サイズ:推奨される q2-imatrix GGUF はディスク上で約 81GB。鍵は非対称分布で、ルーティング MoE エキスパートはゲートに IQ2_XXS、ダウンに Q2_K を使い、重要な層は高精度を維持します。96〜128GB UMA に収まり、ツール呼び出しも安定します。
  • 数字 3 · メモリ予算:1M トークンコンテキストは追加で約 26GB(indexer だけで 22GB)必要です。128GB に重み、KV、OS、その他アプリを詰めると、128GB の実用域は 100〜300k トークンになります。
  • 数字 4 · ハードウェア費用:ds4 を快適に走らせる構成:96GB MacBook Pro M3/M4/M5 Max は 50 万円〜128GB Mac Studio は 50 万円〜256GB Mac Studio Ultra は 90 万円〜512GB Mac Studio M3 Ultra 最上位は 150 万円超。これが「新モデルを試したい」の初期費用です。
  • 数字 5 · プロジェクトの状態:2026-05-06 作成、2026-05-24 直近更新。11,593 スター、30 名のコントリビューター、ピュア C、MIT。作者はコードをアルファ品質と明示しており、インターフェースや重みフォーマットは今後数ヶ月で変動の可能性があります。このスタック専用に 150 万円の Mac を購入する場合、再販価値は保証されません。

数字を意思決定に翻訳すると次の通りです。Mac Studio 最上位の購入は機能しますが高額で、90〜150 万円の資産をアルファエンジンとプレビューモデルに固定することになります。クラウド API はフル精度を得られますが、データが本機を離れ、長セッションは prefill ごとにトークン課金されます。エージェントと権限境界も手元から外れます。ds4 + V4 Flash のリアルなローカル推論を求めつつ、Mac の再販価値リスクに賭けたくない開発者には、NodeMini の Mac Mini クラウドレンタルが通常はより良い解です。SSH で即利用でき、使い終わったら停止、データは専有インスタンスから出ません。仕様と料金はレンタル価格ページ、課金詳細はSLA とコミットメントを参照してください。

06

実践:リモート高メモリ Mac ノードで ds4 を今日のうちに常用化する 6 ステップ

以下は「ハイエンド Mac を買わずに ds4 + V4 Flash を立ち上げる」最小経路です。各ステップが前節で議論した制約に対応します。エンドツーエンドで 2 時間以内に、OpenAI 互換の V4 Flash エンドポイントを手元に得られます。

  1. 01

    スペックは 128GB から逆算します。 2-bit 重み + 約 100k コンテキストには 128GB が快適点、1M に近づけるなら 256GB+ を選んでください。96GB で節約すると、IDE・エージェント・ブラウザが同時に動いた瞬間に破綻します。

  2. 02

    NodeMini の高メモリ Mac ノードを開通します。 注文ページでメモリ・リージョン・期間を選びます。秒単位でプロビジョニングされ、SSH 鍵ペアが届いたら ssh user@host で接続します。

  3. 03

    ノード上でクローン・依存導入・ビルドを実行します。 git clone https://github.com/antirez/ds4.git && cd ds4 && make。Apple Silicon では既定で Metal です。macOS では make cpu を試さないでください。README にカーネルクラッシュの警告が明記されています。

  4. 04

    q2-imatrix GGUF を取得し、ディスク KV キャッシュを設定します。 同梱の download_model.sh で q2 / q2-imatrix / q4 を取得します。--kv-disk-dir はノード内蔵 SSD の固定パスに、--kv-disk-space-mb は 8〜32GB を指定して、ディスク KV を確実に効かせます。

  5. 05

    ds4-server をコーディングエージェントに接続します。 ./ds4-server --ctx 200000 --kv-disk-dir ... --kv-disk-space-mb 16384 を起動し、Claude Code / Cursor / opencode の OpenAI base URL を http://127.0.0.1:8000/v1(SSH ポート転送経由を推奨、公開禁止)に向けます。OpenAI / Anthropic のツールプロトコルは ds4 がネイティブ対応します。

  6. 06

    アクセス経路を固定します。 SSH 公開鍵 + Tailscale 等のプライベートトンネルでノードをゼロトラスト内網に収めます。使わない時は停止して課金停止、常時稼働なら launchd で起動時自動起動を設定し、永続 KV キャッシュと組み合わせれば「翌日もそのまま継続」が可能です。

この 6 ステップを終えてから Mac Studio 購入の選択肢を再考すると、3 つの実際的な制約が見えます:減価がアルファエンジンとプレビューモデルに固定される、本機で常駐すると日常業務とメモリを奪い合う、チーム共有は順番待ちに退化する、です。ds4 + V4 Flash を日常生産力として組み込みつつ、減価リスクをオンデマンドに分散したい開発者には、NodeMini の Mac Mini クラウドレンタルが通常はより良い解です。3 年 TCO の購入比較24/7 クラウド Mac 自動化と方向性が一致します。接続詳細はヘルプセンターを参照してください。

FAQ

よくある質問

現時点では動きません。ds4 は DeepSeek V4 Flash 専用エンジンです。Flash は総 284B・活性 13B、Pro は総 1.6T・活性 49B の MoE で、量子化後でも一般的な Mac の UMA に収まりません。Pro はクラウドの vLLM / SGLang が現実的な経路です。

96GB が文書上の下限です。コミュニティでは 96GB Mac で 2-bit 量子化、ときに 250k コンテキストまでの報告があります。エディタやエージェントを同時に走らせる日常運用では、antirez が推奨する 128GB が快適です。1M トークンに近づけるなら追加で約 26GB が必要です。安全策は 256GB+ ノードの選定で、レンタル価格ページを参照してください。

NodeMini の高メモリ Mac ノードを借りるのが最短経路です。SSH 接続後に git clonemake、GGUF ダウンロード、./ds4-server 起動でエンドツーエンド 2 時間以内に到達します。接続方法はヘルプセンター、常駐エージェントとの組み合わせは24/7 クラウド Mac 自動化を参照してください。