Сотни долларов в месяц за API Claude или GPT, пока исходный код и переписка с клиентами уходят на чужие серверы — ни бюджет, ни требования к локализации данных так не работают. В 2026 году разумный путь — не смена облака, а Ollama с Qwen3.5, Qwen2.5-coder и Gemma3 на эксклюзивно арендованном Mac Mini M4. Гайд для разработчиков и небольших команд: шесть типичных болей, таблица 16/24/48 ГБ Unified Memory с Metal, команды установки и подключение localhost:11434/v1, затем матрица TCO аренда vs покупка vs облачный GPU и чеклист из шести шагов — данные на вашем диске, без тарификации по токенам.
Open-source модели почти догнали закрытые: Qwen3.5 для многоязычного reasoning, Qwen2.5-coder для автодополнения кода, Gemma3 с отличным соотношением размер/качество. С Ollama и Metal на Apple Silicon дискретная GPU не нужна — Mac Mini M4 тянет квантованные 7B–14B для продакшена.
Локальный инференс переводит переменные расходы на токены в предсказуемые затраты на железо и держит данные под вашим контролем — критично, когда код, медицинские записи или внутренние документы не должны покидать периметр. Сон ноутбука, VPS без Metal и почасовой облачный GPU мешают стабильному узлу 7×24. Шесть частых возражений:
Раздувающиеся счета API: агенты, RAG-embedding и IDE вместе легко дают $200–2 000/мес без прогнозируемости.
Суверенитет данных: исходники и клиентские диалоги через API третьих лиц — риск для финтеха, медицины и госсектора.
Rate limits: 429, деградация модели, обрезанный контекст — в проде неприемлемо.
Задержка: каждое дополнение в IDE через интернет ощущается; RAG по внутренней базе страдает от RTT.
Привязка к вендору: смена цены или снятие модели; локально Modelfile фиксирует версию.
Итог: порог входа — не «купить A100», а арендовать Mac Mini M4 на месяц с Metal и без GPU-стойки.
Unified Memory Architecture (UMA) Apple делит RAM между CPU, GPU и Neural Engine. Ollama грузит веса GGUF через backend Metal llama.cpp — без копирования между системной памятью и VRAM, как на x86 + дискретная карта. У Mac Mini M4 нет отдельной GPU, но 16 GPU-ядер и высокая пропускная способность памяти; узкое место почти всегда объём RAM, а не TFLOPS.
Правило: веса модели + KV-cache + macOS + daemon Ollama должны оставаться в физической памяти. При swap tokens/s падают с 30+ до однозначных значений. Таблица по замерам сообщества 2026 (Q4_K_M):
| RAM | Рекомендуемая связка | tokens/s (тип.) | Сценарий |
|---|---|---|---|
| 16 ГБ | Qwen3.5:7b или Gemma3:4b по одной | 25–40 (7B Q4) | Личный ассистент, лёгкий код |
| 24 ГБ | Qwen3.5:9b + Qwen2.5-coder:7b по очереди | 20–35 (9B Q4) | Ежедневная разработка, средний RAG |
| 48 ГБ | Qwen3.5:14b или Gemma3:12b + coder | 15–28 (14B Q4) | Командный API, длинные агенты |
«На M4 важен не CUDA, а размер UMA. 16 ГБ хватит, 24 ГБ комфортно, 48 ГБ — несколько моделей одновременно.»
Совет: для чистого кода Qwen2.5-coder:7b обходит универсальный 7B. На 24 ГБ держите coder resident, Gemma3:4b — для маршрутизации.
На macOS доступны приложение и CLI. После передачи арендованного Mac: проверьте macOS 14+, установите Ollama. Модели лежат в ~/.ollama/models/ — удобно для бэкапа и миграции между периодами аренды.
# Установка Ollama на macOS curl -fsSL https://ollama.com/install.sh | sh # Проверка версии и Metal ollama --version ollama ps # Рекомендуемые модели 2026 ollama pull qwen3.5:9b ollama pull qwen2.5-coder:7b ollama pull gemma3:4b # Быстрый тест ollama run qwen3.5:9b "Объясни в трёх предложениях, почему UMA M4 подходит для локальных LLM"
Modelfile фиксирует температуру, контекст и system prompt — полезно для аудируемых конфигураций:
# ~/Modelfile.qwen35-prod FROM qwen3.5:9b PARAMETER temperature 0.3 PARAMETER num_ctx 32768 SYSTEM "Приватный ассистент на Mac Mini M4. Не передавать данные пользователя." # ollama create qwen35-prod -f ~/Modelfile.qwen35-prod
Внимание: на 16 ГБ не грузите два 9B+ параллельно. Задайте OLLAMA_MAX_LOADED_MODELS=1 или полагайтесь на LRU-выгрузку Ollama (~5 мин без активности).
Ollama отдаёт REST, совместимый с OpenAI, на http://127.0.0.1:11434. Cursor, Continue, LangChain или Dify меняют только base_url — самый быстрый способ перенести 80 % облачных вызовов локально.
# Chat Completions (OpenAI-compatible)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen3.5:9b",
"messages": [{"role": "user", "content": "Привет"}]
}'
# Список локальных моделей
curl http://localhost:11434/api/tags
# Ограничение памяти и параллелизма
export OLLAMA_MAX_LOADED_MODELS=2
export OLLAMA_NUM_PARALLEL=2
Qwen2.5-coder для IDE, Qwen3.5:9b для агентов, Gemma3:4b для классификации. Ollama выгружает неактивные веса; на 48 ГБ coder и generalist остаются «горячими» без cold start 10–30 с.
Сравнение железа на 24 месяца (качественно; цены — на странице цен аренды Mac Mini):
| Вариант (24 мес.) | Деньги | Metal / без GPU | Данные | Кому |
|---|---|---|---|---|
| Покупка M4 (24 ГБ) | разово ~$900–1 200 | нативный Metal | локальный SSD | 3+ года стабильного спроса |
| Аренда Mac Mini M4 | ежемесячно, малый взнос | тот же Metal | эксклюзивный диск | 30 дней тест tokens/s |
| Облачный GPU (A10/L4) | почасово + storage | нет (CUDA) | ЦОД провайдера | короткий burst |
| Только API | за токены | n/a | третья сторона | прототип, малый объём |
Оценка: при стабильных тратах на API выше ~$150/мес и более 500 000 tokens/день аренда M4 24 ГБ + Ollama часто окупается за 6–10 месяцев — без rate limits и риска утечки данных в облако.
Выбрать RAM: только Qwen3.5:7b → 16 ГБ; coder + 9b → 24 ГБ; команда с параллельными моделями → 48 ГБ.
Оформить аренду: эксклюзивный Mac Mini M4, SSH или screen sharing.
Установить Ollama: официальный curl, затем ollama pull.
launchd: автозапуск; OLLAMA_HOST=127.0.0.1:11434, не открывать в интернет без защиты.
Инструменты: IDE и агенты на http://localhost:11434/v1, модели раздельно.
Бэкап: архивировать ~/.ollama; перед окончанием аренды экспортировать Modelfile.
Linux VPS на CPU-only? Часто пятая часть скорости Metal M4. Ноутбук в сне? localhost:11434 недоступен. Почасовой GPU? Неделя агента 24/7 может стоить больше месяца аренды Mac.
Кому нужны стабильный локальный инференс, данные на своём диске и OpenAI-совместимый API, аренда Mac Mini M4 у NodeMini обычно проще, чем VPS-костыли плюс растущие счета API. Сначала месяц аренды — сравните Qwen3.5 и Qwen2.5-coder с облаком, потом решайте о покупке. Это самый рациональный вход в локальные LLM в 2026 году.
Qwen3.5:7b или квантованная 9b в одном экземпляре работают хорошо. Для Gemma3 и Qwen2.5-coder одновременно берите 24 ГБ минимум.
NodeMini сдаёт эксклюзивные Mac Mini M4 помесячно или поквартально. Подробности на странице цен аренды. Ollama не берёт плату за токены — только время аренды железа.
Да. URL: http://localhost:11434/v1, ключ: ollama. Удалённо — SSH-туннель на порт 11434. Дополнительно — центр помощи.