Без счетов за API:
Qwen3.5 и Gemma3 через Ollama на арендованном Mac Mini M4 — гайд 2026

Сотни долларов в месяц за API Claude или GPT, пока исходный код и переписка с клиентами уходят на чужие серверы — ни бюджет, ни требования к локализации данных так не работают. В 2026 году разумный путь — не смена облака, а Ollama с Qwen3.5, Qwen2.5-coder и Gemma3 на эксклюзивно арендованном Mac Mini M4. Гайд для разработчиков и небольших команд: шесть типичных болей, таблица 16/24/48 ГБ Unified Memory с Metal, команды установки и подключение localhost:11434/v1, затем матрица TCO аренда vs покупка vs облачный GPU и чеклист из шести шагов — данные на вашем диске, без тарификации по токенам.

01

Зачем в 2026 снова запускать LLM локально: шесть причин

Open-source модели почти догнали закрытые: Qwen3.5 для многоязычного reasoning, Qwen2.5-coder для автодополнения кода, Gemma3 с отличным соотношением размер/качество. С Ollama и Metal на Apple Silicon дискретная GPU не нужна — Mac Mini M4 тянет квантованные 7B–14B для продакшена.

Локальный инференс переводит переменные расходы на токены в предсказуемые затраты на железо и держит данные под вашим контролем — критично, когда код, медицинские записи или внутренние документы не должны покидать периметр. Сон ноутбука, VPS без Metal и почасовой облачный GPU мешают стабильному узлу 7×24. Шесть частых возражений:

  1. 01

    Раздувающиеся счета API: агенты, RAG-embedding и IDE вместе легко дают $200–2 000/мес без прогнозируемости.

  2. 02

    Суверенитет данных: исходники и клиентские диалоги через API третьих лиц — риск для финтеха, медицины и госсектора.

  3. 03

    Rate limits: 429, деградация модели, обрезанный контекст — в проде неприемлемо.

  4. 04

    Задержка: каждое дополнение в IDE через интернет ощущается; RAG по внутренней базе страдает от RTT.

  5. 05

    Привязка к вендору: смена цены или снятие модели; локально Modelfile фиксирует версию.

  6. 06

    Итог: порог входа — не «купить A100», а арендовать Mac Mini M4 на месяц с Metal и без GPU-стойки.

02

UMA Mac Mini M4 и выбор моделей: 16, 24 или 48 ГБ?

Unified Memory Architecture (UMA) Apple делит RAM между CPU, GPU и Neural Engine. Ollama грузит веса GGUF через backend Metal llama.cpp — без копирования между системной памятью и VRAM, как на x86 + дискретная карта. У Mac Mini M4 нет отдельной GPU, но 16 GPU-ядер и высокая пропускная способность памяти; узкое место почти всегда объём RAM, а не TFLOPS.

Правило: веса модели + KV-cache + macOS + daemon Ollama должны оставаться в физической памяти. При swap tokens/s падают с 30+ до однозначных значений. Таблица по замерам сообщества 2026 (Q4_K_M):

RAMРекомендуемая связкаtokens/s (тип.)Сценарий
16 ГБQwen3.5:7b или Gemma3:4b по одной25–40 (7B Q4)Личный ассистент, лёгкий код
24 ГБQwen3.5:9b + Qwen2.5-coder:7b по очереди20–35 (9B Q4)Ежедневная разработка, средний RAG
48 ГБQwen3.5:14b или Gemma3:12b + coder15–28 (14B Q4)Командный API, длинные агенты

«На M4 важен не CUDA, а размер UMA. 16 ГБ хватит, 24 ГБ комфортно, 48 ГБ — несколько моделей одновременно.»

info

Совет: для чистого кода Qwen2.5-coder:7b обходит универсальный 7B. На 24 ГБ держите coder resident, Gemma3:4b — для маршрутизации.

03

Установка Ollama и загрузка моделей

На macOS доступны приложение и CLI. После передачи арендованного Mac: проверьте macOS 14+, установите Ollama. Модели лежат в ~/.ollama/models/ — удобно для бэкапа и миграции между периодами аренды.

bash
# Установка Ollama на macOS
curl -fsSL https://ollama.com/install.sh | sh

# Проверка версии и Metal
ollama --version
ollama ps

# Рекомендуемые модели 2026
ollama pull qwen3.5:9b
ollama pull qwen2.5-coder:7b
ollama pull gemma3:4b

# Быстрый тест
ollama run qwen3.5:9b "Объясни в трёх предложениях, почему UMA M4 подходит для локальных LLM"

Modelfile для воспроизводимого продакшена

Modelfile фиксирует температуру, контекст и system prompt — полезно для аудируемых конфигураций:

modelfile
# ~/Modelfile.qwen35-prod
FROM qwen3.5:9b
PARAMETER temperature 0.3
PARAMETER num_ctx 32768
SYSTEM "Приватный ассистент на Mac Mini M4. Не передавать данные пользователя."

# ollama create qwen35-prod -f ~/Modelfile.qwen35-prod
warning

Внимание: на 16 ГБ не грузите два 9B+ параллельно. Задайте OLLAMA_MAX_LOADED_MODELS=1 или полагайтесь на LRU-выгрузку Ollama (~5 мин без активности).

04

OpenAI-совместимый API, несколько моделей и TCO

Ollama отдаёт REST, совместимый с OpenAI, на http://127.0.0.1:11434. Cursor, Continue, LangChain или Dify меняют только base_url — самый быстрый способ перенести 80 % облачных вызовов локально.

bash
# Chat Completions (OpenAI-compatible)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3.5:9b",
    "messages": [{"role": "user", "content": "Привет"}]
  }'

# Список локальных моделей
curl http://localhost:11434/api/tags

# Ограничение памяти и параллелизма
export OLLAMA_MAX_LOADED_MODELS=2
export OLLAMA_NUM_PARALLEL=2

Типичный multi-model workflow

Qwen2.5-coder для IDE, Qwen3.5:9b для агентов, Gemma3:4b для классификации. Ollama выгружает неактивные веса; на 48 ГБ coder и generalist остаются «горячими» без cold start 10–30 с.

Сравнение железа на 24 месяца (качественно; цены — на странице цен аренды Mac Mini):

Вариант (24 мес.)ДеньгиMetal / без GPUДанныеКому
Покупка M4 (24 ГБ)разово ~$900–1 200нативный Metalлокальный SSD3+ года стабильного спроса
Аренда Mac Mini M4ежемесячно, малый взностот же Metalэксклюзивный диск30 дней тест tokens/s
Облачный GPU (A10/L4)почасово + storageнет (CUDA)ЦОД провайдеракороткий burst
Только APIза токеныn/aтретья сторонапрототип, малый объём
info

Оценка: при стабильных тратах на API выше ~$150/мес и более 500 000 tokens/день аренда M4 24 ГБ + Ollama часто окупается за 6–10 месяцев — без rate limits и риска утечки данных в облако.

05

Шесть шагов: приватный узел Ollama на арендованном Mac Mini M4

  1. 01

    Выбрать RAM: только Qwen3.5:7b → 16 ГБ; coder + 9b → 24 ГБ; команда с параллельными моделями → 48 ГБ.

  2. 02

    Оформить аренду: эксклюзивный Mac Mini M4, SSH или screen sharing.

  3. 03

    Установить Ollama: официальный curl, затем ollama pull.

  4. 04

    launchd: автозапуск; OLLAMA_HOST=127.0.0.1:11434, не открывать в интернет без защиты.

  5. 05

    Инструменты: IDE и агенты на http://localhost:11434/v1, модели раздельно.

  6. 06

    Бэкап: архивировать ~/.ollama; перед окончанием аренды экспортировать Modelfile.

  • Metal: 7B Q4 на 24 ГБ часто даёт 28–38 tokens/s.
  • Потребление: под нагрузкой около 15–25 Вт — дешевле почасового облачного GPU.
  • Диск: три квантованные модели ≈ 12–18 ГБ; закладывайте ≥ 50 ГБ свободного места.

Linux VPS на CPU-only? Часто пятая часть скорости Metal M4. Ноутбук в сне? localhost:11434 недоступен. Почасовой GPU? Неделя агента 24/7 может стоить больше месяца аренды Mac.

Кому нужны стабильный локальный инференс, данные на своём диске и OpenAI-совместимый API, аренда Mac Mini M4 у NodeMini обычно проще, чем VPS-костыли плюс растущие счета API. Сначала месяц аренды — сравните Qwen3.5 и Qwen2.5-coder с облаком, потом решайте о покупке. Это самый рациональный вход в локальные LLM в 2026 году.

FAQ

Частые вопросы

Qwen3.5:7b или квантованная 9b в одном экземпляре работают хорошо. Для Gemma3 и Qwen2.5-coder одновременно берите 24 ГБ минимум.

NodeMini сдаёт эксклюзивные Mac Mini M4 помесячно или поквартально. Подробности на странице цен аренды. Ollama не берёт плату за токены — только время аренды железа.

Да. URL: http://localhost:11434/v1, ключ: ollama. Удалённо — SSH-туннель на порт 11434. Дополнительно — центр помощи.