Запуск локальных LLM на Mac

Это руководство проведёт вас через запуск локального LLM-сервера на macOS с OpenAI-совместимым API. Вы получаете полную приватность, нулевые затраты на API и удивительно хорошую производительность на Apple Silicon.

Мы рассматриваем два бэкенда:

Бэкенд	Установка	Лучше всего	Формат
llama.cpp	`brew install llama.cpp`	Самое быстрое время до первого токена, квантованный KV-кэш для малого потребления памяти	GGUF
omlx	omlx.ai	Самая быстрая генерация токенов, нативная оптимизация Metal	MLX (safetensors)

Оба предоставляют OpenAI-совместимый эндпоинт /v1/chat/completions. Hermes работает с любым из них — просто укажите http://localhost:8080 или http://localhost:8000.

Вариант	Размер на диске	Требуется ОЗУ (контекст 128K)	Бэкенд
Qwen3.5-9B-Q4_K_M (GGUF)	5.3 GB	~10 GB с квантованным KV-кэшем	llama.cpp
Qwen3.5-9B-mlx-lm-mxfp4 (MLX)	~5 GB	~12 GB	omlx

Флаг	Назначение
`-ngl 99`	Выгружает все слои на GPU (Metal). Используйте большое число, чтобы ничего не оставалось на CPU.
`-c 131072`	Размер окна контекста (128K токенов). Уменьшите, если не хватает памяти.
`-np 1`	Количество параллельных слотов. Оставьте 1 для одного пользователя — больше слотов разделяет ваш бюджет памяти.
`-fa on`	Flash attention. Уменьшает использование памяти и ускоряет инференс с длинным контекстом.
`--cache-type-k q4_0`	Квантование кэша ключей до 4 бит. Это главный экономитель памяти.
`--cache-type-v q4_0`	Квантование кэша значений до 4 бит. Вместе с предыдущим это сокращает память KV-кэша на ~75% по сравнению с f16.
`--host 0.0.0.0`	Слушает на всех интерфейсах. Используйте `127.0.0.1`, если не нужен сетевой доступ.

Тип KV-кэша	Память KV-кэша (контекст 128K, модель 9B)
f16 (по умолчанию)	~16 GB
q8_0	~8 GB
q4_0	~4 GB

Метрика	llama.cpp (Q4_K_M)	MLX (mxfp4)	Победитель
TTFT (среднее)	67 ms	289 ms	llama.cpp (в 4.3x быстрее)
TTFT (p50)	66 ms	286 ms	llama.cpp (в 4.3x быстрее)
Генерация (среднее)	70 tok/s	96 tok/s	MLX (на 37% быстрее)
Генерация (p50)	70 tok/s	96 tok/s	MLX (на 37% быстрее)
Общее время (512 токенов)	7.3s	5.5s	MLX (на 25% быстрее)

Сценарий использования	Рекомендация
Интерактивный чат, инструменты с низкой задержкой	llama.cpp
Длительная генерация, пакетная обработка	MLX (omlx)
Ограниченная память (8-16 ГБ)	llama.cpp (квантованный KV-кэш вне конкуренции)
Одновременная раздача нескольких моделей	omlx (встроенная поддержка нескольких моделей)
Максимальная совместимость (включая Linux)	llama.cpp

Запуск локальных LLM на Mac

Выбор модели

Вариант A: llama.cpp

Установка

Загрузка модели

Запуск сервера

Оптимизация памяти для систем с ограничениями

Тестирование

Получение имени модели

Вариант B: MLX через omlx

Установка

Загрузка модели

Запуск сервера

Тестирование

Список доступных моделей

Бенчмарки: llama.cpp vs MLX

Результаты

Что это означает

Какой выбрать?

Подключение к Hermes

Таймауты

Таймаут	По умолчанию	Локальная автокорректировка	Переопределение через переменную окружения
Чтение стрима (уровень сокета)	120 с	Повышен до 1800 с	`HERMES_STREAM_READ_TIMEOUT`
Обнаружение зависшего стрима	180 с	Полностью отключён	`HERMES_STREAM_STALE_TIMEOUT`
API-вызов (без стриминга)	1800 с	Изменения не требуются	`HERMES_API_TIMEOUT`