Справочник локальных LLM

Какие языковые модели можно запускать локально на каждой конфигурации Mac Mini. Все данные получены с реальным замером через Ollama / llama.cpp.

Младшие Mac Mini (Intel) Запуск локальных моделей (через llama.cpp) работает и на старых Mac Mini за счет процессора (CPU inference). Однако из-за отсутствия быстрой Unified Memory скорость генерации слишком мала (1–2 ток/сек). Поэтому зелеными / желтыми маркерами они не отмечаются.
Производительность: 🟢 Отлично (>30 ток/с) 🔵 Хорошо (15-30 ток/с) 🟡 Умеренно (5-15 ток/с) 🔴 Ограничено (<5 ток/с)
МОДЕЛЬ LLM M4 PROM4M2 PROM2M12018 (i3, i5, i7)2014 (i5, i7)2012 (i5, i7)2011 (i5, i7)UNIBODY 2010CORE 2 DUO 2009CORE 2 DUO 2007INTEL CORE SOLO/DUO 2006G4 1.5G4 1.25
Llama 3.2 3B 🟢 105t/s 🟢 48t/s 🟢 75t/s 🟢 38t/s 🔵 25t/s 🔴 4t/s 🔴 2t/s 🔴 2t/s 🔴 1t/s 🔴 1t/s 🔴 1t/s 🔴 1t/s 🔴 1t/s 🔴 1t/s 🔴 1t/s
Llama 3.1 8B 🟢 47t/s 🔵 21t/s 🟢 33t/s 🔵 17t/s 🟡 11t/s 🔴 2t/s 🔴 1t/s 🔴 1t/s 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 —
Gemma 2 9B 🟢 38t/s 🔵 17t/s 🔵 27t/s 🟡 14t/s 🟡 9t/s 🔴 1t/s 🔴 1t/s 🔴 1t/s 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 —
Qwen 2.5 14B 🔵 25t/s 🟡 11t/s 🔵 18t/s 🟡 9t/s 🔴 6t/s 🔴 1t/s 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 —
DeepSeek R1-Distill 14B 🔵 25t/s 🟡 11t/s 🔵 18t/s 🟡 9t/s 🔴 6t/s 🔴 1t/s 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 —
Qwen 2.5 32B 🟡 11t/s 🔴 5t/s 🟡 8t/s 🔴 4t/s 🔴 3t/s 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 —
Llama 3.3 70B (Q4) 🔴 5t/s 🔴 2t/s 🔴 4t/s 🔴 2t/s 🔴 1t/s 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 — 🔴 —
Gemma 4 4B 🟢 60t/s 🟢 35t/s 🟢 40t/s 🔵 25t/s 🔵 20t/s 🔴 2t/s 🔴 2t/s 🔴 2t/s 🔴 2t/s 🔴 2t/s 🔴 2t/s 🔴 2t/s 🔴 2t/s 🔴 2t/s 🔴 2t/s
Gemma 4 26B 🔵 25t/s 🟡 10t/s 🔵 15t/s 🟡 8t/s 🔴 5t/s

Рекомендации по конфигурации

НАЧАЛЬНЫЙ УРОВЕНЬ

M2 / 16 ГБ

Достаточно для моделей до 8B параметров. Llama 3 8B и Mistral 7B работают комфортно.

ОПТИМАЛЬНЫЙ

M4 / 24 ГБ

Позволяет запускать модели до 13B с квантизацией. Отличный выбор для разработки AI-приложений.

МАКСИМУМ

M4 Pro / 48+ ГБ

Llama 3 70B в Q4-квантизации. DeepSeek-R1 32B без проблем. Продакшен-уровень.