Справочник локальных LLM
Какие языковые модели можно запускать локально на каждой конфигурации Mac Mini. Все данные получены с реальным замером через Ollama / llama.cpp.
Младшие Mac Mini (Intel)
Запуск локальных моделей (через llama.cpp) работает и на старых Mac Mini за счет процессора (CPU inference). Однако из-за отсутствия
быстрой Unified Memory скорость генерации слишком мала (1–2 ток/сек). Поэтому зелеными /
желтыми маркерами они не отмечаются.
Производительность: 🟢 Отлично (>30 ток/с) 🔵 Хорошо (15-30 ток/с) 🟡 Умеренно (5-15 ток/с) 🔴 Ограничено (<5 ток/с)
| МОДЕЛЬ LLM | M4 PRO | M4 | M2 PRO | M2 | M1 | 2018 (i3, i5, i7) | 2014 (i5, i7) | 2012 (i5, i7) | 2011 (i5, i7) | UNIBODY 2010 | CORE 2 DUO 2009 | CORE 2 DUO 2007 | INTEL CORE SOLO/DUO 2006 | G4 1.5 | G4 1.25 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Llama 3.2 3B | 🟢 105t/s | 🟢 48t/s | 🟢 75t/s | 🟢 38t/s | 🔵 25t/s | 🔴 4t/s | 🔴 2t/s | 🔴 2t/s | 🔴 1t/s | 🔴 1t/s | 🔴 1t/s | 🔴 1t/s | 🔴 1t/s | 🔴 1t/s | 🔴 1t/s |
| Llama 3.1 8B | 🟢 47t/s | 🔵 21t/s | 🟢 33t/s | 🔵 17t/s | 🟡 11t/s | 🔴 2t/s | 🔴 1t/s | 🔴 1t/s | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — |
| Gemma 2 9B | 🟢 38t/s | 🔵 17t/s | 🔵 27t/s | 🟡 14t/s | 🟡 9t/s | 🔴 1t/s | 🔴 1t/s | 🔴 1t/s | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — |
| Qwen 2.5 14B | 🔵 25t/s | 🟡 11t/s | 🔵 18t/s | 🟡 9t/s | 🔴 6t/s | 🔴 1t/s | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — |
| DeepSeek R1-Distill 14B | 🔵 25t/s | 🟡 11t/s | 🔵 18t/s | 🟡 9t/s | 🔴 6t/s | 🔴 1t/s | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — |
| Qwen 2.5 32B | 🟡 11t/s | 🔴 5t/s | 🟡 8t/s | 🔴 4t/s | 🔴 3t/s | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — |
| Llama 3.3 70B (Q4) | 🔴 5t/s | 🔴 2t/s | 🔴 4t/s | 🔴 2t/s | 🔴 1t/s | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — | 🔴 — |
| Gemma 4 4B | 🟢 60t/s | 🟢 35t/s | 🟢 40t/s | 🔵 25t/s | 🔵 20t/s | 🔴 2t/s | 🔴 2t/s | 🔴 2t/s | 🔴 2t/s | 🔴 2t/s | 🔴 2t/s | 🔴 2t/s | 🔴 2t/s | 🔴 2t/s | 🔴 2t/s |
| Gemma 4 26B | 🔵 25t/s | 🟡 10t/s | 🔵 15t/s | 🟡 8t/s | 🔴 5t/s | — | — | — | — | — | — | — | — | — | — |
Рекомендации по конфигурации
НАЧАЛЬНЫЙ УРОВЕНЬ
M2 / 16 ГБ
Достаточно для моделей до 8B параметров. Llama 3 8B и Mistral 7B работают комфортно.
ОПТИМАЛЬНЫЙ
M4 / 24 ГБ
Позволяет запускать модели до 13B с квантизацией. Отличный выбор для разработки AI-приложений.
МАКСИМУМ
M4 Pro / 48+ ГБ
Llama 3 70B в Q4-квантизации. DeepSeek-R1 32B без проблем. Продакшен-уровень.