Производительность LLM в 2026 году: бенчмарки, узкие места и оптимизация
Производительность LLM — это не просто наличие мощной видеокарты. Скорость инференса, задержка и экономическая эффективность зависят от ограничений на всех уровнях стека:
- Размер модели и квантование
- Объем VRAM и пропускная способность памяти
- Длина контекста и размер промпта
- Планирование выполнения и пакетная обработка
- Загрузка ядер CPU
- Топология системы (линии PCIe, NUMA и т.д.)
Этот ресурс собирает подробные исследования того, как большие языковые модели ведут себя при реальной нагрузке и как их оптимизировать.
Что на самом деле означает производительность LLM
Производительность многомерна.
Пропускная способность (Throughput) против задержки (Latency)
- Пропускная способность = токенов в секунду при множественных запросах
- Задержка = время до первого токена + общее время ответа
Большинство реальных систем должны балансировать оба показателя.

Порядок ограничений
На практике узкие места обычно возникают в следующем порядке:
- Объем VRAM
- Пропускная способность памяти
- Планирование выполнения
- Размер контекстного окна
- Нагрузка на CPU
Понимание того, какое именно ограничение вы достигли, важнее, чем простое «апгрейд оборудования».
Производительность среды выполнения Ollama
Ollama широко используется для локального инференса. Понимание её поведения под нагрузкой критически важно.
Планирование ядер CPU
Обработка параллельных запросов
Поведение выделения памяти
Проблемы среды выполнения при структурированном выводе
Важные аппаратные ограничения
Не все проблемы производительности связаны с вычислительной мощностью GPU.
Влияние PCIe и топологии
Тренды специализированных вычислений
Бенчмарки и сравнение моделей
Бенчмарки должны отвечать на конкретный вопрос для принятия решений.
Сравнение аппаратных платформ
Тестирование в реальных условиях с 16 ГБ VRAM
Потребительские видеокарты с 16 ГБ VRAM являются распространенным пороговым значением для подбора модели, размера кэша KV и того, остаются ли слои модели на устройстве. Приведенные ниже статьи основаны на одном классе оборудования, но разных стеках — среда выполнения Ollama против llama.cpp с явным перебором контекста — чтобы вы могли отделить эффекты «планировщика и упаковки» от чистой пропускной способности и запаса VRAM.
- Выбор лучшей LLM для Ollama на GPU с 16 ГБ VRAM
- Бенчмарки LLM с 16 ГБ VRAM с использованием llama.cpp (скорость и контекст)
Бенчмарки скорости и качества моделей
- Qwen3 30B vs GPT-OSS 20B
- Gemma2 vs Qwen2 vs Mistral Nemo 12B
- Mistral Small vs Gemma2 vs Qwen2.5 vs Mistral Nemo
Тесты на прочность возможностей
Справочник по оптимизации
Настройка производительности должна быть поэтапной.
Шаг 1 — Заставить модель поместиться
- Уменьшите размер модели
- Используйте квантование
- Ограничьте контекстное окно
Шаг 2 — Стабилизация задержки
- Снизьте стоимость предзаполнения (prefill)
- Избегайте ненужных повторных попыток
- Валидируйте структурированные выводы на раннем этапе
Шаг 3 — Увеличение пропускной способности
- Увеличьте пакетную обработку (batching)
- Настройте параллелизм (concurrency)
- При необходимости используйте среды выполнения, ориентированные на обслуживание
Если ваше узкое место связано со стратегией хостинга, а не с поведением среды выполнения, см.:
Часто задаваемые вопросы
Почему мой LLM работает медленно даже на мощном GPU?
Часто дело в пропускной способности памяти, длине контекста или планировании выполнения, а не в чистой вычислительной мощности.
Что важнее: объем VRAM или модель GPU?
Объем VRAM обычно является первым жестким ограничением. Если модель не помещается, остальное не имеет значения.
Почему производительность падает при одновременных запросах?
Очереди, конкуренция за ресурсы и ограничения планировщика вызывают кривые деградации производительности.
Заключение
Производительность LLM — это инженерия, а не гадание.
Измеряйте осознанно.
Понимайте ограничения.
Оптимизируйте на основе узких мест, а не предположений.