Производительность LLM в 2026 году: бенчмарки, узкие места и оптимизация
Производительность LLM](https://www.glukhov.org/ru/llm-performance/ “Производительность LLM”) — это не просто наличие мощного GPU. Скорость инференса, задержка и экономическая эффективность зависят от ограничений во всем стеке:
- Размер модели и квантование
- Объем VRAM и пропускная способность памяти
- Длина контекста и размер промпта
- Планирование выполнения и батчинг
- Использование ядер CPU
- Топология системы (линии PCIe, NUMA и т. д.)
Этот раздел структурирует глубокие исследования того, как большие языковые модели ведут себя при реальных рабочих нагрузках, и как их оптимизировать.
Что такое производительность LLM на самом деле
Производительность — многомерное понятие.
Пропускная способность против задержки
- Пропускная способность (Throughput) = токенов в секунду по множеству запросов
- Задержка (Latency) = время до первого токена + общее время ответа
Большинство реальных систем должны балансировать между обоими показателями.

Порядок ограничений
На практике узкие места обычно появляются в следующем порядке:
- Объем VRAM
- Пропускная способность памяти
- Планирование выполнения
- Размер окна контекста
- Нагрузка на CPU
Понимание того, какое ограничение вы достигли, важнее, чем простое «обновление оборудования».
Производительность среды выполнения Ollama
Ollama широко используется для локального инференса. Понимание его поведения под нагрузкой критически важно.
Планирование загрузки ядер CPU
Обработка параллельных запросов
Поведение выделения памяти
Проблемы среды выполнения при структурированном выводе
Аппаратные ограничения, которые имеют значение
Не все проблемы с производительностью связаны с вычислительной мощностью GPU.
Влияние PCIe и топологии
Тренды в специализированных вычислениях
Бенчмарки и сравнение моделей
Бенчмарки должны отвечать на вопрос принятия решения.
Сравнение аппаратных платформ
Тестирование на GPU с 16 ГБ VRAM в реальных условиях
Потребительские GPU с 16 ГБ памяти являются распространенным порогом для размещения модели, размера кэша KV и того, остаются ли слои на устройстве. Посты ниже основаны на одном классе оборудования, но разных стеках — среда выполнения Ollama против llama.cpp с явным перебором контекста, — поэтому вы можете отделить эффекты «планировщика и упаковки» от чистой пропускной способности и запаса VRAM.
- Выбор лучшей LLM для Ollama на GPU с 16 ГБ VRAM
- Бенчмарки LLM для 16 ГБ VRAM с llama.cpp (скорость и контекст)
- Qwen 3.6 27B и 35B MTP против Standard на GPU с 16 ГБ — измеряет, насколько встроенное спекулятивное декодирование MTP в llama.cpp ускоряет генерацию Qwen 3.6 и какова цена за это в виде сокращения окна контекста на карте с 16 ГБ
Бенчмарки скорости и качества моделей
- Параметры агентного инференса — Qwen и Gemma
- Qwen3 30B против GPT-OSS 20B
- Gemma2 против Qwen2 против Mistral Nemo 12B
- Mistral Small против Gemma2 против Qwen2.5 против Mistral Nemo
Структурированный вывод и валидация
Стресс-тесты возможностей
Руководство по оптимизации
Настройка производительности должна быть постепенной.
Шаг 1 — Убедитесь, что модель помещается в память
- Уменьшите размер модели
- Используйте квантование
- Ограничьте окно контекста
Шаг 2 — Стабилизируйте задержку
- Снизьте стоимость префиллинга (prefill)
- Избегайте ненужных повторных попыток
- Валидируйте структурированные выводы на ранних этапах
Шаг 3 — Увеличьте пропускную способность
- Увеличьте батчинг
- Настройте конкурентность
- Используйте среды выполнения, ориентированные на сервинг, при необходимости
Если вашим узким местом является стратегия хостинга, а не поведение среды выполнения, см.:
Часто задаваемые вопросы
Почему моя LLM работает медленно даже на мощном GPU?
Часто причиной является пропускная способность памяти, длина контекста или планирование выполнения, а не чистая вычислительная мощность.
Что важнее: размер VRAM или модель GPU?
Объем VRAM обычно является первым жестким ограничением. Если модель не помещается в память, остальное не имеет значения.
Почему производительность падает при конкурентности?
Очередь, конкуренция за ресурсы и ограничения планировщика вызывают деградацию показателей.
Заключение
Производительность LLM — это инженерия, а не гадание.
Измеряйте осознанно.
Понимайте ограничения.
Оптимизируйте на основе узких мест, а не предположений.