Бенчмарки LLM с 16 ГБ видеопамяти с использованием llama.cpp (скорость и контекст)
Скорость токенизации llama.cpp на 16 ГБ VRAM (таблицы).
Здесь я сравниваю скорость нескольких больших языковых моделей (LLM), работающих на GPU с 16 ГБ видеопамяти (VRAM), и выбираю лучшую для самостоятельного развертывания.
Я запускал эти LLM через llama.cpp с контекстными окнами в 19K, 32K и 64K токенов.

В этой статье я фиксирую свои попытки выжать максимальную производительность с точки зрения скорости.
Таблица сравнения скорости LLM (токенов в секунду и VRAM)
| Модель | Размер | 19K VRAM | 19K GPU/CPU | 19K T/s | 32K VRAM | 32K Load | 32K T/s | 64K VRAM | 64K Load | 64K: T/s |
|---|---|---|---|---|---|---|---|---|---|---|
| Qwen3.5-35B-A3B-UD-IQ3_S | 13.6 | 14.3GB | 93%/100% | 136.4 | 14.6GB | 93%/100% | 138.5 | 14.9GB | 88%/115% | 136.8 |
| Qwen3.5-27B-UD-IQ3_XXS | 11.5 | 12.9 | 98/100 | 45.3 | 13.7 | 98/100 | 45.1 | 14.7 | 45/410 | 22.7 |
| Qwen3.5-122B-A10B-UD-IQ3_XXS | 44.7 | 14.7 | 30/470 | 22.3 | 14.7 | 30/480 | 21.8 | 14.7 | 28/490 | 21.5 |
| nvidia Nemotron-Cascade-2-30B IQ4_XS | 18.2 | 14.6 | 60/305 | 115.8 | 14.7 | 57/311 | 113.6 | 14.7 | 55/324 | 103.4 |
| gemma-4-26B-A4B-it-UD-IQ4_XS | 13.4 | 14.7 | 95/100 | 121.7 | 14.9 | 95/115 | 114.9 | 14.9 | 75/190 | 96.1 |
| gemma-4-31B-it-UD-IQ3_XXS | 11.8 | 14.8 | 68/287 | 29.2 | 14.8 | 41/480 | 18.4 | 14.8 | 18/634 | 8.1 |
| GLM-4.7-Flash-IQ4_XS | 16.3 | 15.0 | 66/240 | 91.8 | 14.9 | 62/262 | 86.1 | 14.9 | 53/313 | 72.5 |
| GLM-4.7-Flash-REAP-23B IQ4_XS | 12.6 | 13.7 | 92/100 | 122.0 | 14.4 | 95/102 | 123.2 | 14.9 | 71/196 | 97.1 |
19K, 32K и 64K — это размеры контекста.
Значение load выше — это загрузка GPU.
Если вы видите низкое число в этой колонке, это означает, что модель работает преимущественно на CPU и не может достичь приличной скорости на этом оборудовании. Этот паттерн совпадает с тем, что люди наблюдают, когда на GPU помещается слишком мало модели или когда контекст выталкивает работу обратно на хост.
О llama.cpp, производительности LLM, OpenCode и других сравнениях
Если вам нужны пути установки, примеры llama-cli и llama-server, а также флаги, влияющие на VRAM и токены в секунду (размер контекста, пакетная обработка, -ngl), начните с Быстрый старт llama.cpp с CLI и Server.
Для более общей картины производительности (пропускная способность против задержки, лимиты VRAM, параллельные запросы и как бенчмарки соотносятся с различным оборудованием и средами выполнения) см. Производительность LLM в 2026 году: Бенчмарки, узкие места и оптимизация.
Качество ответов анализируется в других статьях, например:
- Лучшие LLM для OpenCode — протестированы локально. Вы можете прочитать больше об OpenCode в Быстрый старт OpenCode: Установка, настройка и использование терминального AI-агента для кодинга
- Сравнение качества перевода страниц Hugo — LLM на Ollama
Я также проводил аналогичные тесты для LLM на Ollama: Лучшие LLM для Ollama на GPU с 16 ГБ VRAM.
Почему длина контекста влияет на токены в секунду
При переходе от 19K к 32K или 64K токенам кэш KV растет, а давление на VRAM увеличивается. Некоторые строки показывают значительное падение скорости (токенов в секунду) на 64K, в то время как другие остаются стабильными; это сигнал пересмотреть квантование, лимиты контекста или разгрузку слоев, а не просто предполагать, что модель «медленная» в целом.
Модели и квантование, которые я выбрал для тестирования, — это те, что я запускаю сам, чтобы увидеть, дают ли они хороший выигрыш с точки зрения соотношения цена/качество на этом оборудовании или нет. Так что здесь нет квантования q8 с контекстом 200k :) …
GPU/CPU — это загрузка, измеренная с помощью nvitop.
Когда llama.cpp автоматически настраивает разгрузку слоев на GPU, оно пытается оставить 1 ГБ свободным.
Мы можем вручную указать этот параметр через командную строку с флагом -ngl, но здесь я не занимаюсь тонкой настройкой,
просто нужно понимать, что если при увеличении размера контекстного окна с 32k до 64k наблюдается значительное падение производительности, мы можем попробовать увеличить скорость на 64k, подстроив количество разгруженных слоев.
Тестовое оборудование и настройка llama.cpp
Я тестировал скорость LLM на ПК со следующей конфигурацией:
- CPU i-14700
- RAM 64GB 6000Hz (2x32GB)
- GPU RTX-4080
- Ubuntu с драйверами NVidia
- llama.cpp/llama-cli, без указания разгруженных слоев
- Начальное использование VRAM перед запуском llama-cli: 300 МБ
Дополнительные запуски с контекстом 128K (Qwen3.5 27B и 122B)
| Модель | 128K Load | 128K: T/s |
|---|---|---|
| Qwen3.5-27B-UD-IQ3_XXS | 16/625 | 9.6 |
| Qwen3.5-122B-A10B-UD-IQ3_XXS | 27/496 | 19.2 |
Выводы для систем с 16 ГБ VRAM
- Моя текущая любимая модель Qwen3.5-27B-UD-IQ3_XXS отлично показывает себя в своем “сладком пятне” контекста 50k (я получаю примерно 36 токенов в секунду).
- Qwen3.5-122B-A10B-UD-IQ3_XXS по производительности обгоняет Qwen3.5 27B на контекстах выше 64K.
- Я могу заставить Qwen3.5-35B-A3B-UD-IQ3_S работать с контекстом в 100k токенов, и она помещается в VRAM, поэтому падения производительности нет.
- Я не буду использовать gemma-4-31B на 16 ГБ VRAM, но gemma-4-26B может быть… средне-хорошей, нужно протестировать.
- Нужно протестировать, как хорошо работают Nemotron cascade 2 и GLM-4.7 Flash REAP 23B. Будут ли они лучше, чем Qwen3.5-35B q3? Я сомневаюсь, но все же стоит протестировать, чтобы подтвердить подозрения.