Question 1

Что означает низкая загрузка GPU при запуске LLM с помощью llama.cpp?

Accepted Answer

Это часто означает, что множество слоёв остаётся на CPU, поэтому скорость генерации токенов резко падает. Вы можете попробовать увеличить offload слоёв на GPU с помощью параметра ngl, выбрать меньшую квантизацию или сократить контекст, чтобы на GPU поместилась большая часть модели.

Question 2

Как увеличение контекстного окна влияет на количество токенов в секунду при использовании 16 ГБ видеопамяти?

Accepted Answer

Увеличение длины контекста расширяет кэш KV и потребление VRAM, что может снизить количество токенов в секунду или потребовать частичной разгрузки в оперативную память. Более короткий контекст, меньшие модели или более агрессивное квантование помогают поддерживать высокую скорость на одной карте с 16 ГБ памяти.

Question 3

Какие компромиссы при квантовании важны для размещения больших моделей в 16 ГБ памяти?

Accepted Answer

Квантование с меньшей битностью требует меньше видеопамяти и увеличивает количество токенов в секунду, но может ухудшить качество. Квантования в стилях IQ3 и IQ4 являются распространённым компромиссом для llama.cpp при использовании одного GPU с 16 ГБ памяти, когда необходим длинный контекст или работа с большими точками контрольных версий.

Question 4

Могут ли модели с архитектурой mixture-of-experts работать быстро на одном GPU с 16 ГБ памяти?

Accepted Answer

Модели MoE могут достигать высокой скорости генерации токенов в секунду, так как на каждом шаге прямого прохода выполняется только часть сети; однако вам всё равно потребуется достаточный объём видеопамяти для активных экспертов, весов и кэша KV при выбранной длине контекста.

Question 5

Что можно попробовать, если контекст 64K работает значительно медленнее контекста 32K на одном и том же GPU?

Accepted Answer

Настройте количество слоев, загружаемых на GPU, с помощью параметра ngl; примите более короткий контекст, если это подходит для вашей задачи, либо перейдите на более легкую квантизацию, чтобы больше слоев оставались на устройстве и снизилась нагрузка на кэш KV.

Модель	Размер	19K VRAM	19K GPU/CPU	19K T/s	32K VRAM	32K Load	32K T/s	64K VRAM	64K Load	64K: T/s
Qwen3.5-35B-A3B-UD-IQ3_S	13.6	14.3GB	93%/100%	136.4	14.6GB	93%/100%	138.5	14.9GB	88%/115%	136.8
Qwen3.5-27B-UD-IQ3_XXS	11.5	12.9	98/100	45.3	13.7	98/100	45.1	14.7	45/410	22.7
Qwen3.5-122B-A10B-UD-IQ3_XXS	44.7	14.7	30/470	22.3	14.7	30/480	21.8	14.7	28/490	21.5
nvidia Nemotron-Cascade-2-30B IQ4_XS	18.2	14.6	60/305	115.8	14.7	57/311	113.6	14.7	55/324	103.4
gemma-4-26B-A4B-it-UD-IQ4_XS	13.4	14.7	95/100	121.7	14.9	95/115	114.9	14.9	75/190	96.1
gemma-4-31B-it-UD-IQ3_XXS	11.8	14.8	68/287	29.2	14.8	41/480	18.4	14.8	18/634	8.1
GLM-4.7-Flash-IQ4_XS	16.3	15.0	66/240	91.8	14.9	62/262	86.1	14.9	53/313	72.5
GLM-4.7-Flash-REAP-23B IQ4_XS	12.6	13.7	92/100	122.0	14.4	95/102	123.2	14.9	71/196	97.1

Модель	128K Load	128K: T/s
Qwen3.5-27B-UD-IQ3_XXS	16/625	9.6
Qwen3.5-122B-A10B-UD-IQ3_XXS	27/496	19.2

Бенчмарки LLM с 16 ГБ видеопамяти с использованием llama.cpp (скорость и контекст)

Таблица сравнения скорости LLM (токенов в секунду и VRAM)

О llama.cpp, производительности LLM, OpenCode и других сравнениях

Почему длина контекста влияет на токены в секунду

Тестовое оборудование и настройка llama.cpp

Дополнительные запуски с контекстом 128K (Qwen3.5 27B и 122B)

Выводы для систем с 16 ГБ VRAM