Насколько быстрее работают большие языковые модели на GPU по сравнению с CPU?

В сравнительных тестах графические процессоры обеспечивали примерно в 15–23 раз более высокую пропускную способность (токенов в секунду) по сравнению с 4-ядерным процессором для тех же моделей. Точное ускорение зависит от размера модели и квантования.

Что влияет на скорость инференса LLM?

Аппаратное обеспечение (GPU vs CPU и VRAM), размер модели (количество параметров) и квантование (q4, q6, q8, fp16) влияют на количество токенов в секунду. Меньшие или более квантованные модели обычно работают быстрее, но могут уступать в качестве.

Какой пропускная способность токенов можно ожидать от больших языковых моделей на графическом процессоре?

На современном GPU модели с 7–8 миллиардами параметров часто достигают производительности около 40–98 токенов в секунду в зависимости от квантования. Более крупные модели потребляют больше видеопамяти и могут работать медленнее.

Возможно ли практичное использование больших языковых моделей на процессоре?

Да для лёгкого использования. CPU-инференс значительно медленнее (единицы токенов в секунду в большинстве тестов), но позволяет избежать затрат на GPU и может быть приемлемым для периодических или пакетных задач.

Где можно найти больше информации о производительности и бенчмарках LLM?

Наш центр производительности LLM охватывает пропускную способность против задержки, ограничения VRAM, параллельные запросы и бенчмарки по различным средам выполнения и оборудованию.

Тест скорости работы крупных языковых моделей

Давайте протестируем скорость работы больших языковых моделей на GPU по сравнению с CPU

Содержимое страницы

Сравнение скорости предсказания нескольких версий ЛЛМ: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (открытый исходный код) на CPU и GPU.

Для более подробной информации о пропускной способности, задержке, VRAM и тестах на различных платформах и оборудовании, см. Производительность ЛЛМ: тесты, узкие места и оптимизация.

Тестирование скорости крупных языковых моделей в обнаружении логических ошибок - секундомер

Я использовал тот же образец текста, что и в предыдущем тесте, где я сравнивал качество обнаружения логических ошибок этими ЛЛМ.

Вот, на первый взгляд, всё звучит вполне разумно: слишком много людей, недостаточно домов.

Но дело никогда не бывает таким простым, как должен знать бывший министр по делам внутренних.

TL;DR

На GPU ЛЛМ работают примерно в 20 раз быстрее, но на CPU они всё ещё достаточно управляемы.

Описание тестового стенда

Я запустил нижеуказанные Крупные языковые модели на двух ПК:

Старый с 4-ъядерным процессором i5 4-го поколения (i5-4460 - выпущен в 2014 году) и
Новый с RTX 4080 GPU (выпущен в 2022 году) с 9728 CUDA ядрами и 304 тензорными ядрами.

Результаты тестов

Ниже приведены результаты:

Model_Name_Version__________	GPU RAM	GPU duration	GPU Perfor-mance	Main RAM	CPU Duration	CPU Perfor-mance	Perfor-mance diffe-rence
llama3:8b-instruct-q4_0	5.8GB	2.1s	80t/s	4.7GB	49s	4.6t/s	17.4x
llama3:8b-instruct-q8_0	9.3GB	3.4s	56t/s	8.3GB	98s	2.7t/s	20.7x
phi3:3.8b	4.5GB	3.6s	98t/s	3.0GB	83s	7.2t/s	13.6x
phi3:3.8b-mini-4k-instruct-q8_0	6.0GB	6.9s	89t/s	4.6GB	79s	5.3t/s	16.8x
phi3:3.8b-mini-instruct-4k-fp16	9.3GB	4.2s	66t/s	7.9GB	130s	2.9t/s	22.8x
phi3:14b	9.6GB	4.2s	55t/s	7.9GB	96s	2.7t/s	21.2x
phi3:14b-medium-4k-instruct-q6_K	12.5GB	8.9s	42t/s	11.1GB	175s	1.9t/s	21.8x
mistral:7b-instruct-v0.3-q4_0	5.4GB	2.1s	87t/s	4.1GB	36s	4.9t/s	17.8x
mistral:7b-instruct-v0.3-q8_0	8.7GB	2.3s	61t/s	7.5GB	109s	2.9t/s	21.0x
gemma:7b-instruct-v1.1-q4_0	7.4GB	1.8s	82t/s	7.5GB	25s	4.4t/s	18.6x
gemma:7b-instruct-v1.1-q6_K	9.1GB	1.6s	66t/s	7.5GB	40s	3.0t/s	22.0x

Производительность модели указана в столбцах “GPU производительность” и “CPU производительность”.

Прирост скорости при переходе с CPU на GPU указан в столбце “Разница в производительности”.

Не стоит слишком сильно обращать внимание на столбцы “длительность” - этот показатель зависит от производительности модели и длины сгенерированного текста. Все модели генерируют текст разной длины. Эти столбцы просто дают ориентировочное время ожидания.

Вывод 1 - Разница в производительности

Разница в скорости между GPU и CPU не такая большая, как ожидалось.

Серьёзно? Все легионы (10к+) тензорных ядер Ada и Cuda против 4 спартанцев Haswell, и всего лишь 20-кратная разница. Я думал, будет 100-1000 раз.

Вывод 2 - Стоимость предсказания почти одинакова

новая цена этого ПК составляет около 3500 AUD
старый ПК сейчас, вероятно, стоит 200 AUD

С сайта PCCCaseGear:

цена ПК с RTX 4080super

С ebay (возможно, вам захочется добавить ещё 8GB RAM, чтобы сделать 16GB всего - так что давайте округлим до 200 AUD):

Dell 9020 с ebay

Вам, возможно, понадобится 20 таких старых ПК, чтобы получить такую же пропускную способность, так что 200 AUD * 20 = 4000 AUD.

Вывод 3 - Закон Мура

Закон Мура предполагает, что производительность компьютера удваивается каждые два года.

Intel начал производство i5-4460 в 2014 году. Nvidia начал производство RTX 4080 в 2022 году. Ожидаемый прирост производительности должен быть ~16 раз.

Я бы сказал, закон Мура всё ещё работает.

Но имейте в виду, что DELL 9020 в своё время был базовой рабочей станцией, а ПК с RTX 4080 сейчас, я бы сказал, это продвинутый графический/игровой ПК. Немного разные весовые категории.

Для более подробных тестов, выбора оборудования и настройки производительности, см. наш Центр производительности ЛЛМ: тесты, узкие места и оптимизация.