Тест скорости работы крупных языковых моделей

Давайте протестируем скорость работы больших языковых моделей на GPU по сравнению с CPU

Содержимое страницы

Сравнение скорости предсказания нескольких версий ЛЛМ: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (открытый исходный код) на CPU и GPU.

Для более подробной информации о пропускной способности, задержке, VRAM и тестах на различных платформах и оборудовании, см. Производительность ЛЛМ: тесты, узкие места и оптимизация.

Тестирование скорости крупных языковых моделей в обнаружении логических ошибок - секундомер

Я использовал тот же образец текста, что и в предыдущем тесте, где я сравнивал качество обнаружения логических ошибок этими ЛЛМ.

Вот, на первый взгляд, всё звучит вполне разумно: слишком много людей, недостаточно домов.

Но дело никогда не бывает таким простым, как должен знать бывший министр по делам внутренних.

TL;DR

На GPU ЛЛМ работают примерно в 20 раз быстрее, но на CPU они всё ещё достаточно управляемы.

Описание тестового стенда

Я запустил нижеуказанные Крупные языковые модели на двух ПК:

  • Старый с 4-ъядерным процессором i5 4-го поколения (i5-4460 - выпущен в 2014 году) и
  • Новый с RTX 4080 GPU (выпущен в 2022 году) с 9728 CUDA ядрами и 304 тензорными ядрами.

Результаты тестов

Ниже приведены результаты:

Model_Name_Version__________ GPU RAM GPU duration GPU Perfor-mance Main RAM CPU Duration CPU Perfor-mance Perfor-mance diffe-rence
llama3:8b-instruct-q4_0 5.8GB 2.1s 80t/s 4.7GB 49s 4.6t/s 17.4x
llama3:8b-instruct-q8_0 9.3GB 3.4s 56t/s 8.3GB 98s 2.7t/s 20.7x
phi3:3.8b 4.5GB 3.6s 98t/s 3.0GB 83s 7.2t/s 13.6x
phi3:3.8b-mini-4k-instruct-q8_0 6.0GB 6.9s 89t/s 4.6GB 79s 5.3t/s 16.8x
phi3:3.8b-mini-instruct-4k-fp16 9.3GB 4.2s 66t/s 7.9GB 130s 2.9t/s 22.8x
phi3:14b 9.6GB 4.2s 55t/s 7.9GB 96s 2.7t/s 21.2x
phi3:14b-medium-4k-instruct-q6_K 12.5GB 8.9s 42t/s 11.1GB 175s 1.9t/s 21.8x
mistral:7b-instruct-v0.3-q4_0 5.4GB 2.1s 87t/s 4.1GB 36s 4.9t/s 17.8x
mistral:7b-instruct-v0.3-q8_0 8.7GB 2.3s 61t/s 7.5GB 109s 2.9t/s 21.0x
gemma:7b-instruct-v1.1-q4_0 7.4GB 1.8s 82t/s 7.5GB 25s 4.4t/s 18.6x
gemma:7b-instruct-v1.1-q6_K 9.1GB 1.6s 66t/s 7.5GB 40s 3.0t/s 22.0x

Производительность модели указана в столбцах “GPU производительность” и “CPU производительность”.

Прирост скорости при переходе с CPU на GPU указан в столбце “Разница в производительности”.

Не стоит слишком сильно обращать внимание на столбцы “длительность” - этот показатель зависит от производительности модели и длины сгенерированного текста. Все модели генерируют текст разной длины. Эти столбцы просто дают ориентировочное время ожидания.

Вывод 1 - Разница в производительности

Разница в скорости между GPU и CPU не такая большая, как ожидалось.

Серьёзно? Все легионы (10к+) тензорных ядер Ada и Cuda против 4 спартанцев Haswell, и всего лишь 20-кратная разница. Я думал, будет 100-1000 раз.

Вывод 2 - Стоимость предсказания почти одинакова

  • новая цена этого ПК составляет около 3500 AUD
  • старый ПК сейчас, вероятно, стоит 200 AUD

С сайта PCCCaseGear:

цена ПК с RTX 4080super

С ebay (возможно, вам захочется добавить ещё 8GB RAM, чтобы сделать 16GB всего - так что давайте округлим до 200 AUD):

Dell 9020 с ebay

Вам, возможно, понадобится 20 таких старых ПК, чтобы получить такую же пропускную способность, так что 200 AUD * 20 = 4000 AUD.

Вывод 3 - Закон Мура

Закон Мура предполагает, что производительность компьютера удваивается каждые два года.

Intel начал производство i5-4460 в 2014 году. Nvidia начал производство RTX 4080 в 2022 году. Ожидаемый прирост производительности должен быть ~16 раз.

Я бы сказал, закон Мура всё ещё работает.

Но имейте в виду, что DELL 9020 в своё время был базовой рабочей станцией, а ПК с RTX 4080 сейчас, я бы сказал, это продвинутый графический/игровой ПК. Немного разные весовые категории.

Для более подробных тестов, выбора оборудования и настройки производительности, см. наш Центр производительности ЛЛМ: тесты, узкие места и оптимизация.

Полезные ссылки