Тест скорости работы крупных языковых моделей
Давайте протестируем скорость работы больших языковых моделей на GPU по сравнению с CPU
Сравнение скорости предсказания нескольких версий ЛЛМ: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (открытый исходный код) на CPU и GPU.
Для более подробной информации о пропускной способности, задержке, VRAM и тестах на различных платформах и оборудовании, см. Производительность ЛЛМ: тесты, узкие места и оптимизация.

Я использовал тот же образец текста, что и в предыдущем тесте, где я сравнивал качество обнаружения логических ошибок этими ЛЛМ.
Вот, на первый взгляд, всё звучит вполне разумно: слишком много людей, недостаточно домов.
Но дело никогда не бывает таким простым, как должен знать бывший министр по делам внутренних.
TL;DR
На GPU ЛЛМ работают примерно в 20 раз быстрее, но на CPU они всё ещё достаточно управляемы.
Описание тестового стенда
Я запустил нижеуказанные Крупные языковые модели на двух ПК:
- Старый с 4-ъядерным процессором i5 4-го поколения (i5-4460 - выпущен в 2014 году) и
- Новый с RTX 4080 GPU (выпущен в 2022 году) с 9728 CUDA ядрами и 304 тензорными ядрами.
Результаты тестов
Ниже приведены результаты:
| Model_Name_Version__________ | GPU RAM | GPU duration | GPU Perfor-mance | Main RAM | CPU Duration | CPU Perfor-mance | Perfor-mance diffe-rence |
|---|---|---|---|---|---|---|---|
| llama3:8b-instruct-q4_0 | 5.8GB | 2.1s | 80t/s | 4.7GB | 49s | 4.6t/s | 17.4x |
| llama3:8b-instruct-q8_0 | 9.3GB | 3.4s | 56t/s | 8.3GB | 98s | 2.7t/s | 20.7x |
| phi3:3.8b | 4.5GB | 3.6s | 98t/s | 3.0GB | 83s | 7.2t/s | 13.6x |
| phi3:3.8b-mini-4k-instruct-q8_0 | 6.0GB | 6.9s | 89t/s | 4.6GB | 79s | 5.3t/s | 16.8x |
| phi3:3.8b-mini-instruct-4k-fp16 | 9.3GB | 4.2s | 66t/s | 7.9GB | 130s | 2.9t/s | 22.8x |
| phi3:14b | 9.6GB | 4.2s | 55t/s | 7.9GB | 96s | 2.7t/s | 21.2x |
| phi3:14b-medium-4k-instruct-q6_K | 12.5GB | 8.9s | 42t/s | 11.1GB | 175s | 1.9t/s | 21.8x |
| mistral:7b-instruct-v0.3-q4_0 | 5.4GB | 2.1s | 87t/s | 4.1GB | 36s | 4.9t/s | 17.8x |
| mistral:7b-instruct-v0.3-q8_0 | 8.7GB | 2.3s | 61t/s | 7.5GB | 109s | 2.9t/s | 21.0x |
| gemma:7b-instruct-v1.1-q4_0 | 7.4GB | 1.8s | 82t/s | 7.5GB | 25s | 4.4t/s | 18.6x |
| gemma:7b-instruct-v1.1-q6_K | 9.1GB | 1.6s | 66t/s | 7.5GB | 40s | 3.0t/s | 22.0x |
Производительность модели указана в столбцах “GPU производительность” и “CPU производительность”.
Прирост скорости при переходе с CPU на GPU указан в столбце “Разница в производительности”.
Не стоит слишком сильно обращать внимание на столбцы “длительность” - этот показатель зависит от производительности модели и длины сгенерированного текста. Все модели генерируют текст разной длины. Эти столбцы просто дают ориентировочное время ожидания.
Вывод 1 - Разница в производительности
Разница в скорости между GPU и CPU не такая большая, как ожидалось.
Серьёзно? Все легионы (10к+) тензорных ядер Ada и Cuda против 4 спартанцев Haswell, и всего лишь 20-кратная разница. Я думал, будет 100-1000 раз.
Вывод 2 - Стоимость предсказания почти одинакова
- новая цена этого ПК составляет около 3500 AUD
- старый ПК сейчас, вероятно, стоит 200 AUD
С сайта PCCCaseGear:

С ebay (возможно, вам захочется добавить ещё 8GB RAM, чтобы сделать 16GB всего - так что давайте округлим до 200 AUD):

Вам, возможно, понадобится 20 таких старых ПК, чтобы получить такую же пропускную способность, так что 200 AUD * 20 = 4000 AUD.
Вывод 3 - Закон Мура
Закон Мура предполагает, что производительность компьютера удваивается каждые два года.
Intel начал производство i5-4460 в 2014 году. Nvidia начал производство RTX 4080 в 2022 году. Ожидаемый прирост производительности должен быть ~16 раз.
Я бы сказал, закон Мура всё ещё работает.
Но имейте в виду, что DELL 9020 в своё время был базовой рабочей станцией, а ПК с RTX 4080 сейчас, я бы сказал, это продвинутый графический/игровой ПК. Немного разные весовые категории.
Для более подробных тестов, выбора оборудования и настройки производительности, см. наш Центр производительности ЛЛМ: тесты, узкие места и оптимизация.
Полезные ссылки
- Производительность ЛЛМ и PCIe-каналы: ключевые аспекты
- Обнаружение логических ошибок с помощью ЛЛМ
- Приложение для Android для обнаружения логических ошибок: https://www.logical-fallacy.com/articles/detector-android-app/
- Перемещение моделей Ollama на другой диск или папку
- Самостоятельное размещение Perplexica - с Ollama
- Как Ollama обрабатывает параллельные запросы
- Тест: как Ollama использует производительность и эффективные ядра Intel CPU
- Облачные поставщики ЛЛМ
- Проблемы деградации в процессорах Intel 13-го и 14-го поколений
- Насколько хорош Quadro RTX 5880 Ada 48GB?