Ile razy szybsze są LLM na GPU niż na CPU?

W porównawczych testach GPU osiągały przepustowość (liczbę tokenów na sekundę) około 15–23 razy wyższą niż 4-jądroowy CPU dla tych samych modeli. Dokładny wzrost wydajności zależy od rozmiaru modelu i jego kwantyzacji.

Co wpływa na szybkość wnioskowania LLM?

Sprzęt (GPU vs CPU i VRAM), rozmiar modelu (liczba parametrów) oraz kwantyzacja (q4, q6, q8, fp16) wpływają na liczbę tokenów na sekundę. Mniejsze lub bardziej skwantyzowane modele zazwyczaj działają szybciej, ale mogą oferować niższej jakość.

Jaki przepustowość tokenów można spodziewać się od LLM na GPU?

Na nowoczesnej GPU modele o liczbie parametrów 7–8B często osiągają około 40–98 tokenów na sekundę w zależności od kwantyzacji. Większe modele zużywają więcej pamięci VRAM i mogą działać wolniej.

Czy uruchamianie LLM na procesorze CPU jest praktyczne?

Tak dla lekkiego użycia. Inference CPU jest znacznie wolniejszy (kilka tokenów na sekundę w wielu testach), ale unika kosztów GPU i może być akceptowalne dla zadań okazjonalnych lub partii.

Gdzie mogę znaleźć więcej informacji na temat wydajności i testów LLM?

Nasz hub wydajności LLM obejmuje przepustowość vs opóźnienie, limity VRAM, żądania równoległe oraz wyniki testów na różnych środowiskach i sprzęcie.

Test prędkości modeli dużych języków

Sprawdźmy prędkość LLM na GPU vs CPU

Page content

Porównanie prędkości przewidywania kilku wersji LLM: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) na CPU i GPU.

Aby uzyskać więcej informacji na temat przepływności, opóźnienia, VRAM oraz benchmarków w różnych środowiskach i sprzęcie, zobacz Wydajność LLM: Benchmarki, Bottlenecki i Optymalizacja.

Testowanie prędkości modeli językowych w wykrywaniu błędów logicznych - sekundówka

Używam tego samego tekstu testowego, co w poprzednim teście, w którym porównałem jakość wykrywania błędów logicznych przez te LLM.

Spójrz, na pierwszy rzut oka wszystko brzmi zupełnie rozsądnie:
za dużo ludzi, za mało domów.

Ale nigdy nie jest tak prosto,
jak powinien wiedzieć dawniej minister spraw wewnętrznych.

TL;DR

Na GPU LLMi działają około 20 razy szybciej, ale na CPU nadal są całkiem dobre do zarządzania.

Opis stanowiska testowego

Uruchomiłem poniższe Modele językowe (Large Language Models) na dwóch komputerach:

Stary z 4-karnym procesorem 4-generacji i5 (i5-4460 - wyprodukowany w 2014 roku) oraz
Nowy z GPU RTX 4080 (wyprodukowany w 2022 roku) z 9728 jądrami CUDA i 304 tensorami.

Wyniki testów

Poniżej znajdują się wyniki:

Model_Name_Version__________	GPU RAM	GPU duration	GPU Perfor-mance	Main RAM	CPU Duration	CPU Perfor-mance	Perfor-mance diffe-rence
llama3:8b-instruct-q4_0	5,8 GB	2,1 s	80t/s	4,7 GB	49 s	4,6t/s	17,4x
llama3:8b-instruct-q8_0	9,3 GB	3,4 s	56t/s	8,3 GB	98 s	2,7t/s	20,7x
phi3:3.8b	4,5 GB	3,6 s	98t/s	3,0 GB	83 s	7,2t/s	13,6x
phi3:3.8b-mini-4k-instruct-q8_0	6,0 GB	6,9 s	89t/s	4,6 GB	79 s	5,3t/s	16,8x
phi3:3.8b-mini-instruct-4k-fp16	9,3 GB	4,2 s	66t/s	7,9 GB	130 s	2,9t/s	22,8x
phi3:14b	9,6 GB	4,2 s	55t/s	7,9 GB	96 s	2,7t/s	21,2x
phi3:14b-medium-4k-instruct-q6_K	12,5 GB	8,9 s	42t/s	11,1 GB	175 s	1,9t/s	21,8x
mistral:7b-instruct-v0.3-q4_0	5,4 GB	2,1 s	87t/s	4,1 GB	36 s	4,9t/s	17,8x
mistral:7b-instruct-v0.3-q8_0	8,7 GB	2,3 s	61t/s	7,5 GB	109 s	2,9t/s	21,0x
gemma:7b-instruct-v1.1-q4_0	7,4 GB	1,8 s	82t/s	7,5 GB	25 s	4,4t/s	18,6x
gemma:7b-instruct-v1.1-q6_K	9,1 GB	1,6 s	66t/s	7,5 GB	40 s	3,0t/s	22,0x

Wydajność modeli znajduje się w kolumnach “GPU performance” i “CPU performance”.

Wzrost prędkości przy przechodzeniu z CPU na GPU znajduje się w kolumnie “Performance difference”.

Nie powinniśmy zbyt wiele uwagi poświęcać kolumnom “duration” - ten wskaźnik zależy od wydajności modelu i długości wygenerowanego tekstu. Wszystkie modele generują tekst o różnej długości. Te kolumny dają tylko orientacyjny czas oczekiwania.

Wnioski 1 - Różnica wydajności

Różnica wydajności między GPU a CPU nie jest tak duża, jak się spodziewano.

Serio? Wszystkie legie (10k+) jąder Ada Tensor & Cuda vs 4 Haswell spartanów, i tylko 20-krotna różnica. Sądziłem, że będzie to 100-1000-krotna różnica.

Wnioski 2 - Koszt na przewidywanie jest niemal taki sam

ten nowy komputer kosztuje około 3500 AUD
ten stary komputer kosztuje obecnie prawdopodobnie 200 AUD

Z witryny PCPCaseGear:

komputer z RTX 4080super cena

Z eBay (możesz chcieć dodać dodatkowe 8 GB pamięci RAM, aby uzyskać 16 GB łącznie - zaokrąglamy więc do 200 AUD):

Dell 9020 z eBay

Możesz potrzebować 20 takich starych komputerów, aby uzyskać tę samą przepływność, więc 200 AUD * 20 = 4000 AUD.

Wnioski 3 - Prawo Mooresa

Prawo Mooresa mówi, że wydajność komputerów podwaja się co dwa lata.

Intel rozpoczął produkcję i5-4460 w 2014 roku. Nvidia rozpoczęła produkcję jednej z wersji RTX 4080 w 2022 roku. Oczekiwany wzrost wydajności powinien wynosić około 16 razy.

Sądziłem, że prawo Mooresa nadal działa.

Pamiętaj jednak, że Dell 9020 był wtedy podstawowym komputerem stacjonarnym, a komputer z RTX 4080 to obecnie zaawansowany komputer graficzny/graowy. Słabo różniący się klasą wagową.

Aby uzyskać więcej benchmarków, wyborów sprzętu i optymalizacji wydajności, sprawdź nasz Wydajność LLM: Benchmarki, Bottlenecki i Optymalizacja.