Hur mycket snabbare är LLM:er på GPU än på CPU?

I jämförelseredovisningar levererade GPU:er ungefär 15–23 gånger högre genomströmningshastighet (token per sekund) än en 4-kärnig CPU för samma modeller. Den exakta hastighetsförbättringen beror på modellstorlek och kvantisering.

Vad påverkar LLM-inferenshastigheten?

Hardvara (GPU mot CPU och VRAM), modellstorlek (antal parametrar) och kvantisering (q4, q6, q8, fp16) påverkar alla antalet token per sekund. Mindre eller stärkt kvantisera modeller kör vanligtvis snabbare men kan avge kvalitet.

Vad token-throughput kan jag förvänta mig från LLM:er på en GPU?

På en modern GPU når ofta modeller med 7–8B parametrar cirka 40–98 token per sekund beroende på kvantisering. Större modeller använder mer VRAM och kan köras långsammare.

Är det praktiskt att köra LLM på CPU?

Ja för lätt användning. CPU-inferens är mycket långsammare (flera ensiffriga token per sekund i många tester) men undviker kostnaden för GPU och kan vara acceptabel för tillfälliga eller batchuppgifter.

Var kan jag hitta mer om LLM-prestanda och benchmarkar?

Vår LLM-prestandahubb täcker genomflöde mot latens, VRAM-gränser, parallella begäranden och jämförelser av prestanda över olika körningar och hårdvara.

Hastighetstest för stora språkmodeller

Låt oss testa LLM:s hastighet på GPU jämfört med CPU

Sidinnehåll

Jämförelse av förutsägelsehastighet hos flera versioner av LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) på CPU och GPU.

För mer information om genomströmningshastighet, latens, VRAM och benchmarkar över olika körningar och hårdvara, se LLM-prestanda: Benchmarkar, fläskpunkter & optimering.

Testning av hastighet hos stora språkmodeller för att upptäcka logiska fallacies - stopur

Jag använder samma exempeltext som i tidigare test där jag jämförde dessa LLMs upptäckningskvalitet av logiska fallacies.

Look, on first blush, it all sounds perfectly reasonable:
too many people, not enough houses.

But it is never that simple,
as a former home affairs minister should know.

TL;DR

På GPU kör LLMs ungefär 20 gånger snabbare, men på CPU är de fortfarande ganska hanterbara.

Teststationens beskrivning

Jag har körts nedan Stora språkmodeller på två datorer

Äldre med 4:e generationens i5 4-kärnig CPU (i5-4460 - tillverkad 2014) och
Ny med RTX 4080 GPU (tillverkad 2022) med 9728 CUDA-kärnor och 304 tensor-kärnor.

Testresultat

Här nedan är resultaten:

Model_Name_Version__________	GPU RAM	GPU duration	GPU Perfor-mance	Main RAM	CPU Duration	CPU Perfor-mance	Perfor-mance diffe-rence
llama3:8b-instruct-q4_0	5.8GB	2.1s	80t/s	4.7GB	49s	4.6t/s	17.4x
llama3:8b-instruct-q8_0	9.3GB	3.4s	56t/s	8.3GB	98s	2.7t/s	20.7x
phi3:3.8b	4.5GB	3.6s	98t/s	3.0GB	83s	7.2t/s	13.6x
phi3:3.8b-mini-4k-instruct-q8_0	6.0GB	6.9s	89t/s	4.6GB	79s	5.3t/s	16.8x
phi3:3.8b-mini-instruct-4k-fp16	9.3GB	4.2s	66t/s	7.9GB	130s	2.9t/s	22.8x
phi3:14b	9.6GB	4.2s	55t/s	7.9GB	96s	2.7t/s	21.2x
phi3:14b-medium-4k-instruct-q6_K	12.5GB	8.9s	42t/s	11.1GB	175s	1.9t/s	21.8x
mistral:7b-instruct-v0.3-q4_0	5.4GB	2.1s	87t/s	4.1GB	36s	4.9t/s	17.8x
mistral:7b-instruct-v0.3-q8_0	8.7GB	2.3s	61t/s	7.5GB	109s	2.9t/s	21.0x
gemma:7b-instruct-v1.1-q4_0	7.4GB	1.8s	82t/s	7.5GB	25s	4.4t/s	18.6x
gemma:7b-instruct-v1.1-q6_K	9.1GB	1.6s	66t/s	7.5GB	40s	3.0t/s	22.0x

Modellprestanda visas i kolumnerna “GPU-prestanda” och “CPU-prestanda”.

Hastighetsökning vid övergång från CPU till GPU visas i kolumnen “Prestandaskillnad”.

Vi bör inte lägga för mycket vikt på “varaktighet”-kolumnerna - detta mått beror på modellprestanda och längden på den producerade texten. Alla modeller producerar texter av olika längder. Dessa kolumner ger bara indikativ väntetid.

Slutsats 1 - Prestandaskillnad

Skillnaden i prestanda mellan GPU och CPU är inte så stor som förväntat.

Serious? Alla legions (10k+) av Ada Tensor & Cuda-kärnor mot 4 Haswell-spartans, och bara 20 gånger skillnaden. Jag trodde det skulle vara 100-1000 gånger.

Slutsats 2 - Kostnad per förutsägelse är nästan lika

denna nya dator kostar cirka 3500AUD
den gamla datorn kostar nu sannolikt 200AUD

Från PCCCaseGear:s hemsida:

dator med RTX 4080super pris

Från eBay (du kan vilja lägga till ytterligare 8GB RAM för att få 16GB totalt - så runda upp det till 200AUD):

Dell 9020 från eBay

Du kan behöva 20 av dessa gamla datorer för att ha samma genomströmningshastighet, så 200AUD * 20 = 4000AUD.

Slutsats 3 - Moores lag

Moores lag innebär att datorers prestanda fördubblas varje två år.

Intel började produktionen av i5-4460 2014. Nvidia började en av RTX 4080 2022. Den förväntade prestandaökningen bör vara ~16 gånger.

Jag skulle säga att Moores lag fortfarande gäller.

Men tänk på att DELL 9020 var en grundläggande arbetsstation vid den tiden, och dator med RTX 4080 är nu jag skulle säga en avancerad grafik/spel-dator. Slightly olika viktclass.

För fler benchmarkar, hårdvaruväljningar och prestandaoptimeringar, kontrollera vår LLM-prestanda: Benchmarkar, fläskpunkter & optimering hub.