Hoeveel sneller zijn LLMs op GPU dan op CPU?

Bij vergelijkende testuitvoeringen leverden GPUs ongeveer 15–23 keer hogere doorvoer (tokens per seconde) op dan een 4-kern CPU voor dezelfde modellen. Het exacte snelheidsvermogen hangt af van de modelgrootte en de kwantisatie.

Wat beïnvloedt de snelheid van LLM-inferentie?

Hardware (GPU versus CPU en VRAM), modelgrootte (aantal parameters) en kwantisatie (q4, q6, q8, fp16) beïnvloeden allemaal het aantal tokens per seconde. Kleinere of sterkere gekwantiseerde modellen lopen meestal sneller, maar kunnen kwaliteit inwisselen.

Wat token doorvoer kan ik verwachten van LLMs op een GPU?

Op een moderne GPU bereiken modellen met 7–8B parameters vaak ongeveer 40–98 tokens per seconde, afhankelijk van de kwantisatie. Grotere modellen gebruiken meer VRAM en kunnen trager lopen.

Is het praktisch om LLMs uit te voeren op een CPU?

Ja voor licht gebruik. CPU-inferentie is veel trager (enkele cijfers tokens per seconde in veel tests), maar vermijdt GPU-kosten en kan acceptabel zijn voor sporadische of batchtaken.

Waar kan ik meer informatie vinden over LLM-prestaties en benchmarks?

Ons LLM Performance hub behandelt doorvoer versus latentie, VRAM-limieten, parallelle aanvragen en benchmarks over runtime-omgevingen en hardware.

Snelheidstest voor grote taalmodellen

Laat ons de snelheid van de LLMs testen op GPU versus CPU

Inhoud

Vergelijking van de voorspellingsnelheid van verschillende versies van LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) op CPU en GPU.

Voor meer informatie over doorvoer, latentie, VRAM en benchmarks over runtime en hardware, zie LLM Performance: Benchmarks, Bottlenecks & Optimization.

Testen van de snelheid van grote taalmodellen bij het detecteren van logische fouten - stopwatch

Ik gebruik dezelfde voorbeeldtekst als in de vorige test waarin ik de detectiekwaliteit van logische fouten van deze LLMs vergeleken.

Kijk, op eerste zicht klinkt het allemaal perfect redelijk:
te veel mensen, te weinig woningen.

Maar het is nooit zo eenvoudig,
zoals een voormalig minister van wonen zou moeten weten.

TL;DR

Op GPU draaien LLMs ongeveer 20 keer sneller, maar op CPU zijn ze nog steeds vrij goed te beheren.

Testomgeving Beschrijving

Ik heb de onderstaande Large Language Models uitgevoerd op twee PC’s:

Oude PC met 4e generatie i5 4-kern CPU (i5-4460 - geproduceerd in 2014) en
Nieuwe PC met RTX 4080 GPU (geproduceerd in 2022) met 9728 CUDA-kernen en 304 tensor-kernen.

Testresultaten

Hieronder staan de resultaten:

Model_Name_Version__________	GPU RAM	GPU duur	GPU Prestatie	Hoofd RAM	CPU duur	CPU Prestatie	Prestatie verschil
llama3:8b-instruct-q4_0	5,8GB	2,1s	80t/s	4,7GB	49s	4,6t/s	17,4x
llama3:8b-instruct-q8_0	9,3GB	3,4s	56t/s	8,3GB	98s	2,7t/s	20,7x
phi3:3.8b	4,5GB	3,6s	98t/s	3,0GB	83s	7,2t/s	13,6x
phi3:3.8b-mini-4k-instruct-q8_0	6,0GB	6,9s	89t/s	4,6GB	79s	5,3t/s	16,8x
phi3:3.8b-mini-instruct-4k-fp16	9,3GB	4,2s	66t/s	7,9GB	130s	2,9t/s	22,8x
phi3:14b	9,6GB	4,2s	55t/s	7,9GB	96s	2,7t/s	21,2x
phi3:14b-medium-4k-instruct-q6_K	12,5GB	8,9s	42t/s	11,1GB	175s	1,9t/s	21,8x
mistral:7b-instruct-v0.3-q4_0	5,4GB	2,1s	87t/s	4,1GB	36s	4,9t/s	17,8x
mistral:7b-instruct-v0.3-q8_0	8,7GB	2,3s	61t/s	7,5GB	109s	2,9t/s	21,0x
gemma:7b-instruct-v1.1-q4_0	7,4GB	1,8s	82t/s	7,5GB	25s	4,4t/s	18,6x
gemma:7b-instruct-v1.1-q6_K	9,1GB	1,6s	66t/s	7,5GB	40s	3,0t/s	22,0x

Modelprestatie staat in de kolommen “GPU prestatie” en “CPU prestatie”.

Snelheidsverhoging bij overgang van CPU naar GPU staat in de kolom “Prestatie verschil”.

We moeten niet veel aandacht besteden aan de kolommen “duur” - deze metriek hangt af van de modelprestatie en de lengte van de gegenereerde tekst. Alle modellen genereren tekst van verschillende lengtes. Deze kolom geeft slechts indicatieve wachttijd.

Conclusie 1 - Prestatieverschil

Het verschil in snelheid tussen GPU en CPU is niet zo groot als verwacht.

Serieuze? Al die legioenen (10k+) van Ada Tensor & Cuda-kernen versus 4 Haswell-spartanen, en slechts 20 keer het verschil. Ik dacht dat het 100-1000 keer zou zijn.

Conclusie 2 - Kosten per voorspelling zijn vrijwel hetzelfde

De prijs van deze nieuwe PC is ongeveer 3500AUD
Die oude PC kost nu waarschijnlijk 200AUD

Vanaf de website van PCCCaseGear:

pc met RTX 4080super prijs

Vanaf eBay (je zou mogelijk extra 8GB RAM moeten toevoegen om 16GB totaal te krijgen - dus rondop naar 200AUD):

Dell 9020 van eBay

Je zou 20 van die oude pc’s nodig hebben om dezelfde doorvoer te krijgen, dus 200AUD * 20 = 4000AUD.

Conclusie 3 - Moore’s wet

Moore’s wet stelt dat de prestaties van computers elke twee jaar verdubbelen.

Intel begon met de productie van de i5-4460 in 2014. Nvidia begon met één van de RTX 4080 in 2022. De verwachte prestatieverhoging zou ongeveer 16 keer moeten zijn.

Ik zou zeggen dat Moore’s wet nog steeds werkt.

Houd er wel rekening mee dat de DELL 9020 op zijn tijd een basiswerkstation was, en de pc met RTX 4080 is nu een geavanceerde grafisch/gaming pc. Slecht iets anders gewichtssegment.

Voor meer benchmarks, hardwarekeuzes en prestatieoptimalisatie, zie onze LLM Performance: Benchmarks, Bottlenecks & Optimization hub.