Snelheidstest voor grote taalmodellen
Laat ons de snelheid van de LLMs testen op GPU versus CPU
Vergelijking van de voorspellingsnelheid van verschillende versies van LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) op CPU en GPU.
Voor meer informatie over doorvoer, latentie, VRAM en benchmarks over runtime en hardware, zie LLM Performance: Benchmarks, Bottlenecks & Optimization.

Ik gebruik dezelfde voorbeeldtekst als in de vorige test waarin ik de detectiekwaliteit van logische fouten van deze LLMs vergeleken.
Kijk, op eerste zicht klinkt het allemaal perfect redelijk:
te veel mensen, te weinig woningen.
Maar het is nooit zo eenvoudig,
zoals een voormalig minister van wonen zou moeten weten.
TL;DR
Op GPU draaien LLMs ongeveer 20 keer sneller, maar op CPU zijn ze nog steeds vrij goed te beheren.
Testomgeving Beschrijving
Ik heb de onderstaande Large Language Models uitgevoerd op twee PC’s:
- Oude PC met 4e generatie i5 4-kern CPU (i5-4460 - geproduceerd in 2014) en
- Nieuwe PC met RTX 4080 GPU (geproduceerd in 2022) met 9728 CUDA-kernen en 304 tensor-kernen.
Testresultaten
Hieronder staan de resultaten:
| Model_Name_Version__________ | GPU RAM | GPU duur | GPU Prestatie | Hoofd RAM | CPU duur | CPU Prestatie | Prestatie verschil |
|---|---|---|---|---|---|---|---|
| llama3:8b-instruct-q4_0 | 5,8GB | 2,1s | 80t/s | 4,7GB | 49s | 4,6t/s | 17,4x |
| llama3:8b-instruct-q8_0 | 9,3GB | 3,4s | 56t/s | 8,3GB | 98s | 2,7t/s | 20,7x |
| phi3:3.8b | 4,5GB | 3,6s | 98t/s | 3,0GB | 83s | 7,2t/s | 13,6x |
| phi3:3.8b-mini-4k-instruct-q8_0 | 6,0GB | 6,9s | 89t/s | 4,6GB | 79s | 5,3t/s | 16,8x |
| phi3:3.8b-mini-instruct-4k-fp16 | 9,3GB | 4,2s | 66t/s | 7,9GB | 130s | 2,9t/s | 22,8x |
| phi3:14b | 9,6GB | 4,2s | 55t/s | 7,9GB | 96s | 2,7t/s | 21,2x |
| phi3:14b-medium-4k-instruct-q6_K | 12,5GB | 8,9s | 42t/s | 11,1GB | 175s | 1,9t/s | 21,8x |
| mistral:7b-instruct-v0.3-q4_0 | 5,4GB | 2,1s | 87t/s | 4,1GB | 36s | 4,9t/s | 17,8x |
| mistral:7b-instruct-v0.3-q8_0 | 8,7GB | 2,3s | 61t/s | 7,5GB | 109s | 2,9t/s | 21,0x |
| gemma:7b-instruct-v1.1-q4_0 | 7,4GB | 1,8s | 82t/s | 7,5GB | 25s | 4,4t/s | 18,6x |
| gemma:7b-instruct-v1.1-q6_K | 9,1GB | 1,6s | 66t/s | 7,5GB | 40s | 3,0t/s | 22,0x |
Modelprestatie staat in de kolommen “GPU prestatie” en “CPU prestatie”.
Snelheidsverhoging bij overgang van CPU naar GPU staat in de kolom “Prestatie verschil”.
We moeten niet veel aandacht besteden aan de kolommen “duur” - deze metriek hangt af van de modelprestatie en de lengte van de gegenereerde tekst. Alle modellen genereren tekst van verschillende lengtes. Deze kolom geeft slechts indicatieve wachttijd.
Conclusie 1 - Prestatieverschil
Het verschil in snelheid tussen GPU en CPU is niet zo groot als verwacht.
Serieuze? Al die legioenen (10k+) van Ada Tensor & Cuda-kernen versus 4 Haswell-spartanen, en slechts 20 keer het verschil. Ik dacht dat het 100-1000 keer zou zijn.
Conclusie 2 - Kosten per voorspelling zijn vrijwel hetzelfde
- De prijs van deze nieuwe PC is ongeveer 3500AUD
- Die oude PC kost nu waarschijnlijk 200AUD
Vanaf de website van PCCCaseGear:

Vanaf eBay (je zou mogelijk extra 8GB RAM moeten toevoegen om 16GB totaal te krijgen - dus rondop naar 200AUD):

Je zou 20 van die oude pc’s nodig hebben om dezelfde doorvoer te krijgen, dus 200AUD * 20 = 4000AUD.
Conclusie 3 - Moore’s wet
Moore’s wet stelt dat de prestaties van computers elke twee jaar verdubbelen.
Intel begon met de productie van de i5-4460 in 2014. Nvidia begon met één van de RTX 4080 in 2022. De verwachte prestatieverhoging zou ongeveer 16 keer moeten zijn.
Ik zou zeggen dat Moore’s wet nog steeds werkt.
Houd er wel rekening mee dat de DELL 9020 op zijn tijd een basiswerkstation was, en de pc met RTX 4080 is nu een geavanceerde grafisch/gaming pc. Slecht iets anders gewichtssegment.
Voor meer benchmarks, hardwarekeuzes en prestatieoptimalisatie, zie onze LLM Performance: Benchmarks, Bottlenecks & Optimization hub.
Nuttige links
- LLM-prestaties en PCIe-kanaal: Belangrijke overwegingen
- Detectie van logische fouten met LLMs
- Logische foutdetector Android-app: https://www.logical-fallacy.com/articles/detector-android-app/
- Verplaats Ollama-modellen naar een andere schijf of map
- Self-hosting Perplexica - met Ollama
- Hoe Ollama parallelle aanvragen verwerkt
- Test: Hoe Ollama Intel CPU-prestaties en efficiënte kernen gebruikt
- Cloud LLM-lichaamsleveranciers
- Degradatieproblemen in Intel’s 13e en 14e generatie CPUs
- Is de Quadro RTX 5880 Ada 48GB van nut?