Hastighetstest för stora språkmodeller
Låt oss testa LLM:s hastighet på GPU jämfört med CPU
Jämförelse av förutsägelsehastighet hos flera versioner av LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) på CPU och GPU.
För mer information om genomströmningshastighet, latens, VRAM och benchmarkar över olika körningar och hårdvara, se LLM-prestanda: Benchmarkar, fläskpunkter & optimering.

Jag använder samma exempeltext som i tidigare test där jag jämförde dessa LLMs upptäckningskvalitet av logiska fallacies.
Look, on first blush, it all sounds perfectly reasonable:
too many people, not enough houses.
But it is never that simple,
as a former home affairs minister should know.
TL;DR
På GPU kör LLMs ungefär 20 gånger snabbare, men på CPU är de fortfarande ganska hanterbara.
Teststationens beskrivning
Jag har körts nedan Stora språkmodeller på två datorer
- Äldre med 4:e generationens i5 4-kärnig CPU (i5-4460 - tillverkad 2014) och
- Ny med RTX 4080 GPU (tillverkad 2022) med 9728 CUDA-kärnor och 304 tensor-kärnor.
Testresultat
Här nedan är resultaten:
| Model_Name_Version__________ | GPU RAM | GPU duration | GPU Perfor-mance | Main RAM | CPU Duration | CPU Perfor-mance | Perfor-mance diffe-rence |
|---|---|---|---|---|---|---|---|
| llama3:8b-instruct-q4_0 | 5.8GB | 2.1s | 80t/s | 4.7GB | 49s | 4.6t/s | 17.4x |
| llama3:8b-instruct-q8_0 | 9.3GB | 3.4s | 56t/s | 8.3GB | 98s | 2.7t/s | 20.7x |
| phi3:3.8b | 4.5GB | 3.6s | 98t/s | 3.0GB | 83s | 7.2t/s | 13.6x |
| phi3:3.8b-mini-4k-instruct-q8_0 | 6.0GB | 6.9s | 89t/s | 4.6GB | 79s | 5.3t/s | 16.8x |
| phi3:3.8b-mini-instruct-4k-fp16 | 9.3GB | 4.2s | 66t/s | 7.9GB | 130s | 2.9t/s | 22.8x |
| phi3:14b | 9.6GB | 4.2s | 55t/s | 7.9GB | 96s | 2.7t/s | 21.2x |
| phi3:14b-medium-4k-instruct-q6_K | 12.5GB | 8.9s | 42t/s | 11.1GB | 175s | 1.9t/s | 21.8x |
| mistral:7b-instruct-v0.3-q4_0 | 5.4GB | 2.1s | 87t/s | 4.1GB | 36s | 4.9t/s | 17.8x |
| mistral:7b-instruct-v0.3-q8_0 | 8.7GB | 2.3s | 61t/s | 7.5GB | 109s | 2.9t/s | 21.0x |
| gemma:7b-instruct-v1.1-q4_0 | 7.4GB | 1.8s | 82t/s | 7.5GB | 25s | 4.4t/s | 18.6x |
| gemma:7b-instruct-v1.1-q6_K | 9.1GB | 1.6s | 66t/s | 7.5GB | 40s | 3.0t/s | 22.0x |
Modellprestanda visas i kolumnerna “GPU-prestanda” och “CPU-prestanda”.
Hastighetsökning vid övergång från CPU till GPU visas i kolumnen “Prestandaskillnad”.
Vi bör inte lägga för mycket vikt på “varaktighet”-kolumnerna - detta mått beror på modellprestanda och längden på den producerade texten. Alla modeller producerar texter av olika längder. Dessa kolumner ger bara indikativ väntetid.
Slutsats 1 - Prestandaskillnad
Skillnaden i prestanda mellan GPU och CPU är inte så stor som förväntat.
Serious? Alla legions (10k+) av Ada Tensor & Cuda-kärnor mot 4 Haswell-spartans, och bara 20 gånger skillnaden. Jag trodde det skulle vara 100-1000 gånger.
Slutsats 2 - Kostnad per förutsägelse är nästan lika
- denna nya dator kostar cirka 3500AUD
- den gamla datorn kostar nu sannolikt 200AUD
Från PCCCaseGear:s hemsida:

Från eBay (du kan vilja lägga till ytterligare 8GB RAM för att få 16GB totalt - så runda upp det till 200AUD):

Du kan behöva 20 av dessa gamla datorer för att ha samma genomströmningshastighet, så 200AUD * 20 = 4000AUD.
Slutsats 3 - Moores lag
Moores lag innebär att datorers prestanda fördubblas varje två år.
Intel började produktionen av i5-4460 2014. Nvidia började en av RTX 4080 2022. Den förväntade prestandaökningen bör vara ~16 gånger.
Jag skulle säga att Moores lag fortfarande gäller.
Men tänk på att DELL 9020 var en grundläggande arbetsstation vid den tiden, och dator med RTX 4080 är nu jag skulle säga en avancerad grafik/spel-dator. Slightly olika viktclass.
För fler benchmarkar, hårdvaruväljningar och prestandaoptimeringar, kontrollera vår LLM-prestanda: Benchmarkar, fläskpunkter & optimering hub.
Några användbara länkar
- LLM-prestanda och PCIe-lan: Viktiga överväganden
- Logiskt fallacy upptäckt med LLMs
- Logiskt fallacy-detektor Android App: https://www.logical-fallacy.com/articles/detector-android-app/
- Flytta Ollama-modeller till annan disk eller mapp
- Self-hosting Perplexica - med Ollama
- Hur Ollama hanterar parallella begäran
- Test: Hur Ollama använder Intel CPU-prestanda och effektiva kärnor
- Moln LLM-leverantörer
- Degradationsproblem i Intels 13:e och 14:e generationsprocessorer
- Är Quadro RTX 5880 Ada 48GB någon bra?