Snelheidstest voor grote taalmodellen

Laat ons de snelheid van de LLMs testen op GPU versus CPU

Inhoud

Vergelijking van de voorspellingsnelheid van verschillende versies van LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) op CPU en GPU.

Voor meer informatie over doorvoer, latentie, VRAM en benchmarks over runtime en hardware, zie LLM Performance: Benchmarks, Bottlenecks & Optimization.

Testen van de snelheid van grote taalmodellen bij het detecteren van logische fouten - stopwatch

Ik gebruik dezelfde voorbeeldtekst als in de vorige test waarin ik de detectiekwaliteit van logische fouten van deze LLMs vergeleken.

Kijk, op eerste zicht klinkt het allemaal perfect redelijk:
te veel mensen, te weinig woningen.

Maar het is nooit zo eenvoudig,
zoals een voormalig minister van wonen zou moeten weten.

TL;DR

Op GPU draaien LLMs ongeveer 20 keer sneller, maar op CPU zijn ze nog steeds vrij goed te beheren.

Testomgeving Beschrijving

Ik heb de onderstaande Large Language Models uitgevoerd op twee PC’s:

  • Oude PC met 4e generatie i5 4-kern CPU (i5-4460 - geproduceerd in 2014) en
  • Nieuwe PC met RTX 4080 GPU (geproduceerd in 2022) met 9728 CUDA-kernen en 304 tensor-kernen.

Testresultaten

Hieronder staan de resultaten:

Model_Name_Version__________ GPU RAM GPU duur GPU Prestatie Hoofd RAM CPU duur CPU Prestatie Prestatie verschil
llama3:8b-instruct-q4_0 5,8GB 2,1s 80t/s 4,7GB 49s 4,6t/s 17,4x
llama3:8b-instruct-q8_0 9,3GB 3,4s 56t/s 8,3GB 98s 2,7t/s 20,7x
phi3:3.8b 4,5GB 3,6s 98t/s 3,0GB 83s 7,2t/s 13,6x
phi3:3.8b-mini-4k-instruct-q8_0 6,0GB 6,9s 89t/s 4,6GB 79s 5,3t/s 16,8x
phi3:3.8b-mini-instruct-4k-fp16 9,3GB 4,2s 66t/s 7,9GB 130s 2,9t/s 22,8x
phi3:14b 9,6GB 4,2s 55t/s 7,9GB 96s 2,7t/s 21,2x
phi3:14b-medium-4k-instruct-q6_K 12,5GB 8,9s 42t/s 11,1GB 175s 1,9t/s 21,8x
mistral:7b-instruct-v0.3-q4_0 5,4GB 2,1s 87t/s 4,1GB 36s 4,9t/s 17,8x
mistral:7b-instruct-v0.3-q8_0 8,7GB 2,3s 61t/s 7,5GB 109s 2,9t/s 21,0x
gemma:7b-instruct-v1.1-q4_0 7,4GB 1,8s 82t/s 7,5GB 25s 4,4t/s 18,6x
gemma:7b-instruct-v1.1-q6_K 9,1GB 1,6s 66t/s 7,5GB 40s 3,0t/s 22,0x

Modelprestatie staat in de kolommen “GPU prestatie” en “CPU prestatie”.

Snelheidsverhoging bij overgang van CPU naar GPU staat in de kolom “Prestatie verschil”.

We moeten niet veel aandacht besteden aan de kolommen “duur” - deze metriek hangt af van de modelprestatie en de lengte van de gegenereerde tekst. Alle modellen genereren tekst van verschillende lengtes. Deze kolom geeft slechts indicatieve wachttijd.

Conclusie 1 - Prestatieverschil

Het verschil in snelheid tussen GPU en CPU is niet zo groot als verwacht.

Serieuze? Al die legioenen (10k+) van Ada Tensor & Cuda-kernen versus 4 Haswell-spartanen, en slechts 20 keer het verschil. Ik dacht dat het 100-1000 keer zou zijn.

Conclusie 2 - Kosten per voorspelling zijn vrijwel hetzelfde

  • De prijs van deze nieuwe PC is ongeveer 3500AUD
  • Die oude PC kost nu waarschijnlijk 200AUD

Vanaf de website van PCCCaseGear:

pc met RTX 4080super prijs

Vanaf eBay (je zou mogelijk extra 8GB RAM moeten toevoegen om 16GB totaal te krijgen - dus rondop naar 200AUD):

Dell 9020 van eBay

Je zou 20 van die oude pc’s nodig hebben om dezelfde doorvoer te krijgen, dus 200AUD * 20 = 4000AUD.

Conclusie 3 - Moore’s wet

Moore’s wet stelt dat de prestaties van computers elke twee jaar verdubbelen.

Intel begon met de productie van de i5-4460 in 2014. Nvidia begon met één van de RTX 4080 in 2022. De verwachte prestatieverhoging zou ongeveer 16 keer moeten zijn.

Ik zou zeggen dat Moore’s wet nog steeds werkt.

Houd er wel rekening mee dat de DELL 9020 op zijn tijd een basiswerkstation was, en de pc met RTX 4080 is nu een geavanceerde grafisch/gaming pc. Slecht iets anders gewichtssegment.

Voor meer benchmarks, hardwarekeuzes en prestatieoptimalisatie, zie onze LLM Performance: Benchmarks, Bottlenecks & Optimization hub.