Wie viel schneller sind LLMs auf einer GPU als auf einem CPU?

Bei vergleichenden Tests lieferten GPUs etwa 15–23 Mal höhere Durchsätze (Token pro Sekunde) als ein 4-Kern-CPU für dieselben Modelle. Der genaue Geschwindigkeitsvorteil hängt von der Modellgröße und der Quantisierung ab.

Was beeinflusst die Inferenzgeschwindigkeit von LLMs?

Hardware (GPU vs. CPU und VRAM), Modellgröße (Anzahl der Parameter) und Quantisierung (q4, q6, q8, fp16) beeinflussen alle die Anzahl der Tokens pro Sekunde. Kleinere oder stärker quantisierte Modelle laufen in der Regel schneller, können aber an Qualität verlieren.

Welche Token-Throughput kann ich von LLMs auf einer GPU erwarten?

Auf einer modernen GPU erreichen Modelle mit 7–8 B Parametern oft etwa 40–98 Token pro Sekunde, abhängig von der Quantisierung. Größere Modelle benötigen mehr VRAM und können langsamer laufen.

Ist das Ausführen von LLMs auf der CPU praktisch?

Ja, bei leichter Nutzung. Die CPU-Verarbeitung ist viel langsamer (einstellige Token pro Sekunde in vielen Tests), vermeidet jedoch die GPU-Kosten und kann für gelegentliche oder Batch-Aufgaben akzeptabel sein.

Wo kann ich mehr über die Leistung und Benchmarks von LLMs finden?

Unser LLM-Performance-Hub behandelt Durchsatz vs. Latenz, VRAM-Grenzen, parallelle Anfragen und Benchmarks über Laufzeiten und Hardware.

Großer Sprachmodell-Geschwindigkeitstest

Testen wir die Geschwindigkeit der LLMs auf GPU im Vergleich zu CPU

Inhaltsverzeichnis

Vergleich der Vorhersagegeschwindigkeit verschiedener Versionen von LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (Open Source) auf CPU und GPU.

Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über Laufzeiten und Hardware, siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

Testen der Geschwindigkeit großer Sprachmodelle bei der Erkennung logischer Fehlschlüsse - Stoppuhr

Ich verwende denselben Beispieltext wie in dem vorherigen Test, in dem ich die Erkennungsgüte dieser LLMs für logische Fehlschlüsse verglichen habe.

Schauen Sie, auf den ersten Blick klingt alles perfekt vernünftig:
zu viele Menschen, zu wenige Häuser.

Aber es ist nie so einfach,
wie ein ehemaliger Minister für Wohnungsangelegenheiten wissen sollte.

TL;DR

Auf der GPU laufen LLMs ungefähr 20 Mal schneller, auf der CPU sind sie dennoch noch recht gut handhabbar.

Testumgebung

Ich habe die folgenden Großsprachmodelle auf zwei PCs getestet:

Alt mit 4. Generation i5 4-Kern-CPU (i5-4460 - hergestellt im Jahr 2014) und
Neu mit RTX 4080 GPU (hergestellt im Jahr 2022) mit 9728 CUDA-Kernen und 304 Tensor-Kernen.

Testergebnisse

Hier unten sind die Ergebnisse:

Model_Name_Version__________	GPU RAM	GPU Dauer	GPU Leistung	Haupt RAM	CPU Dauer	CPU Leistung	Leistungsunterschied
llama3:8b-instruct-q4_0	5,8 GB	2,1 s	80 t/s	4,7 GB	49 s	4,6 t/s	17,4x
llama3:8b-instruct-q8_0	9,3 GB	3,4 s	56 t/s	8,3 GB	98 s	2,7 t/s	20,7x
phi3:3.8b	4,5 GB	3,6 s	98 t/s	3,0 GB	83 s	7,2 t/s	13,6x
phi3:3.8b-mini-4k-instruct-q8_0	6,0 GB	6,9 s	89 t/s	4,6 GB	79 s	5,3 t/s	16,8x
phi3:3.8b-mini-instruct-4k-fp16	9,3 GB	4,2 s	66 t/s	7,9 GB	130 s	2,9 t/s	22,8x
phi3:14b	9,6 GB	4,2 s	55 t/s	7,9 GB	96 s	2,7 t/s	21,2x
phi3:14b-medium-4k-instruct-q6_K	12,5 GB	8,9 s	42 t/s	11,1 GB	175 s	1,9 t/s	21,8x
mistral:7b-instruct-v0.3-q4_0	5,4 GB	2,1 s	87 t/s	4,1 GB	36 s	4,9 t/s	17,8x
mistral:7b-instruct-v0.3-q8_0	8,7 GB	2,3 s	61 t/s	7,5 GB	109 s	2,9 t/s	21,0x
gemma:7b-instruct-v1.1-q4_0	7,4 GB	1,8 s	82 t/s	7,5 GB	25 s	4,4 t/s	18,6x
gemma:7b-instruct-v1.1-q6_K	9,1 GB	1,6 s	66 t/s	7,5 GB	40 s	3,0 t/s	22,0x

Die Modellleistung ist in den Spalten “GPU-Leistung” und “CPU-Leistung” angegeben.

Die Geschwindigkeitssteigerung beim Wechsel von der CPU zur GPU ist in der Spalte “Leistungsunterschied” angegeben.

Wir sollten uns nicht allzu sehr auf die “Dauer”-Spalten konzentrieren – dieser Wert hängt von der Modellleistung und der Länge des erzeugten Textes ab. Alle Modelle erzeugen Texte unterschiedlicher Längen. Diese Spalten geben lediglich einen indikativen Wartezeit an.

Schlussfolgerung 1 – Leistungsunterschied

Der Unterschied zwischen GPU und CPU in Bezug auf die Geschwindigkeit ist nicht so groß, wie erwartet.

Ernsthaft? Alle Legionen (10.000+) von Ada Tensor- und Cuda-Kernen vs. 4 Haswell-Spartaner, und nur ein 20-facher Unterschied. Ich dachte, es wäre 100-1000-mal so groß.

Schlussfolgerung 2 – Kosten pro Vorhersage sind fast gleich

Der Preis dieses neuen PCs beträgt ungefähr 3500 AUD
Der alte PC kostet jetzt wahrscheinlich 200 AUD

Von der Website von PCCCaseGear:

PC mit RTX 4080super Preis

Von eBay (Sie möchten möglicherweise 8 GB zusätzlichen RAM hinzufügen, um insgesamt 16 GB zu erreichen – runden Sie also auf 200 AUD auf):

Dell 9020 von eBay

Sie benötigen möglicherweise 20 dieser alten PCs, um denselben Durchsatz zu erreichen, also 200 AUD * 20 = 4000 AUD.

Schlussfolgerung 3 – Moores Gesetz

Moores Gesetz besagt, dass die Leistung von Computern alle zwei Jahre verdoppelt wird.

Intel begann 2014 mit der Produktion des i5-4460. Nvidia begann mit einem der RTX 4080-Modelle 2022. Der erwartete Leistungsanstieg sollte ~16-fach sein.

Ich würde sagen, Moores Gesetz funktioniert immer noch.

Achten Sie jedoch darauf, dass der DELL 9020 zu einer Zeit ein grundlegender Arbeitsplatzrechner war, und ein PC mit RTX 4080 ist heute ein fortschrittlicher Grafik-/Spielescomputer. Leicht unterschiedliche Gewichtsklassen.

Für weitere Benchmarks, Hardware-Optionen und Leistungsfeinabstimmung, prüfen Sie unser LLM Performance: Benchmarks, Bottlenecks & Optimization-Zentrum.