Großer Sprachmodell-Geschwindigkeitstest
Testen wir die Geschwindigkeit der LLMs auf GPU im Vergleich zu CPU
Vergleich der Vorhersagegeschwindigkeit verschiedener Versionen von LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (Open Source) auf CPU und GPU.
Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über Laufzeiten und Hardware, siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

Ich verwende denselben Beispieltext wie in dem vorherigen Test, in dem ich die Erkennungsgüte dieser LLMs für logische Fehlschlüsse verglichen habe.
Schauen Sie, auf den ersten Blick klingt alles perfekt vernünftig:
zu viele Menschen, zu wenige Häuser.
Aber es ist nie so einfach,
wie ein ehemaliger Minister für Wohnungsangelegenheiten wissen sollte.
TL;DR
Auf der GPU laufen LLMs ungefähr 20 Mal schneller, auf der CPU sind sie dennoch noch recht gut handhabbar.
Testumgebung
Ich habe die folgenden Großsprachmodelle auf zwei PCs getestet:
- Alt mit 4. Generation i5 4-Kern-CPU (i5-4460 - hergestellt im Jahr 2014) und
- Neu mit RTX 4080 GPU (hergestellt im Jahr 2022) mit 9728 CUDA-Kernen und 304 Tensor-Kernen.
Testergebnisse
Hier unten sind die Ergebnisse:
| Model_Name_Version__________ | GPU RAM | GPU Dauer | GPU Leistung | Haupt RAM | CPU Dauer | CPU Leistung | Leistungsunterschied |
|---|---|---|---|---|---|---|---|
| llama3:8b-instruct-q4_0 | 5,8 GB | 2,1 s | 80 t/s | 4,7 GB | 49 s | 4,6 t/s | 17,4x |
| llama3:8b-instruct-q8_0 | 9,3 GB | 3,4 s | 56 t/s | 8,3 GB | 98 s | 2,7 t/s | 20,7x |
| phi3:3.8b | 4,5 GB | 3,6 s | 98 t/s | 3,0 GB | 83 s | 7,2 t/s | 13,6x |
| phi3:3.8b-mini-4k-instruct-q8_0 | 6,0 GB | 6,9 s | 89 t/s | 4,6 GB | 79 s | 5,3 t/s | 16,8x |
| phi3:3.8b-mini-instruct-4k-fp16 | 9,3 GB | 4,2 s | 66 t/s | 7,9 GB | 130 s | 2,9 t/s | 22,8x |
| phi3:14b | 9,6 GB | 4,2 s | 55 t/s | 7,9 GB | 96 s | 2,7 t/s | 21,2x |
| phi3:14b-medium-4k-instruct-q6_K | 12,5 GB | 8,9 s | 42 t/s | 11,1 GB | 175 s | 1,9 t/s | 21,8x |
| mistral:7b-instruct-v0.3-q4_0 | 5,4 GB | 2,1 s | 87 t/s | 4,1 GB | 36 s | 4,9 t/s | 17,8x |
| mistral:7b-instruct-v0.3-q8_0 | 8,7 GB | 2,3 s | 61 t/s | 7,5 GB | 109 s | 2,9 t/s | 21,0x |
| gemma:7b-instruct-v1.1-q4_0 | 7,4 GB | 1,8 s | 82 t/s | 7,5 GB | 25 s | 4,4 t/s | 18,6x |
| gemma:7b-instruct-v1.1-q6_K | 9,1 GB | 1,6 s | 66 t/s | 7,5 GB | 40 s | 3,0 t/s | 22,0x |
Die Modellleistung ist in den Spalten “GPU-Leistung” und “CPU-Leistung” angegeben.
Die Geschwindigkeitssteigerung beim Wechsel von der CPU zur GPU ist in der Spalte “Leistungsunterschied” angegeben.
Wir sollten uns nicht allzu sehr auf die “Dauer”-Spalten konzentrieren – dieser Wert hängt von der Modellleistung und der Länge des erzeugten Textes ab. Alle Modelle erzeugen Texte unterschiedlicher Längen. Diese Spalten geben lediglich einen indikativen Wartezeit an.
Schlussfolgerung 1 – Leistungsunterschied
Der Unterschied zwischen GPU und CPU in Bezug auf die Geschwindigkeit ist nicht so groß, wie erwartet.
Ernsthaft? Alle Legionen (10.000+) von Ada Tensor- und Cuda-Kernen vs. 4 Haswell-Spartaner, und nur ein 20-facher Unterschied. Ich dachte, es wäre 100-1000-mal so groß.
Schlussfolgerung 2 – Kosten pro Vorhersage sind fast gleich
- Der Preis dieses neuen PCs beträgt ungefähr 3500 AUD
- Der alte PC kostet jetzt wahrscheinlich 200 AUD
Von der Website von PCCCaseGear:

Von eBay (Sie möchten möglicherweise 8 GB zusätzlichen RAM hinzufügen, um insgesamt 16 GB zu erreichen – runden Sie also auf 200 AUD auf):

Sie benötigen möglicherweise 20 dieser alten PCs, um denselben Durchsatz zu erreichen, also 200 AUD * 20 = 4000 AUD.
Schlussfolgerung 3 – Moores Gesetz
Moores Gesetz besagt, dass die Leistung von Computern alle zwei Jahre verdoppelt wird.
Intel begann 2014 mit der Produktion des i5-4460. Nvidia begann mit einem der RTX 4080-Modelle 2022. Der erwartete Leistungsanstieg sollte ~16-fach sein.
Ich würde sagen, Moores Gesetz funktioniert immer noch.
Achten Sie jedoch darauf, dass der DELL 9020 zu einer Zeit ein grundlegender Arbeitsplatzrechner war, und ein PC mit RTX 4080 ist heute ein fortschrittlicher Grafik-/Spielescomputer. Leicht unterschiedliche Gewichtsklassen.
Für weitere Benchmarks, Hardware-Optionen und Leistungsfeinabstimmung, prüfen Sie unser LLM Performance: Benchmarks, Bottlenecks & Optimization-Zentrum.
Nützliche Links
- LLM-Performance und PCIe-Lanes: Wichtige Aspekte
- Erkennung logischer Fehlschlüsse mit LLMs
- Logischer Fehlschluss-Prüfer Android-App: https://www.logical-fallacy.com/articles/detector-android-app/
- Ollama-Modelle auf verschiedene Laufwerk oder Ordner verschieben
- Selbsthosting von Perplexica mit Ollama
- Wie Ollama parallelle Anfragen verarbeitet
- Test: Wie Ollama Intel-CPU-Performance und Effiziente Kerne verwendet
- Cloud-LLM-Anbieter
- Degradationsprobleme bei Intels 13. und 14. Generation CPUs
- Ist der Quadro RTX 5880 Ada 48GB gut?