Großer Sprachmodell-Geschwindigkeitstest

Testen wir die Geschwindigkeit der LLMs auf GPU im Vergleich zu CPU

Inhaltsverzeichnis

Vergleich der Vorhersagegeschwindigkeit verschiedener Versionen von LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (Open Source) auf CPU und GPU.

Für weitere Informationen zu Durchsatz, Latenz, VRAM und Benchmarks über Laufzeiten und Hardware, siehe LLM Performance: Benchmarks, Bottlenecks & Optimization.

Testen der Geschwindigkeit großer Sprachmodelle bei der Erkennung logischer Fehlschlüsse - Stoppuhr

Ich verwende denselben Beispieltext wie in dem vorherigen Test, in dem ich die Erkennungsgüte dieser LLMs für logische Fehlschlüsse verglichen habe.

Schauen Sie, auf den ersten Blick klingt alles perfekt vernünftig:
zu viele Menschen, zu wenige Häuser.

Aber es ist nie so einfach,
wie ein ehemaliger Minister für Wohnungsangelegenheiten wissen sollte.

TL;DR

Auf der GPU laufen LLMs ungefähr 20 Mal schneller, auf der CPU sind sie dennoch noch recht gut handhabbar.

Testumgebung

Ich habe die folgenden Großsprachmodelle auf zwei PCs getestet:

  • Alt mit 4. Generation i5 4-Kern-CPU (i5-4460 - hergestellt im Jahr 2014) und
  • Neu mit RTX 4080 GPU (hergestellt im Jahr 2022) mit 9728 CUDA-Kernen und 304 Tensor-Kernen.

Testergebnisse

Hier unten sind die Ergebnisse:

Model_Name_Version__________ GPU RAM GPU Dauer GPU Leistung Haupt RAM CPU Dauer CPU Leistung Leistungsunterschied
llama3:8b-instruct-q4_0 5,8 GB 2,1 s 80 t/s 4,7 GB 49 s 4,6 t/s 17,4x
llama3:8b-instruct-q8_0 9,3 GB 3,4 s 56 t/s 8,3 GB 98 s 2,7 t/s 20,7x
phi3:3.8b 4,5 GB 3,6 s 98 t/s 3,0 GB 83 s 7,2 t/s 13,6x
phi3:3.8b-mini-4k-instruct-q8_0 6,0 GB 6,9 s 89 t/s 4,6 GB 79 s 5,3 t/s 16,8x
phi3:3.8b-mini-instruct-4k-fp16 9,3 GB 4,2 s 66 t/s 7,9 GB 130 s 2,9 t/s 22,8x
phi3:14b 9,6 GB 4,2 s 55 t/s 7,9 GB 96 s 2,7 t/s 21,2x
phi3:14b-medium-4k-instruct-q6_K 12,5 GB 8,9 s 42 t/s 11,1 GB 175 s 1,9 t/s 21,8x
mistral:7b-instruct-v0.3-q4_0 5,4 GB 2,1 s 87 t/s 4,1 GB 36 s 4,9 t/s 17,8x
mistral:7b-instruct-v0.3-q8_0 8,7 GB 2,3 s 61 t/s 7,5 GB 109 s 2,9 t/s 21,0x
gemma:7b-instruct-v1.1-q4_0 7,4 GB 1,8 s 82 t/s 7,5 GB 25 s 4,4 t/s 18,6x
gemma:7b-instruct-v1.1-q6_K 9,1 GB 1,6 s 66 t/s 7,5 GB 40 s 3,0 t/s 22,0x

Die Modellleistung ist in den Spalten “GPU-Leistung” und “CPU-Leistung” angegeben.

Die Geschwindigkeitssteigerung beim Wechsel von der CPU zur GPU ist in der Spalte “Leistungsunterschied” angegeben.

Wir sollten uns nicht allzu sehr auf die “Dauer”-Spalten konzentrieren – dieser Wert hängt von der Modellleistung und der Länge des erzeugten Textes ab. Alle Modelle erzeugen Texte unterschiedlicher Längen. Diese Spalten geben lediglich einen indikativen Wartezeit an.

Schlussfolgerung 1 – Leistungsunterschied

Der Unterschied zwischen GPU und CPU in Bezug auf die Geschwindigkeit ist nicht so groß, wie erwartet.

Ernsthaft? Alle Legionen (10.000+) von Ada Tensor- und Cuda-Kernen vs. 4 Haswell-Spartaner, und nur ein 20-facher Unterschied. Ich dachte, es wäre 100-1000-mal so groß.

Schlussfolgerung 2 – Kosten pro Vorhersage sind fast gleich

  • Der Preis dieses neuen PCs beträgt ungefähr 3500 AUD
  • Der alte PC kostet jetzt wahrscheinlich 200 AUD

Von der Website von PCCCaseGear:

PC mit RTX 4080super Preis

Von eBay (Sie möchten möglicherweise 8 GB zusätzlichen RAM hinzufügen, um insgesamt 16 GB zu erreichen – runden Sie also auf 200 AUD auf):

Dell 9020 von eBay

Sie benötigen möglicherweise 20 dieser alten PCs, um denselben Durchsatz zu erreichen, also 200 AUD * 20 = 4000 AUD.

Schlussfolgerung 3 – Moores Gesetz

Moores Gesetz besagt, dass die Leistung von Computern alle zwei Jahre verdoppelt wird.

Intel begann 2014 mit der Produktion des i5-4460. Nvidia begann mit einem der RTX 4080-Modelle 2022. Der erwartete Leistungsanstieg sollte ~16-fach sein.

Ich würde sagen, Moores Gesetz funktioniert immer noch.

Achten Sie jedoch darauf, dass der DELL 9020 zu einer Zeit ein grundlegender Arbeitsplatzrechner war, und ein PC mit RTX 4080 ist heute ein fortschrittlicher Grafik-/Spielescomputer. Leicht unterschiedliche Gewichtsklassen.

Für weitere Benchmarks, Hardware-Optionen und Leistungsfeinabstimmung, prüfen Sie unser LLM Performance: Benchmarks, Bottlenecks & Optimization-Zentrum.