À quel point les LLM sont-ils plus rapides sur GPU que sur CPU ?

Dans les tests comparatifs, les GPU ont délivré un débit (tokens par seconde) environ 15 à 23 fois plus élevé qu’un CPU à 4 cœurs pour les mêmes modèles. La vitesse exacte dépend de la taille du modèle et de la quantification.

Qu’est-ce qui affecte la vitesse d’inférence des LLM ?

Le matériel (GPU vs CPU et VRAM), la taille du modèle (nombre de paramètres) et la quantification (q4, q6, q8, fp16) influencent tous le nombre de tokens par seconde. Les modèles plus petits ou plus quantifiés fonctionnent généralement plus rapidement, mais peuvent sacrifier la qualité.

Quelle throughput de jetons puis-je attendre des LLM sur une GPU ?

Sur un GPU moderne, les modèles de 7 à 8 milliards de paramètres atteignent souvent entre 40 et 98 tokens par seconde, selon la quantification. Les modèles plus volumineux nécessitent plus de VRAM et peuvent fonctionner plus lentement.

Est-il pratique d’exécuter des LLM sur un processeur CPU ?

Oui pour une utilisation légère. L’inférence CPU est beaucoup plus lente (moins de dix tokens par seconde dans de nombreux tests), mais évite les coûts GPU et peut être acceptable pour des tâches occasionnelles ou en lots.

Où puis-je trouver plus d’informations sur les performances et les benchmarks des LLM ?

Notre centre de performance des LLM aborde le débit par rapport à la latence, les limites de VRAM, les requêtes parallèles ainsi que des benchmarks sur différents runtimes et matériels.

Test de vitesse des grands modèles de langage

Testons la vitesse des LLM sur GPU vs CPU

Sommaire

Comparaison de la vitesse de prédiction de plusieurs versions de LLMs : llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) sur CPU et GPU.

Pour plus d’informations sur le débit, la latence, la VRAM et les benchmarks sur différents runtimes et matériels, consultez LLM Performance: Benchmarks, Bottlenecks & Optimization.

Test de la vitesse des grands modèles de langage dans la détection des fautes logiques - chronomètre

J’utilise le même texte d’exemple que dans le test précédent où j’ai comparé la qualité de détection des fautes logiques de ces LLMs.

Look, on first blush, it all sounds perfectly reasonable:
too many people, not enough houses.

But it is never that simple,
as a former home affairs minister should know.

TL;DR

Sur GPU, les LLMs fonctionnent environ 20 fois plus rapidement, mais sur CPU, ils restent tout à fait gérables.

Description de l’configuration de test

J’ai exécuté les modèles suivants Large Language Models sur deux ordinateurs :

Un ancien avec un processeur i5 4e génération à 4 cœurs (i5-4460 - produit en 2014) et
Un nouveau avec une carte graphique RTX 4080 (produite en 2022) avec 9728 cœurs CUDA et 304 cœurs tensoriels.

Résultats des tests

Voici les résultats :

Model_Name_Version__________	RAM GPU	Durée GPU	Performance GPU	RAM principale	Durée CPU	Performance CPU	Différence de performance
llama3:8b-instruct-q4_0	5,8 GB	2,1 s	80 t/s	4,7 GB	49 s	4,6 t/s	17,4x
llama3:8b-instruct-q8_0	9,3 GB	3,4 s	56 t/s	8,3 GB	98 s	2,7 t/s	20,7x
phi3:3.8b	4,5 GB	3,6 s	98 t/s	3,0 GB	83 s	7,2 t/s	13,6x
phi3:3.8b-mini-4k-instruct-q8_0	6,0 GB	6,9 s	89 t/s	4,6 GB	79 s	5,3 t/s	16,8x
phi3:3.8b-mini-instruct-4k-fp16	9,3 GB	4,2 s	66 t/s	7,9 GB	130 s	2,9 t/s	22,8x
phi3:14b	9,6 GB	4,2 s	55 t/s	7,9 GB	96 s	2,7 t/s	21,2x
phi3:14b-medium-4k-instruct-q6_K	12,5 GB	8,9 s	42 t/s	11,1 GB	175 s	1,9 t/s	21,8x
mistral:7b-instruct-v0.3-q4_0	5,4 GB	2,1 s	87 t/s	4,1 GB	36 s	4,9 t/s	17,8x
mistral:7b-instruct-v0.3-q8_0	8,7 GB	2,3 s	61 t/s	7,5 GB	109 s	2,9 t/s	21,0x
gemma:7b-instruct-v1.1-q4_0	7,4 GB	1,8 s	82 t/s	7,5 GB	25 s	4,4 t/s	18,6x
gemma:7b-instruct-v1.1-q6_K	9,1 GB	1,6 s	66 t/s	7,5 GB	40 s	3,0 t/s	22,0x

La performance des modèles est indiquée dans les colonnes “Performance GPU” et “Performance CPU”.

Le gain de vitesse lors du passage du CPU au GPU est indiqué dans la colonne “Différence de performance”.

Nous ne devrions pas accorder beaucoup d’importance aux colonnes “Durée” – ce paramètre dépend de la performance du modèle et de la longueur du texte produit. Tous les modèles produisent des textes de longueurs différentes. Ces colonnes donnent simplement une indication du temps d’attente.

Conclusion 1 – Différence de performance

La différence de vitesse entre le GPU et le CPU n’est pas aussi grande qu’on pourrait s’y attendre.

Sérieusement ? Toutes les légions (10k+) de cœurs Tensor & CUDA d’Ada contre 4 Spartiates Haswell, et juste une différence de 20 fois. Je pensais qu’il s’agirait de 100 à 1000 fois.

Conclusion 2 – Coût par prédiction est presque le même

le prix de ce nouvel ordinateur est d’environ 3500 AUD
cet ancien ordinateur coûte probablement 200 AUD maintenant

D’après le site de PCCCaseGear :

ordinateur avec RTX 4080super prix

D’après eBay (vous pourriez vouloir ajouter 8 Go de RAM supplémentaires pour atteindre 16 Go au total – arrondissons donc à 200 AUD) :

Dell 9020 depuis eBay

Vous pourriez avoir besoin de 20 de ces anciens ordinateurs pour avoir le même débit, donc 200 AUD × 20 = 4000 AUD.

Conclusion 3 – Loi de Moore

La Loi de Moore stipule que les performances des ordinateurs doubles toutes les deux années.

Intel a commencé la production de l’i5-4460 en 2014. Nvidia a commencé la production d’une des RTX 4080 en 2022. L’augmentation de performance attendue devrait être d’environ 16 fois.

Je dirais que la loi de Moore fonctionne toujours.

Mais gardez à l’esprit que le DELL 9020 était à l’époque un工作站 de base, et que l’ordinateur avec la RTX 4080 est maintenant, je dirais, un ordinateur de graphisme/jeux avancé. Légèrement différente classe de poids.

Pour plus de benchmarks, de choix de matériel et d’optimisation des performances, consultez notre LLM Performance: Benchmarks, Bottlenecks & Optimization.