Test de vitesse des grands modèles de langage

Testons la vitesse des LLM sur GPU vs CPU

Sommaire

Comparaison de la vitesse de prédiction de plusieurs versions de LLMs : llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (open source) sur CPU et GPU.

Pour plus d’informations sur le débit, la latence, la VRAM et les benchmarks sur différents runtimes et matériels, consultez LLM Performance: Benchmarks, Bottlenecks & Optimization.

Test de la vitesse des grands modèles de langage dans la détection des fautes logiques - chronomètre

J’utilise le même texte d’exemple que dans le test précédent où j’ai comparé la qualité de détection des fautes logiques de ces LLMs.

Look, on first blush, it all sounds perfectly reasonable:
too many people, not enough houses.

But it is never that simple,
as a former home affairs minister should know.

TL;DR

Sur GPU, les LLMs fonctionnent environ 20 fois plus rapidement, mais sur CPU, ils restent tout à fait gérables.

Description de l’configuration de test

J’ai exécuté les modèles suivants Large Language Models sur deux ordinateurs :

  • Un ancien avec un processeur i5 4e génération à 4 cœurs (i5-4460 - produit en 2014) et
  • Un nouveau avec une carte graphique RTX 4080 (produite en 2022) avec 9728 cœurs CUDA et 304 cœurs tensoriels.

Résultats des tests

Voici les résultats :

Model_Name_Version__________ RAM GPU Durée GPU Performance GPU RAM principale Durée CPU Performance CPU Différence de performance
llama3:8b-instruct-q4_0 5,8 GB 2,1 s 80 t/s 4,7 GB 49 s 4,6 t/s 17,4x
llama3:8b-instruct-q8_0 9,3 GB 3,4 s 56 t/s 8,3 GB 98 s 2,7 t/s 20,7x
phi3:3.8b 4,5 GB 3,6 s 98 t/s 3,0 GB 83 s 7,2 t/s 13,6x
phi3:3.8b-mini-4k-instruct-q8_0 6,0 GB 6,9 s 89 t/s 4,6 GB 79 s 5,3 t/s 16,8x
phi3:3.8b-mini-instruct-4k-fp16 9,3 GB 4,2 s 66 t/s 7,9 GB 130 s 2,9 t/s 22,8x
phi3:14b 9,6 GB 4,2 s 55 t/s 7,9 GB 96 s 2,7 t/s 21,2x
phi3:14b-medium-4k-instruct-q6_K 12,5 GB 8,9 s 42 t/s 11,1 GB 175 s 1,9 t/s 21,8x
mistral:7b-instruct-v0.3-q4_0 5,4 GB 2,1 s 87 t/s 4,1 GB 36 s 4,9 t/s 17,8x
mistral:7b-instruct-v0.3-q8_0 8,7 GB 2,3 s 61 t/s 7,5 GB 109 s 2,9 t/s 21,0x
gemma:7b-instruct-v1.1-q4_0 7,4 GB 1,8 s 82 t/s 7,5 GB 25 s 4,4 t/s 18,6x
gemma:7b-instruct-v1.1-q6_K 9,1 GB 1,6 s 66 t/s 7,5 GB 40 s 3,0 t/s 22,0x

La performance des modèles est indiquée dans les colonnes “Performance GPU” et “Performance CPU”.

Le gain de vitesse lors du passage du CPU au GPU est indiqué dans la colonne “Différence de performance”.

Nous ne devrions pas accorder beaucoup d’importance aux colonnes “Durée” – ce paramètre dépend de la performance du modèle et de la longueur du texte produit. Tous les modèles produisent des textes de longueurs différentes. Ces colonnes donnent simplement une indication du temps d’attente.

Conclusion 1 – Différence de performance

La différence de vitesse entre le GPU et le CPU n’est pas aussi grande qu’on pourrait s’y attendre.

Sérieusement ? Toutes les légions (10k+) de cœurs Tensor & CUDA d’Ada contre 4 Spartiates Haswell, et juste une différence de 20 fois. Je pensais qu’il s’agirait de 100 à 1000 fois.

Conclusion 2 – Coût par prédiction est presque le même

  • le prix de ce nouvel ordinateur est d’environ 3500 AUD
  • cet ancien ordinateur coûte probablement 200 AUD maintenant

D’après le site de PCCCaseGear :

ordinateur avec RTX 4080super prix

D’après eBay (vous pourriez vouloir ajouter 8 Go de RAM supplémentaires pour atteindre 16 Go au total – arrondissons donc à 200 AUD) :

Dell 9020 depuis eBay

Vous pourriez avoir besoin de 20 de ces anciens ordinateurs pour avoir le même débit, donc 200 AUD × 20 = 4000 AUD.

Conclusion 3 – Loi de Moore

La Loi de Moore stipule que les performances des ordinateurs doubles toutes les deux années.

Intel a commencé la production de l’i5-4460 en 2014. Nvidia a commencé la production d’une des RTX 4080 en 2022. L’augmentation de performance attendue devrait être d’environ 16 fois.

Je dirais que la loi de Moore fonctionne toujours.

Mais gardez à l’esprit que le DELL 9020 était à l’époque un工作站 de base, et que l’ordinateur avec la RTX 4080 est maintenant, je dirais, un ordinateur de graphisme/jeux avancé. Légèrement différente classe de poids.

Pour plus de benchmarks, de choix de matériel et d’optimisation des performances, consultez notre LLM Performance: Benchmarks, Bottlenecks & Optimization.

Liens utiles