大規模言語モデルの速度テスト
LLMのGPUとCPUでの速度をテストしてみましょう
いくつかのLLM(大規模言語モデル)のバージョン(llama3(メタ/Facebook)、phi3(マイクロソフト)、gemma(グーグル)、mistral(オープンソース))におけるCPUおよびGPUでの予測速度の比較。
透過量、レイテンシ、VRAM、およびランタイムとハードウェアにわたるベンチマークについてさらに詳しく知りたい場合は、LLM性能: ベンチマーク、ボトルネック & 最適化をご覧ください。

以前のテストで使用した同じサンプルテキストを使用しており、 これらのLLMの論理的誤謬検出品質を比較しています。
見てください、最初に見ればすべてが非常に理にかなっているように思えます:
人々が多すぎて家が足りないからです。
しかし、かつての住宅担当大臣が知っているように、
常にそれほど単純ではありません。
TL;DR
GPUではLLMが約20倍速く実行されますが、CPUでもまだ十分に扱いやすいです。
テスト環境の説明
以下に記載の大規模言語モデルを2台のPCで実行しました:
テスト結果
以下が結果です:
| Model_Name_Version__________ | GPU RAM | GPU duration | GPU Perfor-mance | Main RAM | CPU Duration | CPU Perfor-mance | Perfor-mance diffe-rence |
|---|---|---|---|---|---|---|---|
| llama3:8b-instruct-q4_0 | 5.8GB | 2.1s | 80t/s | 4.7GB | 49s | 4.6t/s | 17.4x |
| llama3:8b-instruct-q8_0 | 9.3GB | 3.4s | 56t/s | 8.3GB | 98s | 2.7t/s | 20.7x |
| phi3:3.8b | 4.5GB | 3.6s | 98t/s | 3.0GB | 83s | 7.2t/s | 13.6x |
| phi3:3.8b-mini-4k-instruct-q8_0 | 6.0GB | 6.9s | 89t/s | 4.6GB | 79s | 5.3t/s | 16.8x |
| phi3:3.8b-mini-instruct-4k-fp16 | 9.3GB | 4.2s | 66t/s | 7.9GB | 130s | 2.9t/s | 22.8x |
| phi3:14b | 9.6GB | 4.2s | 55t/s | 7.9GB | 96s | 2.7t/s | 21.2x |
| phi3:14b-medium-4k-instruct-q6_K | 12.5GB | 8.9s | 42t/s | 11.1GB | 175s | 1.9t/s | 21.8x |
| mistral:7b-instruct-v0.3-q4_0 | 5.4GB | 2.1s | 87t/s | 4.1GB | 36s | 4.9t/s | 17.8x |
| mistral:7b-instruct-v0.3-q8_0 | 8.7GB | 2.3s | 61t/s | 7.5GB | 109s | 2.9t/s | 21.0x |
| gemma:7b-instruct-v1.1-q4_0 | 7.4GB | 1.8s | 82t/s | 7.5GB | 25s | 4.4t/s | 18.6x |
| gemma:7b-instruct-v1.阶-q6_K | 9.1GB | 1.6s | 66t/s | 7.5GB | 40s | 3.0t/s | 22.0x |
モデルの性能は「GPU性能」と「CPU性能」の列に記載されています。
CPUからGPUへの移行時の速度向上は「性能差」の列に記載されています。
「duration(所要時間)」の列にはあまり注目しない方が良いです。この指標はモデルの性能と生成されたテキストの長さに依存します。 すべてのモデルは異なる長さのテキストを生成します。 これらの列は単に待機時間を示すものに過ぎません。
結論1 - 性能差
GPUとCPUの速度差は予想ほど大きくありません。
真剣に? アダのテンソル&CUDAコアの legion(10,000+)と4つのハスウェルスパルタンと比較して、わずか20倍の差。 私は100〜1000倍の差と思っていたのです。
結論2 - 予測あたりのコストはほぼ同じ
- この新しいPCの価格は約3500AUD
- その古いPCは現在、おそらく200AUD
PCCCaseGearのサイトより:

eBayより(16GBのRAMにするために追加の8GB RAMが必要な場合がありますので、200AUDとしましょう):

同じ透過量を得るために20台の古いPCが必要な場合がありますので、200AUD × 20 = 4000AUDとなります。
結論3 - モーの法則
モーの法則によると、コンピュータの性能は2年ごとに2倍になります。
インテルは2014年にi5-4460の生産を開始しました。 ナウビディアは2022年にRTX 4080の生産を開始しました。 期待される性能向上は約16倍です。
私はモーの法則が依然として機能していると考えます。
ただし、DELL 9020は当時基本的なワークステーションであり、RTX 4080搭載PCは現在では私はいわゆる高級グラフィック/ゲーミングPCと考えています。 わずかに異なる重量クラスです。
より多くのベンチマーク、ハードウェアの選択、および性能調整については、私たちのLLM性能: ベンチマーク、ボトルネック & 最適化ハブをご覧ください。
有用なリンク
- LLM性能とPCIeレーン: 主な考慮点
- LLMによる論理的誤謬の検出
- 論理的誤謬検出Androidアプリ: https://www.logical-fallacy.com/articles/detector-android-app/
- Ollamaモデルを別のドライブまたはフォルダに移動
- Ollamaを使用したPerplexicaのセルフホスティング
- Ollamaが並列リクエストをどのように処理するか
- OllamaがインテルCPUの性能と効率的なコアを使用する方法のテスト
- クラウドLLMプロバイダ
- インテル13thおよび14th世代CPUの劣化問題
- Quadro RTX 5880 Ada 48GBはどれくらい良いのか?