大規模言語モデルの速度テスト

LLMのGPUとCPUでの速度をテストしてみましょう

目次

いくつかのLLM(大規模言語モデル)のバージョン(llama3(メタ/Facebook)、phi3(マイクロソフト)、gemma(グーグル)、mistral(オープンソース))におけるCPUおよびGPUでの予測速度の比較。

透過量、レイテンシ、VRAM、およびランタイムとハードウェアにわたるベンチマークについてさらに詳しく知りたい場合は、LLM性能: ベンチマーク、ボトルネック & 最適化をご覧ください。

論理的誤謬の検出における大規模言語モデルの速度テスト - ストップウォッチ

以前のテストで使用した同じサンプルテキストを使用しており、 これらのLLMの論理的誤謬検出品質を比較しています。

見てください、最初に見ればすべてが非常に理にかなっているように思えます:
人々が多すぎて家が足りないからです。

しかし、かつての住宅担当大臣が知っているように、
常にそれほど単純ではありません。

TL;DR

GPUではLLMが約20倍速く実行されますが、CPUでもまだ十分に扱いやすいです。

テスト環境の説明

以下に記載の大規模言語モデルを2台のPCで実行しました:

  • 古いPC(4世代のi5 4コアCPU(i5-4460 - 2014年に製造)と
  • 新しいPC(RTX 4080 GPU - 2022年に製造、9728個のCUDAコアと304個のテンソルコアを搭載)。

テスト結果

以下が結果です:

Model_Name_Version__________ GPU RAM GPU duration GPU Perfor-mance Main RAM CPU Duration CPU Perfor-mance Perfor-mance diffe-rence
llama3:8b-instruct-q4_0 5.8GB 2.1s 80t/s 4.7GB 49s 4.6t/s 17.4x
llama3:8b-instruct-q8_0 9.3GB 3.4s 56t/s 8.3GB 98s 2.7t/s 20.7x
phi3:3.8b 4.5GB 3.6s 98t/s 3.0GB 83s 7.2t/s 13.6x
phi3:3.8b-mini-4k-instruct-q8_0 6.0GB 6.9s 89t/s 4.6GB 79s 5.3t/s 16.8x
phi3:3.8b-mini-instruct-4k-fp16 9.3GB 4.2s 66t/s 7.9GB 130s 2.9t/s 22.8x
phi3:14b 9.6GB 4.2s 55t/s 7.9GB 96s 2.7t/s 21.2x
phi3:14b-medium-4k-instruct-q6_K 12.5GB 8.9s 42t/s 11.1GB 175s 1.9t/s 21.8x
mistral:7b-instruct-v0.3-q4_0 5.4GB 2.1s 87t/s 4.1GB 36s 4.9t/s 17.8x
mistral:7b-instruct-v0.3-q8_0 8.7GB 2.3s 61t/s 7.5GB 109s 2.9t/s 21.0x
gemma:7b-instruct-v1.1-q4_0 7.4GB 1.8s 82t/s 7.5GB 25s 4.4t/s 18.6x
gemma:7b-instruct-v1.阶-q6_K 9.1GB 1.6s 66t/s 7.5GB 40s 3.0t/s 22.0x

モデルの性能は「GPU性能」と「CPU性能」の列に記載されています。

CPUからGPUへの移行時の速度向上は「性能差」の列に記載されています。

「duration(所要時間)」の列にはあまり注目しない方が良いです。この指標はモデルの性能と生成されたテキストの長さに依存します。 すべてのモデルは異なる長さのテキストを生成します。 これらの列は単に待機時間を示すものに過ぎません。

結論1 - 性能差

GPUとCPUの速度差は予想ほど大きくありません。

真剣に? アダのテンソル&CUDAコアの legion(10,000+)と4つのハスウェルスパルタンと比較して、わずか20倍の差。 私は100〜1000倍の差と思っていたのです。

結論2 - 予測あたりのコストはほぼ同じ

  • この新しいPCの価格は約3500AUD
  • その古いPCは現在、おそらく200AUD

PCCCaseGearのサイトより:

RTX 4080super搭載PCの価格

eBayより(16GBのRAMにするために追加の8GB RAMが必要な場合がありますので、200AUDとしましょう):

eBayのDell 9020

同じ透過量を得るために20台の古いPCが必要な場合がありますので、200AUD × 20 = 4000AUDとなります。

結論3 - モーの法則

モーの法則によると、コンピュータの性能は2年ごとに2倍になります。

インテルは2014年にi5-4460の生産を開始しました。 ナウビディアは2022年にRTX 4080の生産を開始しました。 期待される性能向上は約16倍です。

私はモーの法則が依然として機能していると考えます。

ただし、DELL 9020は当時基本的なワークステーションであり、RTX 4080搭載PCは現在では私はいわゆる高級グラフィック/ゲーミングPCと考えています。 わずかに異なる重量クラスです。

より多くのベンチマーク、ハードウェアの選択、および性能調整については、私たちのLLM性能: ベンチマーク、ボトルネック & 最適化ハブをご覧ください。

有用なリンク