GPU上で実行されたLLMはCPU上で実行されたLLMよりもどれだけ速いか？

比較試験において、同じモデルを使用した場合、GPUは4コアのCPUに対して約15〜23倍のスループット（秒あたりトークン数）を達成しました。正確な速度向上はモデルサイズおよび量子化に依存します。

LLMの推論速度に影響を与える要因は？

ハードウェア（GPUとCPU、VRAM）、モデルサイズ（パラメータ数）、および量子化（q4、q6、q8、fp16）はすべて、秒あたりのトークン数に影響を与えます。サイズが小さく、またはより量子化されたモデルは通常、高速に動作しますが、品質を犠牲にすることがあります。

GPU上でLLMを使用した場合、どれくらいのトークンスループットが期待できますか？

現代のGPUでは、7〜8Bパラメータのモデルは、量子化によって1秒あたり40〜98トークン程度の処理速度に達することがよくあります。より大きなモデルはVRAMを多く使用し、処理速度が遅くなる可能性があります。

CPU上でLLMを実行することは現実的ですか？

軽い利用には適しています。CPUでの推論は多くのテストで1秒あたり単位数トークンの速度であり、非常に遅いですが、GPUのコストを回避でき、たまに使うことやバッチ処理などのタスクでは受け入れ可能な選択肢です。

LLMの性能とベンチマークについてもっと知るにはどこで確認できますか？

弊社のLLMパフォーマンスハブでは、スループットとレイテンシーの関係、VRAMの限界、並列リクエスト、およびランタイムとハードウェアにわたるベンチマークをカバーしています。

大規模言語モデルの速度テスト

LLMのGPUとCPUでの速度をテストしてみましょう

いくつかのLLM（大規模言語モデル）のバージョン（llama3（メタ/Facebook）、phi3（マイクロソフト）、gemma（グーグル）、mistral（オープンソース））におけるCPUおよびGPUでの予測速度の比較。

透過量、レイテンシ、VRAM、およびランタイムとハードウェアにわたるベンチマークについてさらに詳しく知りたい場合は、LLM性能: ベンチマーク、ボトルネック & 最適化をご覧ください。

論理的誤謬の検出における大規模言語モデルの速度テスト - ストップウォッチ

以前のテストで使用した同じサンプルテキストを使用しており、これらのLLMの論理的誤謬検出品質を比較しています。

見てください、最初に見ればすべてが非常に理にかなっているように思えます：
人々が多すぎて家が足りないからです。

しかし、かつての住宅担当大臣が知っているように、
常にそれほど単純ではありません。

TL;DR

GPUではLLMが約20倍速く実行されますが、CPUでもまだ十分に扱いやすいです。

テスト環境の説明

以下に記載の大規模言語モデルを2台のPCで実行しました：

古いPC（4世代のi5 4コアCPU（i5-4460 - 2014年に製造）と
新しいPC（RTX 4080 GPU - 2022年に製造、9728個のCUDAコアと304個のテンソルコアを搭載）。

テスト結果

以下が結果です：

Model_Name_Version__________	GPU RAM	GPU duration	GPU Perfor-mance	Main RAM	CPU Duration	CPU Perfor-mance	Perfor-mance diffe-rence
llama3:8b-instruct-q4_0	5.8GB	2.1s	80t/s	4.7GB	49s	4.6t/s	17.4x
llama3:8b-instruct-q8_0	9.3GB	3.4s	56t/s	8.3GB	98s	2.7t/s	20.7x
phi3:3.8b	4.5GB	3.6s	98t/s	3.0GB	83s	7.2t/s	13.6x
phi3:3.8b-mini-4k-instruct-q8_0	6.0GB	6.9s	89t/s	4.6GB	79s	5.3t/s	16.8x
phi3:3.8b-mini-instruct-4k-fp16	9.3GB	4.2s	66t/s	7.9GB	130s	2.9t/s	22.8x
phi3:14b	9.6GB	4.2s	55t/s	7.9GB	96s	2.7t/s	21.2x
phi3:14b-medium-4k-instruct-q6_K	12.5GB	8.9s	42t/s	11.1GB	175s	1.9t/s	21.8x
mistral:7b-instruct-v0.3-q4_0	5.4GB	2.1s	87t/s	4.1GB	36s	4.9t/s	17.8x
mistral:7b-instruct-v0.3-q8_0	8.7GB	2.3s	61t/s	7.5GB	109s	2.9t/s	21.0x
gemma:7b-instruct-v1.1-q4_0	7.4GB	1.8s	82t/s	7.5GB	25s	4.4t/s	18.6x
gemma:7b-instruct-v1.阶-q6_K	9.1GB	1.6s	66t/s	7.5GB	40s	3.0t/s	22.0x

モデルの性能は「GPU性能」と「CPU性能」の列に記載されています。

CPUからGPUへの移行時の速度向上は「性能差」の列に記載されています。

「duration（所要時間）」の列にはあまり注目しない方が良いです。この指標はモデルの性能と生成されたテキストの長さに依存します。すべてのモデルは異なる長さのテキストを生成します。これらの列は単に待機時間を示すものに過ぎません。

結論1 - 性能差

GPUとCPUの速度差は予想ほど大きくありません。

真剣に？アダのテンソル＆CUDAコアの legion（10,000＋）と4つのハスウェルスパルタンと比較して、わずか20倍の差。私は100〜1000倍の差と思っていたのです。

結論2 - 予測あたりのコストはほぼ同じ

この新しいPCの価格は約3500AUD
その古いPCは現在、おそらく200AUD

PCCCaseGearのサイトより：

RTX 4080super搭載PCの価格

eBayより（16GBのRAMにするために追加の8GB RAMが必要な場合がありますので、200AUDとしましょう）：

eBayのDell 9020

同じ透過量を得るために20台の古いPCが必要な場合がありますので、200AUD × 20 = 4000AUDとなります。

結論3 - モーの法則

モーの法則によると、コンピュータの性能は2年ごとに2倍になります。

インテルは2014年にi5-4460の生産を開始しました。ナウビディアは2022年にRTX 4080の生産を開始しました。期待される性能向上は約16倍です。

私はモーの法則が依然として機能していると考えます。

ただし、DELL 9020は当時基本的なワークステーションであり、RTX 4080搭載PCは現在では私はいわゆる高級グラフィック/ゲーミングPCと考えています。わずかに異なる重量クラスです。

より多くのベンチマーク、ハードウェアの選択、および性能調整については、私たちのLLM性能: ベンチマーク、ボトルネック & 最適化ハブをご覧ください。