LLMの性能とPCIeレーン:主要な考慮点
LLM用に2番目のGPUをインストールすることを考慮していますか?
目次
PCIe レーンがLLM性能に与える影響? タスクによります。トレーニングやマルチGPUの推論では、パフォーマンスの低下が顕著です。
スループット、レイテンシー、VRAM、およびランタイムやハードウェアにわたるベンチマークについては、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化 をご覧ください。
単一GPUの場合は、LLMがすでにVRAMにロードされている場合、ほとんど差はありません。
この画像は、Flux - テキストから画像を生成するLLM で自動生成されました。
- モデルのロード: PCIeレーンの数は、モデルの重みがシステムRAMからGPU VRAMにロードされる速度に主に影響を与えます。レーン数が多い(例: x16)ほど、転送が速くなり、初期ロード時間が短縮されます。モデルがGPUメモリにロードされた後は、通常のLLM推論タスクではPCIe帯域幅にほとんど影響されません。ただし、モデルやデータが頻繁にVRAMとCPUの間、またはGPUの間でスワップされる場合を除き、推論速度に影響はありません。
- 推論速度: 通常のLLM推論タスクでは、モデルがロードされた後、PCIeレーン数はほとんど影響を与えません。なぜなら、計算はGPU内で行われるからです。結果や中間データが頻繁にCPUに戻る、またはGPU間で転送される必要がある場合のみ、PCIe帯域幅がボトルネックになります。
- トレーニングとマルチGPU構成: トレーニング、特に複数のGPUを使用する場合、PCIe帯域幅はより重要になります。レーン数が少ない(例: x4)と、GPU間の通信やデータのシャッフルが増えるため、トレーニングが著しく遅くなります。最適な結果を得るには、マルチGPUシステムでは少なくとも1GPUあたりx8レーンを推奨します。
パフォーマンス比較: PCIeレーンとGPUインターコネクト
| 設定 | LLM推論への影響 | LLMトレーニングへの影響 | 主な注意点 |
|---|---|---|---|
| GPUあたりPCIe x16 | モデルロード時間が最も速く、大規模モデルに最適 | マルチGPUトレーニングに最適 | 高性能ワークステーションやサーバーで標準 |
| GPUあたりPCIe x8 | ロードがやや遅く、推論の低下はほぼない | マルチGPUトレーニングには許容可能 | 2〜4GPU構成ではわずかなパフォーマンス低下 |
| GPUあたりPCIe x4 | ロードが明らかに遅く、推論にわずかな影響 | トレーニングが著しく遅くなる | トレーニングには推奨されないが、シングルGPU推論では動作 |
| SXM/NVLink(例: H100) | GPU間通信が非常に速く、PCIeと比べて最大2.6倍速い推論 | 大規模トレーニングに最適 | 企業規模のLLMには最適、GPU統合を可能に |
- SXM vs PCIe: NVIDIAのSXMフォームファクター(NVLink付き)は、PCIeに比べてGPU間帯域幅がはるかに高くなります。たとえば、H100 SXM5 GPUは、特にマルチGPU構成ではH100 PCIeと比較してLLM推論が最大2.6倍速くなります。これは、大規模モデルや分散ワークロードにとって非常に重要です。
- PCIe世代: PCIe 3.0から4.0または5.0へのアップグレードは帯域幅を増やしますが、スモールスケールやシングルGPUのLLM推論では実用的な利点はほとんどありません。大規模なクラスターや重いマルチGPUトレーニングでは、PCIeの高世代は並列処理とデータ転送に役立ちます。
実用的な推奨事項
- シングルGPUのLLM推論: モデルがロードされた後、PCIeレーン数は大きなボトルネックにはなりません。x4レーンは通常十分ですが、x8またはx16レーンはロード時間を短縮します。
- マルチGPUの推論/トレーニング: 1GPUあたりx8またはx16レーンを推奨します。レーン数が低いと、GPU間通信がボトルネックになり、トレーニングや大規模推論が遅くなります。
- 企業/研究規模: 最大のモデルと最高速度を実現するには、SXM/NVLinkベースのシステム(例: DGX、HGX)が最適です。これは、GPU間のデータ交換を高速化し、スループットを向上させます。
“4レーンでGPUを動作させることは特に2つのGPUしかない場合、問題ありません。4つのGPU構成では、1GPUあたり8レーンが理想的ですが、4レーンで動作させても、すべての4つのGPUで並列処理を行う場合、性能は5〜10%程度低下する可能性があります。”
まとめ
- PCIeレーン数はモデルロードおよびGPU間通信に影響を与えますが、モデルがロードされた後の推論速度には影響を与えません。
- 通常のユーザーがシングルGPUでLLM推論を実行する場合、レーン数は大きな関心事ではありません。
- トレーニングやマルチGPUワークロードでは、より多くのレーン(x8/x16)と、より高い帯域幅を備えたインターコネクト(NVLink/SXM)は、パフォーマンス向上に大きく貢献します。
より多くのベンチマーク、ハードウェア選択、パフォーマンスチューニングについては、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化 ハブをご覧ください。