LLMの性能とPCIeレーン:主要な考慮点

LLM用に2番目のGPUをインストールすることを考慮していますか?

目次

PCIe レーンがLLM性能に与える影響? タスクによります。トレーニングやマルチGPUの推論では、パフォーマンスの低下が顕著です。

スループット、レイテンシー、VRAM、およびランタイムやハードウェアにわたるベンチマークについては、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化 をご覧ください。

単一GPUの場合は、LLMがすでにVRAMにロードされている場合、ほとんど差はありません。

“多くのPCIレーンを持つマザーボード” この画像は、Flux - テキストから画像を生成するLLM で自動生成されました。

  • モデルのロード: PCIeレーンの数は、モデルの重みがシステムRAMからGPU VRAMにロードされる速度に主に影響を与えます。レーン数が多い(例: x16)ほど、転送が速くなり、初期ロード時間が短縮されます。モデルがGPUメモリにロードされた後は、通常のLLM推論タスクではPCIe帯域幅にほとんど影響されません。ただし、モデルやデータが頻繁にVRAMとCPUの間、またはGPUの間でスワップされる場合を除き、推論速度に影響はありません。
  • 推論速度: 通常のLLM推論タスクでは、モデルがロードされた後、PCIeレーン数はほとんど影響を与えません。なぜなら、計算はGPU内で行われるからです。結果や中間データが頻繁にCPUに戻る、またはGPU間で転送される必要がある場合のみ、PCIe帯域幅がボトルネックになります。
  • トレーニングとマルチGPU構成: トレーニング、特に複数のGPUを使用する場合、PCIe帯域幅はより重要になります。レーン数が少ない(例: x4)と、GPU間の通信やデータのシャッフルが増えるため、トレーニングが著しく遅くなります。最適な結果を得るには、マルチGPUシステムでは少なくとも1GPUあたりx8レーンを推奨します。

パフォーマンス比較: PCIeレーンとGPUインターコネクト

設定 LLM推論への影響 LLMトレーニングへの影響 主な注意点
GPUあたりPCIe x16 モデルロード時間が最も速く、大規模モデルに最適 マルチGPUトレーニングに最適 高性能ワークステーションやサーバーで標準
GPUあたりPCIe x8 ロードがやや遅く、推論の低下はほぼない マルチGPUトレーニングには許容可能 2〜4GPU構成ではわずかなパフォーマンス低下
GPUあたりPCIe x4 ロードが明らかに遅く、推論にわずかな影響 トレーニングが著しく遅くなる トレーニングには推奨されないが、シングルGPU推論では動作
SXM/NVLink(例: H100) GPU間通信が非常に速く、PCIeと比べて最大2.6倍速い推論 大規模トレーニングに最適 企業規模のLLMには最適、GPU統合を可能に
  • SXM vs PCIe: NVIDIAのSXMフォームファクター(NVLink付き)は、PCIeに比べてGPU間帯域幅がはるかに高くなります。たとえば、H100 SXM5 GPUは、特にマルチGPU構成ではH100 PCIeと比較してLLM推論が最大2.6倍速くなります。これは、大規模モデルや分散ワークロードにとって非常に重要です。
  • PCIe世代: PCIe 3.0から4.0または5.0へのアップグレードは帯域幅を増やしますが、スモールスケールやシングルGPUのLLM推論では実用的な利点はほとんどありません。大規模なクラスターや重いマルチGPUトレーニングでは、PCIeの高世代は並列処理とデータ転送に役立ちます。

実用的な推奨事項

  • シングルGPUのLLM推論: モデルがロードされた後、PCIeレーン数は大きなボトルネックにはなりません。x4レーンは通常十分ですが、x8またはx16レーンはロード時間を短縮します。
  • マルチGPUの推論/トレーニング: 1GPUあたりx8またはx16レーンを推奨します。レーン数が低いと、GPU間通信がボトルネックになり、トレーニングや大規模推論が遅くなります。
  • 企業/研究規模: 最大のモデルと最高速度を実現するには、SXM/NVLinkベースのシステム(例: DGX、HGX)が最適です。これは、GPU間のデータ交換を高速化し、スループットを向上させます。

“4レーンでGPUを動作させることは特に2つのGPUしかない場合、問題ありません。4つのGPU構成では、1GPUあたり8レーンが理想的ですが、4レーンで動作させても、すべての4つのGPUで並列処理を行う場合、性能は5〜10%程度低下する可能性があります。”

まとめ

  • PCIeレーン数はモデルロードおよびGPU間通信に影響を与えますが、モデルがロードされた後の推論速度には影響を与えません。
  • 通常のユーザーがシングルGPUでLLM推論を実行する場合、レーン数は大きな関心事ではありません。
  • トレーニングやマルチGPUワークロードでは、より多くのレーン(x8/x16)と、より高い帯域幅を備えたインターコネクト(NVLink/SXM)は、パフォーマンス向上に大きく貢献します。

より多くのベンチマーク、ハードウェア選択、パフォーマンスチューニングについては、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化 ハブをご覧ください。

有用なリンク