PCIeレーンがLLMの性能に与える影響は？

PCIe レーン数は主にモデルの読み込み時間と GPU 間の通信に影響を与えます。モデルが VRAM に読み込まれた後では、推論速度はほとんど影響を受けません。レーン数が少ないほど、読み込みやマルチ GPU 推論、トレーニングが遅くなります。

単一GPUでのLLM推論のためにx16 PCIeが必要ですか？

いいえ。モデルが読み込まれた後は、通常、シングルGPUでの推論にはx4のレーンで十分です。x8やx16は主に読み込み時間を短縮し、モデルを頻繁に切り替える場合に役立ちます。

GPUごとに少なくともx8のレーンを推奨します。GPUごとにx4の場合、マルチGPUのトレーニングおよび推論性能は約5〜10%以上低下する可能性があります。大規模な構成では、SXMまたはNVLinkはPCIeよりもGPU間の帯域幅に優れています。

単一GPUまたは小規模な構成では、利益は通常限定的です。複数GPUのクラスターや大規模なトレーニングでは、より新しいPCIe世代が帯域幅と並列転送を向上させます。

弊社のLLMパフォーマンスハブでは、スループットとレイテンシーの関係、VRAMの限界、並列リクエスト、およびランタイムとハードウェアにわたるベンチマークについて取り上げています。

LLM用に2番目のGPUをインストールすることを考慮していますか？

PCIe レーンがLLM性能に与える影響? タスクによります。トレーニングやマルチGPUの推論では、パフォーマンスの低下が顕著です。

スループット、レイテンシー、VRAM、およびランタイムやハードウェアにわたるベンチマークについては、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化をご覧ください。

単一GPUの場合は、LLMがすでにVRAMにロードされている場合、ほとんど差はありません。

“多くのPCIレーンを持つマザーボード” この画像は、Flux - テキストから画像を生成するLLM で自動生成されました。

モデルのロード: PCIeレーンの数は、モデルの重みがシステムRAMからGPU VRAMにロードされる速度に主に影響を与えます。レーン数が多い（例: x16）ほど、転送が速くなり、初期ロード時間が短縮されます。モデルがGPUメモリにロードされた後は、通常のLLM推論タスクではPCIe帯域幅にほとんど影響されません。ただし、モデルやデータが頻繁にVRAMとCPUの間、またはGPUの間でスワップされる場合を除き、推論速度に影響はありません。
推論速度: 通常のLLM推論タスクでは、モデルがロードされた後、PCIeレーン数はほとんど影響を与えません。なぜなら、計算はGPU内で行われるからです。結果や中間データが頻繁にCPUに戻る、またはGPU間で転送される必要がある場合のみ、PCIe帯域幅がボトルネックになります。
トレーニングとマルチGPU構成: トレーニング、特に複数のGPUを使用する場合、PCIe帯域幅はより重要になります。レーン数が少ない（例: x4）と、GPU間の通信やデータのシャッフルが増えるため、トレーニングが著しく遅くなります。最適な結果を得るには、マルチGPUシステムでは少なくとも1GPUあたりx8レーンを推奨します。

設定	LLM推論への影響	LLMトレーニングへの影響	主な注意点
GPUあたりPCIe x16	モデルロード時間が最も速く、大規模モデルに最適	マルチGPUトレーニングに最適	高性能ワークステーションやサーバーで標準
GPUあたりPCIe x8	ロードがやや遅く、推論の低下はほぼない	マルチGPUトレーニングには許容可能	2〜4GPU構成ではわずかなパフォーマンス低下
GPUあたりPCIe x4	ロードが明らかに遅く、推論にわずかな影響	トレーニングが著しく遅くなる	トレーニングには推奨されないが、シングルGPU推論では動作
SXM/NVLink（例: H100）	GPU間通信が非常に速く、PCIeと比べて最大2.6倍速い推論	大規模トレーニングに最適	企業規模のLLMには最適、GPU統合を可能に

SXM vs PCIe: NVIDIAのSXMフォームファクター（NVLink付き）は、PCIeに比べてGPU間帯域幅がはるかに高くなります。たとえば、H100 SXM5 GPUは、特にマルチGPU構成ではH100 PCIeと比較してLLM推論が最大2.6倍速くなります。これは、大規模モデルや分散ワークロードにとって非常に重要です。
PCIe世代: PCIe 3.0から4.0または5.0へのアップグレードは帯域幅を増やしますが、スモールスケールやシングルGPUのLLM推論では実用的な利点はほとんどありません。大規模なクラスターや重いマルチGPUトレーニングでは、PCIeの高世代は並列処理とデータ転送に役立ちます。

シングルGPUのLLM推論: モデルがロードされた後、PCIeレーン数は大きなボトルネックにはなりません。x4レーンは通常十分ですが、x8またはx16レーンはロード時間を短縮します。
マルチGPUの推論/トレーニング: 1GPUあたりx8またはx16レーンを推奨します。レーン数が低いと、GPU間通信がボトルネックになり、トレーニングや大規模推論が遅くなります。
企業/研究規模: 最大のモデルと最高速度を実現するには、SXM/NVLinkベースのシステム（例: DGX、HGX）が最適です。これは、GPU間のデータ交換を高速化し、スループットを向上させます。

“4レーンでGPUを動作させることは特に2つのGPUしかない場合、問題ありません。4つのGPU構成では、1GPUあたり8レーンが理想的ですが、4レーンで動作させても、すべての4つのGPUで並列処理を行う場合、性能は5〜10％程度低下する可能性があります。”

PCIeレーン数はモデルロードおよびGPU間通信に影響を与えますが、モデルがロードされた後の推論速度には影響を与えません。
通常のユーザーがシングルGPUでLLM推論を実行する場合、レーン数は大きな関心事ではありません。
トレーニングやマルチGPUワークロードでは、より多くのレーン（x8/x16）と、より高い帯域幅を備えたインターコネクト（NVLink/SXM）は、パフォーマンス向上に大きく貢献します。

より多くのベンチマーク、ハードウェア選択、パフォーマンスチューニングについては、LLMパフォーマンス: ベンチマーク、ボトルネック & 最適化ハブをご覧ください。