LLM 성능과 PCIe 라인: 주요 고려사항

LLM용으로 두 번째 GPU를 설치할 생각이신가요?

Page content

PCIe 랜의 수가 LLM 성능에 미치는 영향? 작업에 따라 다릅니다. 훈련 및 멀티 GPU 추론의 경우 성능 저하가 상당합니다.

스루풋, 지연, VRAM, 그리고 런타임과 하드웨어에 걸쳐 벤치마크에 대한 더 많은 정보는 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하십시오.

단일 GPU의 경우, LLM이 이미 VRAM에 있을 때는 거의 차이가 없습니다.

“여러 PCIe 랜을 가진 메인보드” 이 이미지는 Flux - 텍스트에서 이미지 생성 LLM으로 자동 생성되었습니다.

  • 모델 로딩: PCIe 랜의 수는 주로 시스템 RAM에서 GPU VRAM으로 모델 가중치가 로딩되는 속도에 영향을 미칩니다. 더 많은 랜(예: x16)은 더 빠른 전송을 가능하게 하여 초기 로딩 시간을 줄입니다. 모델이 GPU 메모리에 로딩된 후에는 PCIe 대역폭에 의해 추론 속도가 크게 영향을 받지 않으며, 모델 또는 데이터가 VRAM에 자주 교체되어야 하는 경우에만 영향을 받습니다.
  • 추론 속도: 일반적인 LLM 추론 작업의 경우, 모델이 로딩된 이후 PCIe 랜 수는 GPU 내부에서 계산이 이루어지기 때문에 거의 영향을 미치지 않습니다. 결과 또는 중간 데이터가 자주 CPU로 또는 GPU 간에 전송되어야 하는 경우에만 PCIe 대역폭이 병목 현상이 됩니다.
  • 훈련 및 멀티 GPU 구성: 훈련, 특히 여러 GPU를 사용하는 경우 PCIe 대역폭은 더 중요합니다. 낮은 랜 수(예: x4)는 GPU 간의 통신 및 데이터 섞기로 인해 훈련 속도가 크게 느려질 수 있습니다. 최상의 결과를 위해 멀티 GPU 시스템에서는 GPU 당 최소 x8 랜이 권장됩니다.

성능 비교: PCIe 랜 수 및 GPU 인터커넥트

구성 LLM 추론에 미치는 영향 LLM 훈련에 미치는 영향 주요 주의사항
GPU 당 PCIe x16 가장 빠른 로딩 시간, 대규모 모델에 최적 멀티 GPU 훈련에 최적 고성능 워크스테이션 및 서버에 표준
GPU 당 PCIe x8 약간 느린 로딩, 추론 감소 거의 없음 멀티 GPU에 적합 특히 2~4 GPU 구성에서 성능 손실이 약간 발생
GPU 당 PCIe x4 분명히 느린 로딩, 추론에 약간의 영향 훈련 속도 크게 느려짐 훈련에는 권장되지 않지만 단일 GPU 추론에는 작동 가능
SXM/NVLink (예: H100) GPU 간 통신이 훨씬 빠름, PCIe 대비 최대 2.6배 빠른 추론 대규모 훈련에 최적 기업 규모 LLM에 이상적, GPU 통합 가능
  • SXM 대 PCIe: NVIDIA의 SXM 형식(NVLink 사용)은 PCIe보다 훨씬 높은 GPU 간 대역폭을 제공합니다. 예를 들어, H100 SXM5 GPU는 특히 멀티 GPU 구성에서 H100 PCIe보다 최대 2.6배 빠른 LLM 추론을 제공합니다. 이는 대규모 모델 및 분산 작업에 매우 중요합니다.
  • PCIe 세대: PCIe 3.0에서 4.0 또는 5.0으로 업그레이드하면 더 많은 대역폭을 제공하지만, 대부분의 소규모 또는 단일 GPU LLM 추론에 있어 실용적인 이점은 거의 없습니다. 대규모 클러스터 또는 중대한 멀티 GPU 훈련에 있어 더 높은 PCIe 세대는 병렬화 및 데이터 전송에 도움이 됩니다.

실용적 권장 사항

  • 단일 GPU LLM 추론: 모델이 로딩된 이후 PCIe 랜 수는 주요 병목 현상이 아닙니다. x4 랜은 일반적으로 충분하지만, x8 또는 x16은 로딩 시간을 줄일 수 있습니다.
  • 멀티 GPU 추론/훈련: GPU 당 x8 또는 x16 랜을 선호하십시오. 낮은 랜 수는 GPU 간 통신을 병목 시킬 수 있으며, 훈련 및 대규모 추론 모두에 속도 저하를 초래할 수 있습니다.
  • 기업/연구 규모: 가장 큰 모델과 가장 빠른 성능을 위해 SXM/NVLink 기반 시스템(예: DGX, HGX)이 우수합니다. 이는 GPU 간의 데이터 교환을 훨씬 빠르게 하고, 스루풋을 높일 수 있습니다.

“4x 랜으로 GPU를 운영하는 것은 특히 2개의 GPU만 있을 때는 충분합니다. 4개의 GPU 구성이 있다면, 저는 8x 랜 당 GPU를 선호하지만, 4개의 GPU 모두에 4x 랜으로 운영하는 경우, 모든 4개의 GPU에 걸쳐 병렬화하는 경우 성능이 약 5~10% 감소할 가능성이 있습니다.”

요약

  • PCIe 랜 수는 모델 로딩 및 GPU 간 통신에 영향을 미치지만, 모델이 로딩된 이후 추론 속도에는 영향을 주지 않습니다.
  • 대부분의 사용자는 단일 GPU에서 LLM 추론을 실행하는 경우 랜 수가 중요한 문제가 되지 않습니다.
  • 훈련 또는 멀티 GPU 작업량의 경우, 더 많은 랜(x8/x16) 및 더 높은 대역폭 인터커넥트(NVLink/SXM)는 성능 향상에 중요한 이점을 제공합니다.

더 많은 벤치마크, 하드웨어 선택, 성능 최적화에 대해서는 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 참조하십시오.

유용한 링크