대규모 언어 모델 속도 테스트

GPU 대 CPU에서 LLM의 속도를 테스트해 보겠습니다.

Page content

다양한 버전의 LLM(llama3, phi3, gemma, mistral)의 예측 속도를 CPU와 GPU에서 비교합니다.

추가적인 처리량, 지연 시간, VRAM, 하드웨어 및 런타임에 걸친 벤치마크에 대한 자세한 내용은 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하세요.

대규모 언어 모델의 논리적 오류 탐지 속도 테스트 - 스톱워치

이전 테스트에서 사용한 동일한 샘플 텍스트를 사용하고 있으며, 이 LLM들이 논리적 오류 탐지에 대한 질을 비교한 내용을 참조하세요.


보기에는 처음 봤을 때 모든 것이 완전히 합리적으로 들립니다:
인구가 너무 많고, 집이 너무 적습니다.

하지만 이전 주택 관련 장관이 잘 알겠지만, 결코 그렇게 간단하지 않습니다.

TL;DR

GPU에서 LLM은 약 20배 더 빠르게 실행되지만, CPU에서는 여전히 충분히 관리 가능합니다.

테스트 환경 설명

다음의 대규모 언어 모델을 두 대의 PC에서 테스트했습니다.

  • 오래된 PC: 4세대 i5 4코어 CPU (i5-4460 - 2014년 생산) 및
  • 새로운 PC: RTX 4080 GPU (2022년 생산) - 9728개의 CUDA 코어와 304개의 텐서 코어를 갖춘 GPU.

테스트 결과

다음은 테스트 결과입니다:

Model_Name_Version__________ GPU RAM GPU duration GPU Perfor-mance Main RAM CPU Duration CPU Perfor-mance Perfor-mance diffe-rence
llama3:8b-instruct-q4_0 5.8GB 2.1s 80t/s 4.7GB 49s 4.6t/s 17.4x
llama3:8b-instruct-q8_0 9.3GB 3.4s 56t/s 8.3GB 98s 2.7t/s 20.7x
phi3:3.8b 4.5GB 3.6s 98t/s 3.0GB 83s 7.2t/s 13.6x
phi3:3.8b-mini-4k-instruct-q8_0 6.0GB 6.9s 89t/s 4.6GB 79s 5.3t/s 16.8x
phi3:3.8b-mini-instruct-4k-fp16 9.3GB 4.2s 66t/s 7.9GB 130s 2.9t/s 22.8x
phi3:14b 9.6GB 4.2s 55t/s 7.9GB 96s 2.7t/s 21.2x
phi3:14b-medium-4k-instruct-q6_K 12.5GB 8.9s 42t/s 11.1GB 175s 1.9t/s 21.8x
mistral:7b-instruct-v0.3-q4_0 5.4GB 2.1s 87t/s 4.1GB 36s 4.9t/s 17.8x
mistral:7b-instruct-v0.3-q8_0 8.7GB 2.3s 61t/s 7.5GB 109s 2.9t/s 21.0x
gemma:7b-instruct-v1.1-q4_0 7.4GB 1.8s 82t/s 7.5GB 25s 4.4t/s 18.6x
gemma:7b-instruct-v1.1-q6_K 9.1GB 1.6s 66t/s 7.5GB 40s 3.0t/s 22.0x

모델 성능은 “GPU 성능” 및 “CPU 성능” 열에 표시되어 있습니다.

CPU에서 GPU로 이동할 때의 속도 향상은 “성능 차이” 열에 표시되어 있습니다.

“지속 시간” 열에 대해서는 주의를 기울이지 않아야 합니다. 이 지표는 모델 성능과 생성된 텍스트의 길이에 따라 달라집니다. 모든 모델은 다른 길이의 텍스트를 생성합니다. 이 열은 대략적인 대기 시간을 제공합니다만, 참고용으로 사용해야 합니다.

결론 1 - 성능 차이

GPU와 CPU의 속도 차이는 예상보다 그렇게 크지 않습니다.

진짜로? Ada Tensor 및 Cuda 코어 수천 개와 4개의 Haswell 코어, 그리고 겨우 20배의 차이. 저는 100배에서 1000배의 차이를 예상했었습니다.

결론 2 - 예측당 비용은 거의 비슷하다

  • 이 새로운 PC의 가격은 약 3500AUD입니다.
  • 그 오래된 PC는 지금 약 200AUD에 팔리고 있습니다.

PCCCaseGear의 웹사이트에서:

RTX 4080super가 있는 PC의 가격

eBay에서 (16GB의 총 메모리로 사용하기 위해 추가로 8GB 메모리를 추가하는 것이 좋습니다 - 따라서 약 200AUD로 반올림합니다):

eBay의 Dell 9020

동일한 처리량을 얻기 위해 그 오래된 PC 20대가 필요합니다. 따라서 200AUD * 20 = 4000AUD입니다.

결론 3 - 모어의 법칙

모어의 법칙에 따르면, 컴퓨터의 성능은 2년마다 두 배로 증가합니다.

Intel은 2014년에 i5-4460의 생산을 시작했고, Nvidia는 2022년에 RTX 4080의 생산을 시작했습니다. 예상되는 성능 향상은 약 16배입니다.

저는 모어의 법칙이 여전히 작동한다고 말할 수 있습니다.

하지만 DELL 9020은 당시 기본 워크스테이션이었고, RTX 4080이 있는 PC는 현재 고급 그래픽/게임용 PC라고 볼 수 있습니다. 조금 다른 무게 등급입니다.

더 많은 벤치마크, 하드웨어 선택, 성능 최적화에 대해서는 우리의 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 참조하세요.

유용한 링크