GPU에서 CPU에 비해 LLM이 얼마나 더 빠른가?

비교 테스트에서 동일한 모델을 사용했을 때 GPU는 4코어 CPU에 비해 대략 15~23배 더 높은 처리량(tokens per second)을 제공했습니다. 정확한 속도 향상은 모델 크기와 양자화에 따라 달라집니다.

LLM 추론 속도에 영향을 주는 요소는 무엇인가요?

하드웨어(GPU vs CPU 및 VRAM), 모델 크기(파라미터 수), 그리고 양자화(q4, q6, q8, fp16)는 모두 초당 토큰 수에 영향을 미칩니다. 더 작거나 더 양자화된 모델은 일반적으로 더 빠르게 실행되지만 품질을 희생할 수 있습니다.

GPU 상에서 LLM의 토큰 처리량은 어떻게 될까요?

현대 GPU에서 7 8B 파라미터 모델은 양자화에 따라 초당 약 40 98 토큰에 달하는 성능을 보일 수 있습니다. 더 큰 모델은 더 많은 VRAM을 사용하며, 실행 속도가 느려질 수 있습니다.

CPU에서 LLM을 실행하는 것이 실제로 가능한가?

경량 사용에는 적합합니다. CPU 추론은 테스트에서 대부분의 경우 초당 단위 토큰 수준으로 매우 느리지만, GPU 비용을 피할 수 있으며 가끔씩이나 배치 작업에 사용할 수 있습니다.

LLM 성능과 벤치마크에 대한 더 많은 정보는 어디에서 찾을 수 있나요?

우리 LLM 성능 허브는 처리량 대 지연 시간, VRAM 제한, 병렬 요청 및 런타임과 하드웨어에 걸친 벤치마크를 다룹니다.

대규모 언어 모델 속도 테스트

GPU 대 CPU에서 LLM의 속도를 테스트해 보겠습니다.

Page content

다양한 버전의 LLM(llama3, phi3, gemma, mistral)의 예측 속도를 CPU와 GPU에서 비교합니다.

추가적인 처리량, 지연 시간, VRAM, 하드웨어 및 런타임에 걸친 벤치마크에 대한 자세한 내용은 LLM 성능: 벤치마크, 병목 현상 및 최적화를 참조하세요.

대규모 언어 모델의 논리적 오류 탐지 속도 테스트 - 스톱워치

이전 테스트에서 사용한 동일한 샘플 텍스트를 사용하고 있으며, 이 LLM들이 논리적 오류 탐지에 대한 질을 비교한 내용을 참조하세요.


보기에는 처음 봤을 때 모든 것이 완전히 합리적으로 들립니다:
인구가 너무 많고, 집이 너무 적습니다.

하지만 이전 주택 관련 장관이 잘 알겠지만, 결코 그렇게 간단하지 않습니다.

TL;DR

GPU에서 LLM은 약 20배 더 빠르게 실행되지만, CPU에서는 여전히 충분히 관리 가능합니다.

테스트 환경 설명

다음의 대규모 언어 모델을 두 대의 PC에서 테스트했습니다.

오래된 PC: 4세대 i5 4코어 CPU (i5-4460 - 2014년 생산) 및
새로운 PC: RTX 4080 GPU (2022년 생산) - 9728개의 CUDA 코어와 304개의 텐서 코어를 갖춘 GPU.

테스트 결과

다음은 테스트 결과입니다:

Model_Name_Version__________	GPU RAM	GPU duration	GPU Perfor-mance	Main RAM	CPU Duration	CPU Perfor-mance	Perfor-mance diffe-rence
llama3:8b-instruct-q4_0	5.8GB	2.1s	80t/s	4.7GB	49s	4.6t/s	17.4x
llama3:8b-instruct-q8_0	9.3GB	3.4s	56t/s	8.3GB	98s	2.7t/s	20.7x
phi3:3.8b	4.5GB	3.6s	98t/s	3.0GB	83s	7.2t/s	13.6x
phi3:3.8b-mini-4k-instruct-q8_0	6.0GB	6.9s	89t/s	4.6GB	79s	5.3t/s	16.8x
phi3:3.8b-mini-instruct-4k-fp16	9.3GB	4.2s	66t/s	7.9GB	130s	2.9t/s	22.8x
phi3:14b	9.6GB	4.2s	55t/s	7.9GB	96s	2.7t/s	21.2x
phi3:14b-medium-4k-instruct-q6_K	12.5GB	8.9s	42t/s	11.1GB	175s	1.9t/s	21.8x
mistral:7b-instruct-v0.3-q4_0	5.4GB	2.1s	87t/s	4.1GB	36s	4.9t/s	17.8x
mistral:7b-instruct-v0.3-q8_0	8.7GB	2.3s	61t/s	7.5GB	109s	2.9t/s	21.0x
gemma:7b-instruct-v1.1-q4_0	7.4GB	1.8s	82t/s	7.5GB	25s	4.4t/s	18.6x
gemma:7b-instruct-v1.1-q6_K	9.1GB	1.6s	66t/s	7.5GB	40s	3.0t/s	22.0x

모델 성능은 “GPU 성능” 및 “CPU 성능” 열에 표시되어 있습니다.

CPU에서 GPU로 이동할 때의 속도 향상은 “성능 차이” 열에 표시되어 있습니다.

“지속 시간” 열에 대해서는 주의를 기울이지 않아야 합니다. 이 지표는 모델 성능과 생성된 텍스트의 길이에 따라 달라집니다. 모든 모델은 다른 길이의 텍스트를 생성합니다. 이 열은 대략적인 대기 시간을 제공합니다만, 참고용으로 사용해야 합니다.

결론 1 - 성능 차이

GPU와 CPU의 속도 차이는 예상보다 그렇게 크지 않습니다.

진짜로? Ada Tensor 및 Cuda 코어 수천 개와 4개의 Haswell 코어, 그리고 겨우 20배의 차이. 저는 100배에서 1000배의 차이를 예상했었습니다.

결론 2 - 예측당 비용은 거의 비슷하다

이 새로운 PC의 가격은 약 3500AUD입니다.
그 오래된 PC는 지금 약 200AUD에 팔리고 있습니다.

PCCCaseGear의 웹사이트에서:

RTX 4080super가 있는 PC의 가격

eBay에서 (16GB의 총 메모리로 사용하기 위해 추가로 8GB 메모리를 추가하는 것이 좋습니다 - 따라서 약 200AUD로 반올림합니다):

eBay의 Dell 9020

동일한 처리량을 얻기 위해 그 오래된 PC 20대가 필요합니다. 따라서 200AUD * 20 = 4000AUD입니다.

결론 3 - 모어의 법칙

모어의 법칙에 따르면, 컴퓨터의 성능은 2년마다 두 배로 증가합니다.

Intel은 2014년에 i5-4460의 생산을 시작했고, Nvidia는 2022년에 RTX 4080의 생산을 시작했습니다. 예상되는 성능 향상은 약 16배입니다.

저는 모어의 법칙이 여전히 작동한다고 말할 수 있습니다.

하지만 DELL 9020은 당시 기본 워크스테이션이었고, RTX 4080이 있는 PC는 현재 고급 그래픽/게임용 PC라고 볼 수 있습니다. 조금 다른 무게 등급입니다.

더 많은 벤치마크, 하드웨어 선택, 성능 최적화에 대해서는 우리의 LLM 성능: 벤치마크, 병목 현상 및 최적화 허브를 참조하세요.