Quanto mais rápidas são as LLMs em GPUs em comparação com CPUs?

Em testes comparativos, as GPUs apresentaram uma taxa de transferência (tokens por segundo) aproximadamente 15 a 23 vezes superior à de uma CPU de 4 núcleos para os mesmos modelos. A aceleração exata depende do tamanho do modelo e da quantização.

O que afeta a velocidade de inferência de LLMs?

Hardware (GPU versus CPU e VRAM), tamanho do modelo (quantidade de parâmetros) e quantização (q4, q6, q8, fp16) influenciam todos os tokens por segundo. Modelos menores ou mais quantizados geralmente executam mais rápido, mas podem sacrificar a qualidade.

Qual throughput de tokens posso esperar de LLMs em uma GPU?

Em uma GPU moderna, modelos com 7 a 8 bilhões de parâmetros geralmente atingem cerca de 40 a 98 tokens por segundo, dependendo da quantização. Modelos maiores utilizam mais VRAM e podem ter uma execução mais lenta.

É prático executar LLMs no CPU?

Sim, para uso leve. A inferência no CPU é muito mais lenta (dezenas de tokens por segundo em muitos testes), mas evita o custo da GPU e pode ser aceitável para tarefas ocasionais ou em lote.

Onde posso encontrar mais informações sobre desempenho e benchmarks de LLMs?

Nosso hub de desempenho de LLMs aborda throughput versus latência, limites de VRAM, solicitações paralelas e benchmarks em diferentes runtimes e hardware.

Teste de Velocidade de Grandes Modelos de Linguagem

Vamos testar a velocidade dos LLMs em GPU versus CPU.

Conteúdo da página

Comparando a velocidade de predição de várias versões de LLMs: llama3 (Meta/Facebook), phi3 (Microsoft), gemma (Google), mistral (código aberto) em CPU e GPU.

Para mais informações sobre throughput, latência, VRAM e benchmarks entre runtimes e hardware, veja LLM Performance: Benchmarks, Bottlenecks & Optimization.

Testando a velocidade de grandes modelos de linguagem na detecção de falácias lógicas - cronômetro

Estou usando o mesmo texto de amostra do teste anterior, onde comparei a qualidade de detecção de falácias lógicas desses LLMs.

Olhe, à primeira vista, tudo soa perfeitamente razoável:
muitas pessoas, poucas casas.

Mas nunca é tão simples,
como um ex-ministro de assuntos internos deveria saber.

TL;DR

Na GPU, os LLMs rodam aproximadamente 20 vezes mais rápido, mas na CPU ainda são bastante gerenciáveis.

Descrição do Banco de Testes

Executei os Large Language Models abaixo em dois PCs:

Um antigo com CPU i5 de 4ª geração, 4 núcleos (i5-4460 - produzido em 2014) e
Um novo com GPU RTX 4080 (produzido em 2022) com 9720 núcleos CUDA e 304 núcleos tensor.

Resultados do Teste

Abaixo estão os resultados:

Model_Name_Version__________	GPU RAM	GPU duration	GPU Perfor-mance	Main RAM	CPU Duration	CPU Perfor-mance	Perfor-mance diffe-rence
llama3:8b-instruct-q4_0	5.8GB	2.1s	80t/s	4.7GB	49s	4.6t/s	17.4x
llama3:8b-instruct-q8_0	9.3GB	3.4s	56t/s	8.3GB	98s	2.7t/s	20.7x
phi3:3.8b	4.5GB	3.6s	98t/s	3.0GB	83s	7.2t/s	13.6x
phi3:3.8b-mini-4k-instruct-q8_0	6.0GB	6.9s	89t/s	4.6GB	79s	5.3t/s	16.8x
phi3:3.8b-mini-instruct-4k-fp16	9.3GB	4.2s	66t/s	7.9GB	130s	2.9t/s	22.8x
phi3:14b	9.6GB	4.2s	55t/s	7.9GB	96s	2.7t/s	21.2x
phi3:14b-medium-4k-instruct-q6_K	12.5GB	8.9s	42t/s	11.1GB	175s	1.9t/s	21.8x
mistral:7b-instruct-v0.3-q4_0	5.4GB	2.1s	87t/s	4.1GB	36s	4.9t/s	17.8x
mistral:7b-instruct-v0.3-q8_0	8.7GB	2.3s	61t/s	7.5GB	109s	2.9t/s	21.0x
gemma:7b-instruct-v1.1-q4_0	7.4GB	1.8s	82t/s	7.5GB	25s	4.4t/s	18.6x
gemma:7b-instruct-v1.1-q6_K	9.1GB	1.6s	66t/s	7.5GB	40s	3.0t/s	22.0x

O desempenho do modelo está nas colunas “GPU performance” e “CPU performance”.

O ganho de velocidade ao migrar de CPU para GPU está na coluna “Performance difference”.

Não devemos prestar muita atenção às colunas de “duration” - esta métrica depende do desempenho do modelo e do comprimento do texto produzido. Todos os modelos produzem textos de comprimentos diferentes. Essas colunas apenas fornecem um tempo de espera indicativo.

Conclusão 1 - Diferença de desempenho

A diferença de velocidade entre GPU e CPU não é tão grande quanto se esperava.

Sério? Todos os exércitos (10k+) de núcleos Ada Tensor & Cuda versus 4 espartanos Haswell, e apenas uma diferença de 20 vezes. Eu esperava que fosse 100-1000 vezes.

Conclusão 2 - Custo por predição é quase o mesmo

o preço deste novo PC gira em torno de 3500AUD
aquele PC antigo provavelmente custa 200AUD agora

Do site da PCCCaseGear:

pc com RTX 4080super price

Do ebay (você pode querer adicionar 8GB extras de RAM para chegar a 16GB no total - então vamos arredondar para 200AUD):

Dell 9020 from ebay

Você pode precisar de 20 desses PCs antigos para ter o mesmo throughput, então 200AUD * 20 = 4000AUD.

Conclusão 3 - Lei de Moore

A Lei de Moore implica que o desempenho dos computadores dobra a cada dois anos.

A Intel começou a produção do i5-4460 em 2014. A Nvidia começou a produção de uma das RTX 4080 em 2022. O aumento de desempenho esperado deveria ser de ~16 vezes.

Eu diria que a Lei de Moore ainda funciona.

Mas tenha em mente que o DELL 9020 era, na época, uma estação de trabalho básica, e o PC com RTX 4080 é, agora, um PC avançado de gráficos/jogos. Classes de peso ligeiramente diferentes.

Para mais benchmarks, escolhas de hardware e ajuste de desempenho, verifique nosso hub LLM Performance: Benchmarks, Bottlenecks & Optimization.