Como o Ollama aloca VRAM para modelos?

O Ollama carrega as camadas do modelo na VRAM da GPU sempre que possível. Versões mais recentes utilizam um agendamento atualizado que pode alocar mais VRAM para maximizar o uso da GPU, mas em alguns hardwares e modelos, a divisão entre CPU e GPU pode mudar e nem sempre resultar em melhoria.

E se o modelo não couber na memória VRAM da minha GPU?

O Ollama pode descarregar algumas camadas para a CPU e manter o restante na GPU. A divisão entre CPU e GPU depende da VRAM disponível, do tamanho do modelo e da versão do Ollama. Geralmente, uma maior descarregação para a CPU resulta em inferência mais lenta.

O novo agendamento de modelos do Ollama consome mais VRAM?

Em algumas configurações, o novo escalonamento aloca mais VRAM e mantém mais camadas na GPU, o que pode aumentar os tokens por segundo. Em outras configurações (por exemplo, 16 GB de VRAM com modelos grandes), o comportamento pode variar e mais carga pode ser direcionada para a CPU.

Como posso verificar o uso de VRAM, CPU e GPU do Ollama?

Execute ollama ps para estatísticas por modelo e nvidia-smi para a memória da GPU. Esses comandos exibem a VRAM alocada e a divisão de camadas entre CPU e GPU para o modelo em execução.

Onde posso encontrar mais informações sobre o desempenho e os benchmarks de LLMs?

Nosso hub de desempenho de LLMs aborda throughput versus latência, limites de VRAM, solicitações paralelas e benchmarks em diferentes runtimes e hardware.

Alocação de memória e agendamento de modelos na nova versão do Ollama - v0.12.1

Meu próprio teste de agendamento de modelos Ollama

Conteúdo da página

Aqui estou comparando quanto VRAM a nova versão do Ollama alocava para o modelo em relação à versão anterior do Ollama. A nova versão é pior.

Para mais informações sobre vazão, latência, VRAM e benchmarks entre diferentes tempos de execução e hardware, consulte Desempenho de LLM: Benchmarks, Gargalos e Otimização.

Como dito no site oficial, o novo lançamento do Ollama possui uma Nova agendamento de modelos com:

Maximização da utilização da GPU:
O novo gerenciamento de memória do Ollama alocou mais memória à GPU,
aumentando as velocidades de geração de tokens e processamento

e são dados alguns exemplos, por exemplo:

Contexto longo

    GPU: 1x NVIDIA GeForce RTX 4090
    Modelo: gemma3:12b
    Comprimento do contexto: 128k

Antigo                                   Novo
52,02 tokens/s velocidade de geração de tokens 85,54 tokens/s velocidade de geração de tokens
19,9 GiB de VRAM                       21,4 GiB de VRAM
48⁄49 camadas carregadas na GPU            49⁄49 camadas carregadas na GPU

Aqui estou testando como isso funciona no meu PC. Meus resultados são muito diferentes dos testes oficiais; são completamente opostos. Tenho uma configuração de hardware ligeiramente diferente e testei modelos diferentes, mas os resultados não são melhores de forma alguma, e muitas vezes são piores. Isso ecoa a postagem sobre os Primeiros Sinais da Enshittification do Ollama.

ollama llamas Esta imagem é da postagem do blog no site do Ollama.

TL;DR

Testei como a nova versão do Ollama agendar LLMs que não cabem na minha VRAM de 16 GB.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Estava executando ollama run <modelname>, depois algumas perguntas simples como quem é você?, e em um terminal separado verifiquei a resposta de ollama ps e nvidia-smi. Tudo muito simples.

Apenas o qwen3:30b-a3b mostrou a mesma distribuição CPU/GPU, os outros três modelos foram empurrados mais para o CPU na nova versão. Nos meus testes, para minha decepção, a nova versão do Ollama é pior, e esses resultados contradizem a postagem no blog do Ollama.

Dados de comparação detalhada

Modelo	Versão Antiga: VRAM alocada	Versão Antiga: CPU/GPU	Versão Nova: VRAM alocada	Versão Nova: CPU/GPU
mistral-small3.2:24b	14489 MiB	41%/59%	14249 MiB	44%/56%
qwen3:30b-a3b	15065 MiB	21%/79%	14867 MiB	21%/79%
gemma3:27b	13771 MiB	28%/72%	14817 MiB	29%/71%
qwen3:32b	14676 MiB	30%/70%	15139 MiB	32%/68%

Decepcionante.

Para mais benchmarks, ajuste de memória e orientações de desempenho, verifique nosso Desempenho de LLM: Benchmarks, Gargalos e Otimização hub.

TL;DR

Dados de comparação detalhada

Links úteis

Assinar