Como a Ollama aloca a VRAM para modelos?

Ollama carrega as camadas do modelo na VRAM da GPU quando possível. Versões mais recentes usam um escalonamento atualizado que pode alocar mais VRAM para maximizar o uso da GPU, mas em alguns hardwares e modelos a divisão entre CPU e GPU pode mudar e nem sempre melhorar.

E se um modelo não couber na VRAM da minha GPU?

Ollama pode deslocar algumas camadas para a CPU e manter o restante na GPU. A divisão entre CPU e GPU depende da quantidade disponível de VRAM, do tamanho do modelo e da versão do Ollama. Normalmente, um maior deslocamento para a CPU resulta em inferência mais lenta.

O novo agendamento de modelos da Ollama usa mais VRAM?

Em algumas configurações, o novo escalonamento aloca mais VRAM e mantém mais camadas na GPU, o que pode aumentar o número de tokens por segundo. Em outras configurações (por exemplo, 16 GB de VRAM com modelos grandes), o comportamento pode ser diferente e uma maior carga pode ser direcionada para a CPU.

Como posso verificar a VRAM e o uso da CPU/GPU do Ollama?

Execute ollama ps para obter estatísticas por modelo e nvidia-smi para memória da GPU. Esses comandos mostram a VRAM alocada e a divisão de camadas CPU/GPU para o modelo em execução.

Onde posso encontrar mais informações sobre o desempenho e benchmarks de LLM?

Nosso hub de desempenho do LLM aborda throughput versus latência, limites de VRAM, solicitações paralelas e benchmarks em diferentes runtimes e hardware.

Alocação de memória e agendamento do modelo na nova versão do Ollama - v0.12.1

Meu próprio teste de escalonamento do modelo ollama

Conteúdo da página

Aqui estou comparando quanto de VRAM a nova versão do Ollama aloca para o modelo com a versão anterior do Ollama. A nova versão é pior.

Para mais informações sobre throughput, latência, VRAM e benchmarks em diferentes runtimes e hardware, veja Desempenho de LLM: Benchmarks, Bottlenecks & Otimização.

Como é dito no site oficial a nova versão do Ollama tem Nova programação de modelos com

Maximizando o uso da GPU:
A nova gestão de memória do Ollama aloca mais memória para a GPU,
aumentando a velocidade de geração e processamento de tokens

e alguns exemplos são fornecidos, por exemplo:

Contexto longo

    GPU: 1x NVIDIA GeForce RTX 4090
    Modelo: gemma3:12b
    Comprimento do contexto: 128k

Velocidade de geração de tokens antiga                   Velocidade de geração de tokens nova
52,02 tokens/s                                        85,54 tokens/s
19,9GiB de VRAM                                       21,4GiB de VRAM
48⁄49 camadas carregadas na GPU                       49⁄49 camadas carregadas na GPU

Aqui estou testando como funciona no meu PC. Meus resultados são muito diferentes dos testes oficiais, são completamente opostos. Tenho uma configuração de hardware ligeiramente diferente e testei modelos diferentes, mas os resultados não são melhores de forma alguma, e frequentemente pior. Isso ecoa o post sobre Primeiros Sinais de Enshittification do Ollama.

ollama llamas Esta imagem é de um post no blog do site do Ollama.

TL;DR

Testei como a nova versão do Ollama agende LLMs que não cabem na minha VRAM de 16GB.

mistral-small3.2:24b
qwen3:30b-a3b
gemma3:27b
qwen3:32b

Estava executando ollama run <modelname>, depois uma pergunta simples como quem é você?, e em um terminal separado verifiquei a resposta de ollama ps e nvidia-smi. Tudo bastante simples.

Apenas o qwen3:30b-a3b mostrou a mesma distribuição CPU/GPU, os outros três modelos foram empurrados mais para a CPU na nova versão. Nos meus testes, para minha decepção, a nova versão do Ollama é pior, e esses resultados contradizem o post no blog do Ollama.

Dados de comparação detalhada

Modelo	VRAM alocada versão antiga	CPU/GPU versão antiga	VRAM alocada versão nova	CPU/GPU versão nova
mistral-small3.2:24b	14489MiB	41%/59%	14249MiB	44%/56%
qwen3:30b-a3b	15065MiB	21%/79%	14867MiB	21%/79%
gemma3:27b	13771MiB	28%/72%	14817MiB	29%/71%
qwen3:32b	14676MiB	30%/70%	15139MiB	32%/68%

Decepcionante.

Para mais benchmarks, ajustes de memória e orientações de desempenho, consulte nossa Desempenho de LLM: Benchmarks, Bottlenecks & Otimização hub.

TL;DR

Dados de comparação detalhada

Links úteis