Alocação de memória e agendamento de modelos na nova versão do Ollama - v0.12.1

Meu próprio teste de agendamento de modelos Ollama

Conteúdo da página

Aqui estou comparando quanto VRAM a nova versão do Ollama alocava para o modelo em relação à versão anterior do Ollama. A nova versão é pior.

Para mais informações sobre vazão, latência, VRAM e benchmarks entre diferentes tempos de execução e hardware, consulte Desempenho de LLM: Benchmarks, Gargalos e Otimização.

Como dito no site oficial, o novo lançamento do Ollama possui uma Nova agendamento de modelos com:

Maximização da utilização da GPU:
O novo gerenciamento de memória do Ollama alocou mais memória à GPU,
aumentando as velocidades de geração de tokens e processamento

e são dados alguns exemplos, por exemplo:

Contexto longo

    GPU: 1x NVIDIA GeForce RTX 4090
    Modelo: gemma3:12b
    Comprimento do contexto: 128k

Antigo                                   Novo
52,02 tokens/s velocidade de geração de tokens 85,54 tokens/s velocidade de geração de tokens
19,9 GiB de VRAM                       21,4 GiB de VRAM
48⁄49 camadas carregadas na GPU            49⁄49 camadas carregadas na GPU

Aqui estou testando como isso funciona no meu PC. Meus resultados são muito diferentes dos testes oficiais; são completamente opostos. Tenho uma configuração de hardware ligeiramente diferente e testei modelos diferentes, mas os resultados não são melhores de forma alguma, e muitas vezes são piores. Isso ecoa a postagem sobre os Primeiros Sinais da Enshittification do Ollama.

ollama llamas Esta imagem é da postagem do blog no site do Ollama.

TL;DR

Testei como a nova versão do Ollama agendar LLMs que não cabem na minha VRAM de 16 GB.

  • mistral-small3.2:24b
  • qwen3:30b-a3b
  • gemma3:27b
  • qwen3:32b

Estava executando ollama run <modelname>, depois algumas perguntas simples como quem é você?, e em um terminal separado verifiquei a resposta de ollama ps e nvidia-smi. Tudo muito simples.

Apenas o qwen3:30b-a3b mostrou a mesma distribuição CPU/GPU, os outros três modelos foram empurrados mais para o CPU na nova versão. Nos meus testes, para minha decepção, a nova versão do Ollama é pior, e esses resultados contradizem a postagem no blog do Ollama.

Dados de comparação detalhada

Modelo Versão Antiga: VRAM alocada Versão Antiga: CPU/GPU Versão Nova: VRAM alocada Versão Nova: CPU/GPU
mistral-small3.2:24b 14489 MiB 41%/59% 14249 MiB 44%/56%
qwen3:30b-a3b 15065 MiB 21%/79% 14867 MiB 21%/79%
gemma3:27b 13771 MiB 28%/72% 14817 MiB 29%/71%
qwen3:32b 14676 MiB 30%/70% 15139 MiB 32%/68%

Decepcionante.

Para mais benchmarks, ajuste de memória e orientações de desempenho, verifique nosso Desempenho de LLM: Benchmarks, Gargalos e Otimização hub.

Assinar

Receba novos artigos sobre sistemas, infraestrutura e engenharia de IA.