Mova os modelos do Ollama para uma localização diferente
Os arquivos de modelos LLM do Ollama ocupam muito espaço.
Após instalar o Ollama, é melhor reconfigurar o Ollama para armazená-los em um novo local imediatamente. Assim, após baixar um novo modelo, ele não será baixado para o local antigo.

Sobre o Ollama
O Ollama é uma interface baseada em texto para Modelos de IA LLM e uma API que também pode hospedar esses modelos. Para uma comparação mais ampla do Ollama com vLLM, Docker Model Runner, LocalAI e provedores de nuvem — incluindo compensações de custos e infraestrutura — veja Hospedagem de LLM: Local, Auto-hospedada e Infraestrutura em Nuvem Comparadas.
Instalar Ollama
Acesse https://ollama.com/download
Para instalar o Ollama no Linux:
curl -fsSL https://ollama.com/install.sh | sh
O Ollama para Windows está na página: https://ollama.com/download/windows O Ollama para Mac também está lá: https://ollama.com/download/macOllamaSetup.exe
Baixar, Listar e Remover Modelos do Ollama
Para baixar alguns modelos do Ollama: Vá para a Biblioteca do Ollama (https://ollama.com/library) e encontre o modelo de que precisa; ali você também pode encontrar as tags e tamanhos dos modelos.
Em seguida, execute:
ollama pull gemma2:latest
# Ou obtenha um modelo ligeiramente mais inteligente, mas que ainda se encaixa bem em 16GB de VRAM:
ollama pull gemma2:27b-instruct-q3_K_S
# Ou:
ollama pull llama3.1:latest
ollama pull llama3.1:8b-instruct-q8_0
ollama pull mistral-nemo:12b-instruct-2407-q6_K
ollama pull mistral-small:22b-instruct-2409-q4_0
ollama pull phi3:14b-medium-128k-instruct-q6_K
ollama pull qwen2.5:14b-instruct-q5_0
Para verificar os modelos que o Ollama possui no repositório local:
ollama list
Para remover algum modelo desnecessário:
ollama rm qwen2:7b-instruct-q8_0 # por exemplo
Localização dos Modelos do Ollama
Por padrão, os arquivos dos modelos são armazenados em:
- Windows: C:\Users%username%.ollama\models
- Linux: /usr/share/ollama/.ollama/models
- macOS: ~/.ollama/models
A mesma preocupação de armazenamento surge quando o Ollama é executado em contêineres: você deseja que os modelos e o estado do servidor fiquem em um volume nomeado ou montagem vinculada (e, opcionalmente, OLLAMA_MODELS quando o layout deve diferir do caminho padrão /root/.ollama na imagem oficial). Para um layout completo do Compose com reserva de GPU, OLLAMA_HOST, atualizações e padrões de retorno, veja Ollama no Docker Compose com GPU e Armazenamento Persistente de Modelos.
Configurando o caminho dos modelos do Ollama no Windows
Para criar uma variável de ambiente no Windows, siga estas instruções:
- Abra as Configurações do Windows.
- Vá para Sistema.
- Selecione Sobre.
- Selecione Configurações Avançadas do Sistema.
- Vá para a aba Avançado.
- Selecione Variáveis de Ambiente….
- Clique em Novo…
- E crie uma variável chamada OLLAMA_MODELS apontando para onde você deseja armazenar os modelos.
Mover modelos do Ollama no Linux
Edite os parâmetros do serviço systemd do Ollama:
sudo systemctl edit ollama.service
ou
sudo xed /etc/systemd/system/ollama.service
Isso abrirá um editor.
Para cada variável de ambiente, adicione uma linha Environment sob a seção [Service]:
[Service]
Environment="OLLAMA_MODELS=/local-especial/ollama/models"
Salve e saia.
Também existem parâmetros de Usuário e Grupo; estes devem ter acesso a esta pasta.
Recarregue o systemd e reinicie o Ollama:
sudo systemctl daemon-reload
sudo systemctl restart ollama
Se algo der errado:
systemctl status ollama.service
sudo journalctl -u ollama.service
Armazenamento de arquivos e sobrecarga no NTFS
Tenha em mente que, se você estiver executando Linux e mantendo seus modelos em uma partição formatada em NTFS, seus modelos serão carregados muito mais lentamente — mais de 20% mais lento.

Instalar Ollama no Windows em uma pasta específica
Juntamente com os modelos:
.\OllamaSetup.exe /DIR=D:\OllamaDir
Expor a API do Ollama na rede interna
Aqui, “interna” significa rede local.
Adicione à configuração do serviço:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Isso expõe a API HTTP simples na sua rede. Para HTTPS automatizado, streaming correto e proxy WebSocket através do Caddy ou Nginx, e endurecimento de borda (tempo de espera, buffer, autenticação opcional à frente da API), use Ollama atrás de um proxy reverso com Caddy ou Nginx para streaming HTTPS.
Para acessar o Ollama de dispositivos remotos sem abrir portas públicas, use uma sobreposição privada (Tailscale) ou WireGuard; veja Acesso remoto ao Ollama via Tailscale ou WireGuard, sem portas públicas.
Para ver como o Ollama se encaixa com outras opções de LLM locais e em nuvem, consulte nosso guia Hospedagem de LLM: Local, Auto-hospedada e Infraestrutura em Nuvem Comparadas.
Links úteis
- Teste: Como o Ollama utiliza o Desempenho da CPU Intel e Núcleos Eficientes
- Como o Ollama Lida com Solicitações Paralelas
- Desempenho de LLM e Pistas PCIe: Considerações Chave
- Comparação de desempenho de velocidade de LLM
- Comparando Capacidades de Resumo de LLM
- Escrevendo prompts eficazes para LLMs
- Auto-hospedagem do Perplexica - com Ollama
- Provedores de LLM em Nuvem