Mover los modelos de Ollama a una ubicación diferente
Los archivos de modelos LLM de Ollama ocupan mucho espacio.
Después de instalar Ollama, es mejor reconfigurar Ollama para que los almacene en la nueva ubicación de inmediato. Así, cuando descargamos un nuevo modelo, no se descarga en la ubicación antigua.

Sobre Ollama
Ollama es una interfaz basada en texto para Modelos de IA de LLM y una API que también puede alojarlos. Para una comparación más amplia de Ollama con vLLM, Docker Model Runner, LocalAI y proveedores en la nube, incluyendo compensaciones de costos e infraestructura, consulte Alojamiento de LLM: Infraestructura local, autoalojada y en la nube comparadas.
Instalar Ollama
Vaya a https://ollama.com/download
Para instalar Ollama en Linux:
curl -fsSL https://ollama.com/install.sh | sh
Ollama para Windows está en la página: https://ollama.com/download/windows Ollama para Mac también está disponible: https://ollama.com/download/macOllamaSetup.exe
Descargar, listar y eliminar modelos de Ollama
Para descargar algunos modelos de Ollama: Vaya a la Biblioteca de Ollama (https://ollama.com/library) y busque el modelo que necesita; allí también puede encontrar etiquetas y tamaños de modelos.
Luego ejecute:
ollama pull gemma2:latest
# O obtenga uno ligeramente más inteligente que aún cabe bien en 16 GB de VRAM:
ollama pull gemma2:27b-instruct-q3_K_S
# O:
ollama pull llama3.1:latest
ollama pull llama3.1:8b-instruct-q8_0
ollama pull mistral-nemo:12b-instruct-2407-q6_K
ollama pull mistral-small:22b-instruct-2409-q4_0
ollama pull phi3:14b-medium-128k-instruct-q6_K
ollama pull qwen2.5:14b-instruct-q5_0
Para verificar los modelos que Ollama tiene en el repositorio local:
ollama list
Para eliminar algún modelo innecesario:
ollama rm qwen2:7b-instruct-q8_0 # por ejemplo
Ubicación de los modelos de Ollama
Por defecto, los archivos del modelo se almacenan en:
- Windows: C:\Users%username%.ollama\models
- Linux: /usr/share/ollama/.ollama/models
- macOS: ~/.ollama/models
La misma preocupación de almacenamiento surge cuando Ollama se ejecuta en contenedores: desea que los modelos y el estado del servidor estén en un volumen con nombre o un montaje de unión (y opcionalmente OLLAMA_MODELS cuando el diseño debe diferir de la ruta predeterminada /root/.ollama en la imagen oficial). Para una configuración completa de Compose con reserva de GPU, OLLAMA_HOST, actualizaciones y patrones de reversión, consulte Ollama en Docker Compose con GPU y almacenamiento persistente de modelos.
Configurar la ruta de los modelos de Ollama en Windows
Para crear una variable de entorno en Windows, puede seguir estas instrucciones:
- Abra la Configuración de Windows.
- Vaya a Sistema.
- Seleccione Acerca de.
- Seleccione Configuración avanzada del sistema.
- Vaya a la pestaña Avanzado.
- Seleccione Variables de entorno…
- Haga clic en Nueva…
- Y cree una variable llamada OLLAMA_MODELS que apunte a donde desea almacenar los modelos.
Mover los modelos de Ollama en Linux
Edite los parámetros del servicio systemd de ollama
sudo systemctl edit ollama.service
o
sudo xed /etc/systemd/system/ollama.service
Esto abrirá un editor.
Para cada variable de entorno, agregue una línea Environment bajo la sección [Service]:
[Service]
Environment="OLLAMA_MODELS=/lugarespecial/ollama/models"
Guarde y salga.
También existen parámetros de Usuario y Grupo; estos deben tener acceso a esta carpeta.
Recargue systemd y reinicie Ollama:
sudo systemctl daemon-reload
sudo systemctl restart ollama
si algo salió mal
systemctl status ollama.service
sudo journalctl -u ollama.service
Almacenamiento de archivos en la sobrecarga de NTFS
Tenga en cuenta que si está ejecutando Linux y mantiene sus modelos en una partición con formato NTFS, sus modelos se cargarán mucho más lento, más del 20%.

Instalar Ollama en Windows en una carpeta específica
Junto con los modelos
.\OllamaSetup.exe /DIR=D:\OllamaDir
Exponer la API de Ollama a la red interna
Interna aquí significa red local.
Agregue a la configuración del servicio:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Esto expone la API HTTP simple en su red. Para HTTPS automatizado, streaming correcto y proxy WebSocket a través de Caddy o Nginx, y endurecimiento de borde (tiempos de espera, almacenamiento en búfer, autenticación opcional frente a la API), use Ollama detrás de un proxy inverso con Caddy o Nginx para streaming HTTPS.
Para acceder a Ollama desde dispositivos remotos sin abrir puertos públicos, use una superposición privada (Tailscale) o WireGuard; consulte Acceso remoto a Ollama mediante Tailscale o WireGuard, sin puertos públicos.
Para ver cómo Ollama se adapta a otras opciones de LLM locales y en la nube, consulte nuestra guía Alojamiento de LLM: Infraestructura local, autoalojada y en la nube comparadas.
Enlaces útiles
- Prueba: Cómo Ollama utiliza el rendimiento de CPU de Intel y núcleos eficientes
- Cómo Ollama maneja las solicitudes paralelas
- Rendimiento de LLM y carriles PCIe: Consideraciones clave
- Comparación de rendimiento de velocidad de LLM
- Comparando las capacidades de resumen de LLM
- Escribir prompts efectivos para LLM
- Autoalojamiento de Perplexica - con Ollama
- Proveedores de LLM en la nube