Mover los modelos de Ollama a una ubicación diferente

Los archivos de modelos LLM de Ollama ocupan mucho espacio.

Índice

Después de instalar Ollama, es mejor reconfigurar Ollama para que los almacene en la nueva ubicación de inmediato. Así, cuando descargamos un nuevo modelo, no se descarga en la ubicación antigua.

Llama inteligente con sombrero haciendo algo en la sala de servidores

Sobre Ollama

Ollama es una interfaz basada en texto para Modelos de IA de LLM y una API que también puede alojarlos. Para una comparación más amplia de Ollama con vLLM, Docker Model Runner, LocalAI y proveedores en la nube, incluyendo compensaciones de costos e infraestructura, consulte Alojamiento de LLM: Infraestructura local, autoalojada y en la nube comparadas.

Instalar Ollama

Vaya a https://ollama.com/download

Para instalar Ollama en Linux:

curl -fsSL https://ollama.com/install.sh | sh

Ollama para Windows está en la página: https://ollama.com/download/windows Ollama para Mac también está disponible: https://ollama.com/download/macOllamaSetup.exe

Descargar, listar y eliminar modelos de Ollama

Para descargar algunos modelos de Ollama: Vaya a la Biblioteca de Ollama (https://ollama.com/library) y busque el modelo que necesita; allí también puede encontrar etiquetas y tamaños de modelos.

Luego ejecute:

ollama pull gemma2:latest

# O obtenga uno ligeramente más inteligente que aún cabe bien en 16 GB de VRAM:
ollama pull gemma2:27b-instruct-q3_K_S

# O: 
ollama pull llama3.1:latest
ollama pull llama3.1:8b-instruct-q8_0
ollama pull mistral-nemo:12b-instruct-2407-q6_K
ollama pull mistral-small:22b-instruct-2409-q4_0
ollama pull phi3:14b-medium-128k-instruct-q6_K
ollama pull qwen2.5:14b-instruct-q5_0

Para verificar los modelos que Ollama tiene en el repositorio local:

ollama list

Para eliminar algún modelo innecesario:

ollama rm qwen2:7b-instruct-q8_0 # por ejemplo

Ubicación de los modelos de Ollama

Por defecto, los archivos del modelo se almacenan en:

  • Windows: C:\Users%username%.ollama\models
  • Linux: /usr/share/ollama/.ollama/models
  • macOS: ~/.ollama/models

La misma preocupación de almacenamiento surge cuando Ollama se ejecuta en contenedores: desea que los modelos y el estado del servidor estén en un volumen con nombre o un montaje de unión (y opcionalmente OLLAMA_MODELS cuando el diseño debe diferir de la ruta predeterminada /root/.ollama en la imagen oficial). Para una configuración completa de Compose con reserva de GPU, OLLAMA_HOST, actualizaciones y patrones de reversión, consulte Ollama en Docker Compose con GPU y almacenamiento persistente de modelos.

Configurar la ruta de los modelos de Ollama en Windows

Para crear una variable de entorno en Windows, puede seguir estas instrucciones:

  • Abra la Configuración de Windows.
  • Vaya a Sistema.
  • Seleccione Acerca de.
  • Seleccione Configuración avanzada del sistema.
  • Vaya a la pestaña Avanzado.
  • Seleccione Variables de entorno…
  • Haga clic en Nueva…
  • Y cree una variable llamada OLLAMA_MODELS que apunte a donde desea almacenar los modelos.

Mover los modelos de Ollama en Linux

Edite los parámetros del servicio systemd de ollama

sudo systemctl edit ollama.service

o

sudo xed /etc/systemd/system/ollama.service

Esto abrirá un editor.

Para cada variable de entorno, agregue una línea Environment bajo la sección [Service]:

[Service]
Environment="OLLAMA_MODELS=/lugarespecial/ollama/models"

Guarde y salga.

También existen parámetros de Usuario y Grupo; estos deben tener acceso a esta carpeta.

Recargue systemd y reinicie Ollama:

sudo systemctl daemon-reload
sudo systemctl restart ollama

si algo salió mal

systemctl status ollama.service
sudo journalctl -u ollama.service

Almacenamiento de archivos en la sobrecarga de NTFS

Tenga en cuenta que si está ejecutando Linux y mantiene sus modelos en una partición con formato NTFS, sus modelos se cargarán mucho más lento, más del 20%.

ntfs.mount uso de cpu

Instalar Ollama en Windows en una carpeta específica

Junto con los modelos

.\OllamaSetup.exe /DIR=D:\OllamaDir

Exponer la API de Ollama a la red interna

Interna aquí significa red local.

Agregue a la configuración del servicio:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

Esto expone la API HTTP simple en su red. Para HTTPS automatizado, streaming correcto y proxy WebSocket a través de Caddy o Nginx, y endurecimiento de borde (tiempos de espera, almacenamiento en búfer, autenticación opcional frente a la API), use Ollama detrás de un proxy inverso con Caddy o Nginx para streaming HTTPS.

Para acceder a Ollama desde dispositivos remotos sin abrir puertos públicos, use una superposición privada (Tailscale) o WireGuard; consulte Acceso remoto a Ollama mediante Tailscale o WireGuard, sin puertos públicos.

Para ver cómo Ollama se adapta a otras opciones de LLM locales y en la nube, consulte nuestra guía Alojamiento de LLM: Infraestructura local, autoalojada y en la nube comparadas.

Enlaces útiles