Ollama-Modelle an einen anderen Speicherort verschieben

Ollama-LLM-Modelldateien beanspruchen viel Speicherplatz.

Inhaltsverzeichnis

Nach dem Installieren von Ollama ist es besser, Ollama sofort neu zu konfigurieren, um die Modelle direkt am neuen Speicherort abzulegen. So werden nach dem Herunterladen eines neuen Modells keine Dateien mehr am alten Ort gespeichert.

Ein schlauer Llama mit Hut macht etwas im Serverraum

Über Ollama

Ollama ist eine textbasierte Frontend-Oberfläche für LLM-KI-Modelle und eine API, die diese ebenfalls hosten kann. Für einen breiteren Vergleich von Ollama mit vLLM, Docker Model Runner, LocalAI und Cloud-Anbietern – einschließlich Kosten- und Infrastruktur-Abwägungen – siehe LLM-Hosting: Lokale, selbst gehostete und Cloud-Infrastruktur im Vergleich.

Ollama installieren

Gehe zu https://ollama.com/download

Um Ollama unter Linux zu installieren:

curl -fsSL https://ollama.com/install.sh | sh

Ollama für Windows befindet sich auf der Seite: https://ollama.com/download/windows Ollama für Mac ist ebenfalls dort verfügbar: https://ollama.com/download/macOllamaSetup.exe

Ollama-Modelle herunterladen, auflisten und entfernen

Um einige Ollama-Modelle herunterzuladen: Gehe zur Ollama-Bibliothek (https://ollama.com/library) und suche das benötigte Modell; dort finden Sie auch Modell-Tags und Größen.

Führen Sie dann aus:

ollama pull gemma2:latest

# Oder holen Sie ein etwas klügeres Modell, das immer noch gut in 16 GB VRAM passt:
ollama pull gemma2:27b-instruct-q3_K_S

# Oder: 
ollama pull llama3.1:latest
ollama pull llama3.1:8b-instruct-q8_0
ollama pull mistral-nemo:12b-instruct-2407-q6_K
ollama pull mistral-small:22b-instruct-2409-q4_0
ollama pull phi3:14b-medium-128k-instruct-q6_K
ollama pull qwen2.5:14b-instruct-q5_0

Um zu prüfen, welche Modelle Ollama im lokalen Repository hat:

ollama list

Um ein nicht mehr benötigtes Modell zu entfernen:

ollama rm qwen2:7b-instruct-q8_0 # zum Beispiel

Speicherort der Ollama-Modelle

Standardmäßig werden die Modell-Dateien wie folgt gespeichert:

  • Windows: C:\Users%username%.ollama\models
  • Linux: /usr/share/ollama/.ollama/models
  • macOS: ~/.ollama/models

Das gleiche Speicherproblem tritt auf, wenn Ollama in Containern ausgeführt wird: Sie möchten Modelle und Server-Status auf einem benannten Volume oder Bind-Mount speichern (und optional OLLAMA_MODELS, wenn das Layout vom Standardpfad /root/.ollama im offiziellen Image abweichen soll). Für eine vollständige Compose-Struktur mit GPU-Reservierung, OLLAMA_HOST, Upgrades und Rollback-Mustern siehe Ollama in Docker Compose mit GPU und persistentem Modellspeicher.

Konfigurierung des Ollama-Modellpfads unter Windows

Um eine Umgebungsvariable unter Windows zu erstellen, können Sie diesen Anweisungen folgen:

  • Öffnen Sie die Windows-Einstellungen.
  • Gehen Sie zu System.
  • Wählen Sie Über.
  • Wählen Sie Erweiterte Systemeinstellungen.
  • Gehen Sie zum Register Erweitert.
  • Wählen Sie Umgebungsvariablen…
  • Klicken Sie auf Neu…
  • Und erstellen Sie eine Variable namens OLLAMA_MODELS, die auf den gewünschten Speicherort für die Modelle zeigt.

Ollama-Modelle unter Linux verschieben

Bearbeiten Sie die systemd-Dienstparameter für Ollama:

sudo systemctl edit ollama.service

oder

sudo xed /etc/systemd/system/ollama.service

Dadurch wird ein Editor geöffnet.

Fügen Sie für jede Umgebungsvariable eine Zeile Environment unter der Sektion [Service] hinzu:

[Service]
Environment="OLLAMA_MODELS=/specialplace/ollama/models"

Speichern und schließen Sie ab.

Es gibt auch Parameter für Benutzer und Gruppe; diese müssen Zugriff auf diesen Ordner haben.

Laden Sie systemd neu und starten Sie Ollama neu:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Falls etwas schiefging:

systemctl status ollama.service
sudo journalctl -u ollama.service

Speicherüberhead bei NTFS

Bitte beachten Sie, dass wenn Sie Linux laufen lassen und Ihre Modelle auf einer NTFS-formatierten Partition speichern, die Ladezeit Ihrer Modelle deutlich – mehr als 20 % – langsamer sein wird.

ntfs.mount cpu usage

Ollama unter Windows in einen spezifischen Ordner installieren

Zusammen mit den Modellen:

.\OllamaSetup.exe /DIR=D:\OllamaDir

Ollama-API im internen Netzwerk freischalten

Intern bedeutet hier lokales Netzwerk.

Fügen Sie folgendes zur Dienstkonfiguration hinzu:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"

Damit wird die reine HTTP-API in Ihrem Netzwerk freigeschaltet. Für automatisiertes HTTPS, korrekte Streaming- und WebSocket-Proxying über Caddy oder Nginx sowie Edge-Härtung (Timeouts, Pufferung, optionale Authentifizierung vor der API) verwenden Sie Ollama hinter einem Reverse-Proxy mit Caddy oder Nginx für HTTPS-Streaming.

Um Ollama von entfernten Geräten zu erreichen, ohne öffentliche Ports zu öffnen, verwenden Sie ein privates Overlay (Tailscale) oder WireGuard; siehe Fernzugriff auf Ollama über Tailscale oder WireGuard, keine öffentlichen Ports.

Um zu sehen, wie Ollama zu anderen lokalen und Cloud-LLM-Optionen passt, prüfen Sie unseren Leitfaden LLM-Hosting: Lokale, selbst gehostete und Cloud-Infrastruktur im Vergleich.

Abonnieren

Neue Beiträge zu Systemen, Infrastruktur und KI-Engineering.