Ollama Cheatsheet - die nützlichsten Befehle

Habe diese Ollama-Befehlsliste vor einiger Zeit erstellt...

Inhaltsverzeichnis

Hier ist die Liste und Beispiele der nützlichsten Ollama-Befehle (Ollama-Befehlsübersicht), die ich vor einiger Zeit zusammengestellt habe. Hoffentlich wird sie auch für Sie nützlich sein.

ollama cheatsheet

Diese Ollama-Cheat-Sheet konzentriert sich auf CLI-Befehle, Modellverwaltung und Anpassung, enthält aber auch einige curl-Aufrufe.

Installation

  • Option 1: Download von der Website
    • Besuchen Sie ollama.com und laden Sie den Installer für Ihr Betriebssystem (Mac, Linux oder Windows) herunter.
  • Option 2: Installation über die Kommandozeile
    • Für Mac- und Linux-Nutzer verwenden Sie den Befehl:
curl https://ollama.ai/install.sh | sh
  • Folgen Sie den Anweisungen auf dem Bildschirm und geben Sie Ihr Passwort ein, falls erforderlich.

Systemanforderungen

  • Betriebssystem: Mac oder Linux (Windows-Version in Entwicklung)
  • Speicher (RAM): 8GB Mindest, 16GB oder mehr empfohlen
  • Speicherplatz: Mindestens ~10GB freier Speicherplatz (Modelldateien können wirklich groß sein, siehe hier mehr Ollama-Modelle auf eine andere Festplatte verschieben)
  • Prozessor: Ein relativ moderner CPU (aus den letzten 5 Jahren).

Grundlegende Ollama-CLI-Befehle

Befehl Beschreibung
ollama serve Startet Ollama auf Ihrem lokalen System.
ollama create <new_model> Erstellt ein neues Modell aus einem bestehenden für die Anpassung oder das Training.
ollama show <model> Zeigt Details zu einem bestimmten Modell an, wie seine Konfiguration und das Veröffentlichungsdatum.
ollama run <model> Führt das angegebene Modell aus und macht es für die Interaktion bereit.
ollama pull <model> Lädt das angegebene Modell auf Ihr System herunter.
ollama list Listet alle heruntergeladenen Modelle auf. Das Gleiche wie ollama ls
ollama ps Zeigt die derzeit laufenden Modelle an.
ollama stop <model> Stoppt das angegebene laufende Modell.
ollama rm <model> Entfernt das angegebene Modell von Ihrem System.
ollama help Bietet Hilfe zu jedem Befehl.

Modellverwaltung

  • Ein Modell herunterladen:

    ollama pull mistral-nemo:12b-instruct-2407-q6_K
    

    Dieser Befehl lädt das angegebene Modell (z. B. Gemma 2B oder mistral-nemo:12b-instruct-2407-q6_K) auf Ihr System herunter. Die Modelldateien können ziemlich groß sein, also behalten Sie den von den Modellen auf der Festplatte oder SSD genutzten Speicherplatz im Auge. Sie möchten möglicherweise sogar alle Ollama-Modelle von Ihrem Home-Verzeichnis auf eine größere und bessere Festplatte verschieben.

  • Ein Modell ausführen:

    ollama run qwen2.5:32b-instruct-q3_K_S
    

    Dieser Befehl startet das angegebene Modell und öffnet eine interaktive REPL für die Interaktion.

  • Modelle auflisten:

    ollama list
    

    das Gleiche wie:

    ollama ls
    

    Dieser Befehl listet alle Modelle auf, die auf Ihr System heruntergeladen wurden, wie z. B.

    $ ollama ls
    NAME                                                    ID              SIZE      MODIFIED
    deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 Wochen her
    gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 Wochen her
    LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 Wochen her
    dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 Wochen her
    dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 Wochen her
    qwen3:8b                                                500a1f067a9f    5.2 GB    5 Wochen her
    qwen3:14b                                               bdbd181c33f2    9.3 GB    5 Wochen her
    qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 Wochen her
    devstral:24b                                            c4b2fa0c33d7    14 GB     5 Wochen her
    
  • Ein Modell stoppen:

    ollama stop llama3.1:8b-instruct-q8_0
    

    Dieser Befehl stoppt das angegebene laufende Modell.

Modell aus dem VRAM freigeben

Wenn ein Modell in den VRAM (GPU-Speicher) geladen wird, bleibt es dort, auch nachdem Sie es nicht mehr verwenden. Um ein Modell explizit aus dem VRAM freizugeben und den GPU-Speicher freizugeben, können Sie eine Anfrage an die Ollama-API mit keep_alive: 0 senden.

  • Modell aus dem VRAM freigeben mit curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Ersetzen Sie MODELNAME durch den tatsächlichen Modellnamen, z. B.:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Modell aus dem VRAM freigeben mit Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Dies ist besonders nützlich, wenn:

  • Sie GPU-Speicher für andere Anwendungen freigeben müssen
  • Sie mehrere Modelle ausführen und den VRAM-Verbrauch verwalten möchten
  • Sie mit einem großen Modell fertig sind und die Ressourcen sofort freigeben möchten

Hinweis: Der Parameter keep_alive steuert, wie lange (in Sekunden) ein Modell im Speicher bleibt, nachdem die letzte Anfrage erfolgt ist. Das Setzen auf 0 entlädt das Modell sofort aus dem VRAM.

Modelle anpassen

  • System-Prompt festlegen: Innerhalb der Ollama-REPL können Sie einen System-Prompt festlegen, um das Verhalten des Modells anzupassen:

    >>> /set system Für alle gestellten Fragen antworten Sie in einfachem Englisch und vermeiden Sie technisches Fachjargon so weit wie möglich
    >>> /save ipe
    >>> /bye
    

    Führen Sie dann das angepasste Modell aus:

    ollama run ipe
    

    Dies legt einen System-Prompt fest und speichert das Modell für die zukünftige Verwendung.

  • Benutzerdefinierte Modelldatei erstellen: Erstellen Sie eine Textdatei (z. B. custom_model.txt) mit der folgenden Struktur:

    FROM llama3.1
    SYSTEM [Ihre benutzerdefinierten Anweisungen hier]
    

    Führen Sie dann aus:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Dies erstellt ein benutzerdefiniertes Modell basierend auf den Anweisungen in der Datei.

Ollama mit Dateien verwenden

  • Text aus einer Datei zusammenfassen:

    ollama run llama3.2 "Fassen Sie den Inhalt dieser Datei in 50 Wörtern zusammen." < input.txt
    

    Dieser Befehl fasst den Inhalt von input.txt mit dem angegebenen Modell zusammen.

  • Modellantworten in eine Datei protokollieren:

    ollama run llama3.2 "Erzählen Sie mir etwas über erneuerbare Energien." > output.txt
    

    Dieser Befehl speichert die Antwort des Modells in output.txt.

Häufige Anwendungsfälle

  • Texterzeugung:

    • Zusammenfassung einer großen Textdatei:
      ollama run llama3.2 "Fassen Sie den folgenden Text zusammen:" < long-document.txt
      
    • Erstellung von Inhalten:
      ollama run llama3.2 "Schreiben Sie einen kurzen Artikel über die Vorteile der Nutzung von KI im Gesundheitswesen." > article.txt
      
    • Beantwortung spezifischer Fragen:
      ollama run llama3.2 "Was sind die neuesten Trends in der KI und wie werden sie das Gesundheitswesen beeinflussen?"
      
  • Datenverarbeitung und -analyse:

    • Klassifizierung von Text in positive, negative oder neutrale Stimmung:
      ollama run llama3.2 "Analysieren Sie die Stimmung dieser Kundenbewertung: 'Das Produkt ist fantastisch, aber die Lieferung war langsam.'"
      
    • Kategorisierung von Text in vordefinierte Kategorien: Verwenden Sie ähnliche Befehle, um Text basierend auf vordefinierten Kriterien zu klassifizieren oder zu kategorisieren.

Ollama mit Python verwenden

  • Ollama Python-Bibliothek installieren:
    pip install ollama
    
  • Texterzeugung mit Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='was ist ein Qubit?')
    print(response['response'])
    
    Dieser Code-Ausschnitt erzeugt Text mit dem angegebenen Modell und Prompt.