Ollama CLI Cheatsheet: ls, serve, run, ps + Befehle (2026-Update)

Aktualisierte Ollama-Befehlsliste - ls, ps, run, serve usw.

Inhaltsverzeichnis

Dieses Ollama CLI Cheatsheet konzentriert sich auf die Befehle, die Sie täglich verwenden (ollama ls, ollama serve, ollama run, ollama ps, Modellverwaltung und gängige Workflows), mit Beispielen, die Sie kopieren und einfügen können.

Es enthält auch einen kurzen Abschnitt zu „Performance Knobs“, um Ihnen dabei zu helfen, OLLAMA_NUM_PARALLEL und verwandte Einstellungen zu entdecken (und anschließend tiefer zu erforschen).

ollama cheatsheet

Dieses Ollama Cheatsheet konzentriert sich auf CLI-Befehle, Modellverwaltung und Anpassungen, Aber wir haben hier auch einige curl Aufrufe.

Für ein vollständiges Bild davon, wo Ollama unter lokalen, selbstgehosteten und Cloud-Optionen passt – einschließlich vLLM, Docker Model Runner, LocalAI und Cloud-Anbietern – siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur im Vergleich. Wenn Sie verschiedene lokale LLM-Hosting-Lösungen vergleichen, schauen Sie sich unseren umfassenden Vergleich von Ollama, vLLM, LocalAI, Jan, LM Studio und mehr. Für diejenigen, die Alternativen zu Kommandozeilenschnittstellen suchen, bietet Docker Model Runner einen anderen Ansatz zur LLM-Bereitstellung.

Ollama Installation (Herunterladen und CLI-Installation)

  • Option 1: Von der Website herunterladen
    • Besuchen Sie ollama.com und laden Sie den Installer für Ihr Betriebssystem (Mac, Linux oder Windows) herunter.
  • Option 2: Über die Kommandozeile installieren
    • Für Mac- und Linux-Nutzer verwenden Sie den Befehl:
curl https://ollama.ai/install.sh | sh
  • Folgen Sie den auf dem Bildschirm angezeigten Anweisungen und geben Sie Ihr Passwort ein, wenn Sie dazu aufgefordert werden.

Ollama Systemanforderungen (RAM, Speicher, CPU)

Für ernsthafte AI-Arbeitslasten möchten Sie möglicherweise Hardware-Optionen vergleichen. Wir haben Benchmarks durchgeführt NVIDIA DGX Spark vs Mac Studio vs RTX-4080 Leistung mit Ollama, und wenn Sie in Hochleistungs-Hardware investieren, bietet unser DGX Spark Preis- und Leistungsvergleich detaillierte Kostenanalyse.

Grundlegende Ollama CLI-Befehle

Befehl Beschreibung
ollama serve Startet Ollama auf Ihrem lokalen System.
ollama create <new_model> Erstellt ein neues Modell aus einem bestehenden für Anpassungen oder Training.
ollama show <model> Zeigt Details zu einem bestimmten Modell, wie z. B. seine Konfiguration und Veröffentlichungsdatum.
ollama run <model> Führt das angegebene Modell aus, wodurch es für Interaktion bereitgestellt wird.
ollama pull <model> Lädt das angegebene Modell auf Ihr System herunter.
ollama list Listet alle heruntergeladenen Modelle auf. Das Gleiche wie ollama ls
ollama ps Zeigt die derzeit laufenden Modelle an.
ollama stop <model> Stoppt das angegebene laufende Modell.
ollama rm <model> Entfernt das angegebene Modell von Ihrem System.
ollama help Bietet Hilfe zu jedem Befehl.

Sprunglinks: Ollama serve Befehl · Ollama run Befehl · Ollama ps Befehl · Ollama CLI Basics · Performance Knobs (OLLAMA_NUM_PARALLEL) · Parallel requests deep dive

Ollama CLI (was es ist)

Ollama CLI ist die Kommandozeilenschnittstelle, um Modelle zu verwalten und sie lokal zu starten/serve. Die meisten Workflows reduzieren sich auf:

  • Server starten: ollama serve
  • Ein Modell starten: ollama run <model>
  • Sehen Sie, was geladen/läuft: ollama ps
  • Modelle verwalten: ollama pull, ollama list, ollama rm

Ollama Modellverwaltung: pull und list Modelle-Befehle

Modelle auflisten:

ollama list

Das gleiche wie:

ollama ls

Dieser Befehl listet alle Modelle auf, die auf Ihr System heruntergeladen wurden, mit ihren Dateigrößen auf Ihrem hdd/sdd, wie

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago  

Ein Modell herunterladen: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Dieser Befehl lädt das angegebene Modell (z. B. Gemma 2B oder mistral-nemo:12b-instruct-2407-q6_K) auf Ihr System herunter. Die Modelldateien können sehr groß sein, also achten Sie auf den Speicher, den die Modelle auf der Festplatte oder SSD belegen. Sie könnten sogar alle Ollama-Modelle von Ihrem Homeverzeichnis auf eine andere größere und bessere Festplatte verschieben

Ollama serve Befehl

ollama serve startet den lokalen Ollama-Server (Standard-HTTP-Port 11434).

ollama serve

“ollama serve” Befehl (systemd-freundliches Beispiel):

# Umgebungsvariablen festlegen, dann den Server starten
# Machen Sie Ollama auf der IP-Adresse des Hosts verfügbar
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Ollama run Befehl

Ein Modell starten:

ollama run gpt-oss:20b

Dieser Befehl startet das angegebene Modell und öffnet eine interaktive REPL für die Interaktion. Möchten Sie verstehen, wie Ollama mehrere parallele Anfragen verwaltet? Erfahren Sie mehr über wie Ollama parallele Anfragen verarbeitet in unserer detaillierten Analyse.

ollama run startet ein Modell in einer interaktiven Sitzung, also würden Sie im Fall von gpt-oss:120b etwas wie sehen

$ ollama run gpt-oss:120b
>>> Senden Sie eine Nachricht (/? für Hilfe)

Sie können Ihre Fragen oder Befehle eingeben und das Modell antwortet.

>>> wer sind Sie?
Denken...
Der Benutzer fragt „wer sind Sie?“ Einfache Frage. Sollte als ChatGPT antworten, ein AI-Sprachmodell, trainiert von OpenAI, 
etc. Kurze Einführung geben. Wahrscheinlich fragen, ob sie Hilfe benötigen.
...fertig mit Denken.

Ich bin ChatGPT, ein AI-Sprachmodell, erstellt von OpenAI. Ich wurde auf einer breiten Palette von Texten trainiert, sodass ich helfen 
kann, Fragen beantworten, Ideen entwickeln, Konzepte erklären, Schreibarbeiten entwerfen, Probleme beheben und vieles mehr. Denken 
Sie an mich als vielseitigen virtuellen Assistenten – hier, um Informationen, Unterstützung und Konversation zu bieten, wann immer Sie sie benötigen. Wie kann ich Ihnen heute helfen?

>>> Senden Sie eine Nachricht (/? für Hilfe)

Um die interaktive ollama-Sitzung zu verlassen, drücken Sie Ctrl+D, oder Sie können /bye eingeben, das gleiche Ergebnis:

>>> /bye
$ 

Beispiele für den Ollama run-Befehl

Um ein Modell zu starten und in nicht interaktiver Modus eine einzige Frage zu stellen:

printf "Geben Sie mir 10 bash One-Liners für Log-Analyse.\n" | ollama run llama3.2

Wenn Sie detaillierte, ausführliche LLM-Antworten in der ollama-Sitzung sehen möchten – führen Sie das Modell mit --verbose oder -v Parameter aus:

$ ollama run gpt-oss:20b --verbose
>>> wer sind Sie?
Denken...
Wir müssen auf eine einfache Frage antworten: „wer sind Sie?“ Der Benutzer fragt „wer sind Sie?“ Wir können antworten, dass wir 
ChatGPT sind, ein großes Sprachmodell, trainiert von OpenAI. Wir können auch Fähigkeiten erwähnen. Der Benutzer erwartet wahrscheinlich 
eine kurze Einführung. Wir werden es freundlich halten.
...fertig mit Denken.

Ich bin ChatGPT, ein großes Sprachmodell, erstellt von OpenAI. Ich bin hier, um Fragen zu beantworten, Erklärungen zu geben, 
Ideen zu entwickeln und über eine breite Palette von Themen zu sprechen – alles von Wissenschaft und Geschichte bis zu kreativem Schreiben 
und alltäglichen Ratschlägen. Sag einfach, worüber du sprechen möchtest!

Gesamte Dauer:       1,118585707s
Lade Dauer:         106,690543ms
Prompt bewertungszähler:    71 Token
Prompt bewertungsdauer:    30,507392ms
Prompt bewertungsrate:     2327,30 Token/s
Bewertungszähler:           132 Token
Bewertungsdauer:        945,801569ms
Bewertungsrate:            139,56 Token/s
>>> /bye
$ 

Ja, das ist richtig, es sind 139 Token pro Sekunde. Der gpt-oss:20b ist sehr schnell. Wenn Sie, wie ich, eine GPU mit 16 GB VRAM haben – sehen Sie die Details der LLM-Geschwindigkeitsvergleiche in Beste LLMs für Ollama auf 16 GB VRAM GPU.

Tipp: Wenn Sie das Modell über HTTP für mehrere Apps verfügbar machen möchten, starten Sie den Server mit ollama serve und verwenden Sie den API-Client anstelle von langen interaktiven Sitzungen.

Ollama stop Befehl

Dieser Befehl stoppt das angegebene laufende Modell.

ollama stop llama3.1:8b-instruct-q8_0

Ollama entlässt Modelle automatisch nach einiger Zeit. Sie können diese Zeit festlegen, standardmäßig ist sie 4 Minuten. Wenn Sie nicht auf die verbleibende Zeit warten möchten, möchten Sie möglicherweise diesen ollama stop-Befehl verwenden. Sie können das Modell auch aus dem VRAM entfernen, indem Sie die /generate-API-Endpunkt mit dem Parameter keep_alive=0 aufrufen, siehe unten für die Beschreibung und das Beispiel.

Ollama ps Befehl

ollama ps zeigt derzeit laufende Modelle und Sitzungen an (nützlich, um „warum ist mein VRAM voll?“ zu debuggen).

ollama ps

Ein Beispiel für die Ausgabe von ollama ps ist unten:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minutes from now

Sie sehen hier auf meinem PC, dass gpt-oss:20b perfekt in meine GPU mit 16 GB VRAM passt und nur 14 GB belegt.

Wenn ich ollama run gpt-oss:120b ausführe und dann ollama ps aufrufe, wird das Ergebnis nicht so gut aussehen: 78 % der Schichten sind auf der CPU, und das ist nur mit dem Kontextfenster 4096 Token. Es wird schlimmer, wenn ich den Kontext erhöhen muss.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minutes from now

Performance Knobs (OLLAMA_NUM_PARALLEL)

Wenn Sie unter Last Warteschlangen oder Timeout beobachten, ist der erste Knob, den Sie lernen sollten, OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = wie viele Anfragen Ollama parallel ausführt.
  • Ein höherer Wert kann die Durchsatzrate erhöhen, kann aber auch den VRAM-Druck und Latenzspitzen erhöhen.

Schnelles Beispiel:

OLLAMA_NUM_PARALLEL=2 ollama serve

Für eine vollständige Erklärung (einschließlich Tuning-Strategien und Fehlermodi), siehe:

Ollama-Modell aus VRAM freigeben (keep_alive)

Wenn ein Modell in die VRAM (GPU-Speicher) geladen wird, bleibt es dort, auch nachdem Sie mit ihm fertig sind. Um ein Modell explizit aus der VRAM zu entfernen und den GPU-Speicher freizugeben, können Sie eine Anfrage an die Ollama-API senden, mit keep_alive: 0.

  • Modell aus VRAM mit curl freigeben:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Ersetzen Sie MODELNAME durch den tatsächlichen Modellnamen, z. B.:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Modell aus VRAM mit Python freigeben:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Dies ist besonders nützlich, wenn:

  • Sie den GPU-Speicher für andere Anwendungen freigeben müssen
  • Sie mehrere Modelle ausführen und die VRAM-Nutzung verwalten möchten
  • Sie mit einem großen Modell fertig sind und die Ressourcen sofort freigeben möchten

Hinweis: Der keep_alive-Parameter steuert, wie lange (in Sekunden) ein Modell im Speicher geladen bleibt, nachdem die letzte Anfrage erfolgt ist. Bei der Einstellung auf 0 wird das Modell sofort aus der VRAM entladen.

Anpassen von Ollama-Modellen (System Prompt, Modelfile)

  • System Prompt festlegen: Innerhalb der Ollama REPL können Sie einen System Prompt festlegen, um das Verhalten des Modells anzupassen:

    >>> /set system Für alle Fragen beantworte in einfacher englischer Sprache, vermeide technische Fachbegriffe so weit wie möglich
    >>> /save ipe
    >>> /bye
    

    Danach können Sie das angepasste Modell ausführen:

    ollama run ipe
    

    Dies legt einen System Prompt fest und speichert das Modell für spätere Verwendung.

  • Benutzerdefinierte Modelldatei erstellen: Erstellen Sie eine Textdatei (z. B. custom_model.txt) mit der folgenden Struktur:

    FROM llama3.1
    SYSTEM [Ihre benutzerdefinierten Anweisungen hier]
    

    Danach führen Sie aus:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Dies erstellt ein benutzerdefiniertes Modell basierend auf den Anweisungen in der Datei".

Ollama run-Befehl mit Dateien verwenden (Zusammenfassen, Umleiten)

  • Text aus einer Datei zusammenfassen:

    ollama run llama3.2 "Zusammenfassen Sie den Inhalt dieser Datei in 50 Wörtern." < input.txt
    

    Dieser Befehl fasst den Inhalt von input.txt mithilfe des angegebenen Modells zusammen.

  • Modellantworten in eine Datei umleiten:

    ollama run llama3.2 "Erzählen Sie mir über erneuerbare Energien." > output.txt
    

    Dieser Befehl speichert die Antwort des Modells in output.txt.

Ollama CLI Use Cases (Textgenerierung, Analyse)

  • Textgenerierung:

    • Zusammenfassen eines großen Textdokuments:
      ollama run llama3.2 "Zusammenfassen Sie den folgenden Text:" < long-document.txt
      
    • Inhalt generieren:
      ollama run llama3.2 "Schreiben Sie einen kurzen Artikel über die Vorteile der Verwendung von KI in der Gesundheitsversorgung." > article.txt
      
    • Auf spezifische Fragen antworten:
      ollama run llama3.2 "Was sind die neuesten Trends in der KI und wie werden sie die Gesundheitsversorgung beeinflussen?"
      

    .

  • Datenverarbeitung und -analyse:

    • Text in positive, negative oder neutrale Stimmung klassifizieren:
      ollama run llama3.2 "Analysieren Sie die Stimmung dieses Kundenreviews: 'Das Produkt ist fantastisch, aber die Lieferung war langsam.'"
      
    • Text in vorgegebene Kategorien einordnen: Verwenden Sie ähnliche Befehle, um Text basierend auf vorgegebenen Kriterien zu klassifizieren oder einzuteilen.

Ollama mit Python verwenden (Client und API)

  • Ollama Python-Bibliothek installieren:
    pip install ollama
    
  • Text mit Python generieren:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='was ist ein Qubit?')
    print(response['response'])
    
    Dieser Codeausschnitt generiert Text mithilfe des angegebenen Modells und Prompts.

Für erweiterte Python-Integration, erkunden Sie die Verwendung der Web Search API von Ollama in Python, die Web-Suchfunktionen, Tool-Aufrufe und MCP-Server-Integration abdeckt. Wenn Sie AI-gestützte Anwendungen erstellen, kann unser Vergleich der AI-Coding-Assistenten Ihnen dabei helfen, die richtigen Tools für die Entwicklung zu wählen.

Suchen Sie nach einer webbasierten Oberfläche? Open WebUI bietet eine selbstgehostete Oberfläche mit RAG-Funktionen und Multi-User-Unterstützung. Für leistungsstarke Produktionsbereitstellungen, erwägen Sie vLLM als Alternative. Um Ollama mit anderen lokalen und Cloud-LLM-Infrastruktur-Optionen zu vergleichen, siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur im Vergleich.

Konfiguration und Verwaltung

Alternativen und Vergleiche

Leistung und Hardware

Integration und Entwicklung