Ollama CLI Cheatsheet: ls, serve, run, ps + Befehle (2026-Update)
Aktualisierte Ollama-Befehlsliste - ls, ps, run, serve usw.
Dieses Ollama CLI Cheatsheet konzentriert sich auf die Befehle, die Sie täglich verwenden (ollama ls, ollama serve, ollama run, ollama ps, Modellverwaltung und gängige Workflows), mit Beispielen, die Sie kopieren und einfügen können.
Es enthält auch einen kurzen Abschnitt zu „Performance Knobs“, um Ihnen dabei zu helfen, OLLAMA_NUM_PARALLEL und verwandte Einstellungen zu entdecken (und anschließend tiefer zu erforschen).

Dieses Ollama Cheatsheet konzentriert sich auf CLI-Befehle, Modellverwaltung und Anpassungen, Aber wir haben hier auch einige curl Aufrufe.
Für ein vollständiges Bild davon, wo Ollama unter lokalen, selbstgehosteten und Cloud-Optionen passt – einschließlich vLLM, Docker Model Runner, LocalAI und Cloud-Anbietern – siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur im Vergleich. Wenn Sie verschiedene lokale LLM-Hosting-Lösungen vergleichen, schauen Sie sich unseren umfassenden Vergleich von Ollama, vLLM, LocalAI, Jan, LM Studio und mehr. Für diejenigen, die Alternativen zu Kommandozeilenschnittstellen suchen, bietet Docker Model Runner einen anderen Ansatz zur LLM-Bereitstellung.
Ollama Installation (Herunterladen und CLI-Installation)
- Option 1: Von der Website herunterladen
- Besuchen Sie ollama.com und laden Sie den Installer für Ihr Betriebssystem (Mac, Linux oder Windows) herunter.
- Option 2: Über die Kommandozeile installieren
- Für Mac- und Linux-Nutzer verwenden Sie den Befehl:
curl https://ollama.ai/install.sh | sh
- Folgen Sie den auf dem Bildschirm angezeigten Anweisungen und geben Sie Ihr Passwort ein, wenn Sie dazu aufgefordert werden.
Ollama Systemanforderungen (RAM, Speicher, CPU)
- Betriebssystem: Mac oder Linux (Windows-Version in Entwicklung)
- Speicher (RAM): Mindestens 8 GB, 16 GB oder mehr empfohlen
- Speicher: Mindestens ~10 GB freier Speicher (Modelldateien können wirklich groß sein, siehe hier mehr Ollama-Modelle auf eine andere Festplatte verschieben )
- Prozessor: Ein relativ moderner CPU (aus den letzten 5 Jahren). Wenn Sie neugierig sind, wie Ollama verschiedene CPU-Architekturen nutzt, sehen Sie unsere Analyse von wie Ollama Intel CPU Performance und Efficient Cores nutzt.
Für ernsthafte AI-Arbeitslasten möchten Sie möglicherweise Hardware-Optionen vergleichen. Wir haben Benchmarks durchgeführt NVIDIA DGX Spark vs Mac Studio vs RTX-4080 Leistung mit Ollama, und wenn Sie in Hochleistungs-Hardware investieren, bietet unser DGX Spark Preis- und Leistungsvergleich detaillierte Kostenanalyse.
Grundlegende Ollama CLI-Befehle
| Befehl | Beschreibung |
|---|---|
ollama serve |
Startet Ollama auf Ihrem lokalen System. |
ollama create <new_model> |
Erstellt ein neues Modell aus einem bestehenden für Anpassungen oder Training. |
ollama show <model> |
Zeigt Details zu einem bestimmten Modell, wie z. B. seine Konfiguration und Veröffentlichungsdatum. |
ollama run <model> |
Führt das angegebene Modell aus, wodurch es für Interaktion bereitgestellt wird. |
ollama pull <model> |
Lädt das angegebene Modell auf Ihr System herunter. |
ollama list |
Listet alle heruntergeladenen Modelle auf. Das Gleiche wie ollama ls |
ollama ps |
Zeigt die derzeit laufenden Modelle an. |
ollama stop <model> |
Stoppt das angegebene laufende Modell. |
ollama rm <model> |
Entfernt das angegebene Modell von Ihrem System. |
ollama help |
Bietet Hilfe zu jedem Befehl. |
Sprunglinks: Ollama serve Befehl · Ollama run Befehl · Ollama ps Befehl · Ollama CLI Basics · Performance Knobs (OLLAMA_NUM_PARALLEL) · Parallel requests deep dive
Ollama CLI (was es ist)
Ollama CLI ist die Kommandozeilenschnittstelle, um Modelle zu verwalten und sie lokal zu starten/serve. Die meisten Workflows reduzieren sich auf:
- Server starten:
ollama serve - Ein Modell starten:
ollama run <model> - Sehen Sie, was geladen/läuft:
ollama ps - Modelle verwalten:
ollama pull,ollama list,ollama rm
Ollama Modellverwaltung: pull und list Modelle-Befehle
Modelle auflisten:
ollama list
Das gleiche wie:
ollama ls
Dieser Befehl listet alle Modelle auf, die auf Ihr System heruntergeladen wurden, mit ihren Dateigrößen auf Ihrem hdd/sdd, wie
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago
qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago
qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago
qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago
devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago
Ein Modell herunterladen: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Dieser Befehl lädt das angegebene Modell (z. B. Gemma 2B oder mistral-nemo:12b-instruct-2407-q6_K) auf Ihr System herunter. Die Modelldateien können sehr groß sein, also achten Sie auf den Speicher, den die Modelle auf der Festplatte oder SSD belegen. Sie könnten sogar alle Ollama-Modelle von Ihrem Homeverzeichnis auf eine andere größere und bessere Festplatte verschieben
Ollama serve Befehl
ollama serve startet den lokalen Ollama-Server (Standard-HTTP-Port 11434).
ollama serve
“ollama serve” Befehl (systemd-freundliches Beispiel):
# Umgebungsvariablen festlegen, dann den Server starten
# Machen Sie Ollama auf der IP-Adresse des Hosts verfügbar
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Ollama run Befehl
Ein Modell starten:
ollama run gpt-oss:20b
Dieser Befehl startet das angegebene Modell und öffnet eine interaktive REPL für die Interaktion. Möchten Sie verstehen, wie Ollama mehrere parallele Anfragen verwaltet? Erfahren Sie mehr über wie Ollama parallele Anfragen verarbeitet in unserer detaillierten Analyse.
ollama run startet ein Modell in einer interaktiven Sitzung,
also würden Sie im Fall von gpt-oss:120b etwas wie sehen
$ ollama run gpt-oss:120b
>>> Senden Sie eine Nachricht (/? für Hilfe)
Sie können Ihre Fragen oder Befehle eingeben und das Modell antwortet.
>>> wer sind Sie?
Denken...
Der Benutzer fragt „wer sind Sie?“ Einfache Frage. Sollte als ChatGPT antworten, ein AI-Sprachmodell, trainiert von OpenAI,
etc. Kurze Einführung geben. Wahrscheinlich fragen, ob sie Hilfe benötigen.
...fertig mit Denken.
Ich bin ChatGPT, ein AI-Sprachmodell, erstellt von OpenAI. Ich wurde auf einer breiten Palette von Texten trainiert, sodass ich helfen
kann, Fragen beantworten, Ideen entwickeln, Konzepte erklären, Schreibarbeiten entwerfen, Probleme beheben und vieles mehr. Denken
Sie an mich als vielseitigen virtuellen Assistenten – hier, um Informationen, Unterstützung und Konversation zu bieten, wann immer Sie sie benötigen. Wie kann ich Ihnen heute helfen?
>>> Senden Sie eine Nachricht (/? für Hilfe)
Um die interaktive ollama-Sitzung zu verlassen, drücken Sie Ctrl+D, oder Sie können /bye eingeben, das gleiche Ergebnis:
>>> /bye
$
Beispiele für den Ollama run-Befehl
Um ein Modell zu starten und in nicht interaktiver Modus eine einzige Frage zu stellen:
printf "Geben Sie mir 10 bash One-Liners für Log-Analyse.\n" | ollama run llama3.2
Wenn Sie detaillierte, ausführliche LLM-Antworten in der ollama-Sitzung sehen möchten – führen Sie das Modell mit --verbose oder -v Parameter aus:
$ ollama run gpt-oss:20b --verbose
>>> wer sind Sie?
Denken...
Wir müssen auf eine einfache Frage antworten: „wer sind Sie?“ Der Benutzer fragt „wer sind Sie?“ Wir können antworten, dass wir
ChatGPT sind, ein großes Sprachmodell, trainiert von OpenAI. Wir können auch Fähigkeiten erwähnen. Der Benutzer erwartet wahrscheinlich
eine kurze Einführung. Wir werden es freundlich halten.
...fertig mit Denken.
Ich bin ChatGPT, ein großes Sprachmodell, erstellt von OpenAI. Ich bin hier, um Fragen zu beantworten, Erklärungen zu geben,
Ideen zu entwickeln und über eine breite Palette von Themen zu sprechen – alles von Wissenschaft und Geschichte bis zu kreativem Schreiben
und alltäglichen Ratschlägen. Sag einfach, worüber du sprechen möchtest!
Gesamte Dauer: 1,118585707s
Lade Dauer: 106,690543ms
Prompt bewertungszähler: 71 Token
Prompt bewertungsdauer: 30,507392ms
Prompt bewertungsrate: 2327,30 Token/s
Bewertungszähler: 132 Token
Bewertungsdauer: 945,801569ms
Bewertungsrate: 139,56 Token/s
>>> /bye
$
Ja, das ist richtig, es sind 139 Token pro Sekunde. Der gpt-oss:20b ist sehr schnell. Wenn Sie, wie ich, eine GPU mit 16 GB VRAM haben – sehen Sie die Details der LLM-Geschwindigkeitsvergleiche in Beste LLMs für Ollama auf 16 GB VRAM GPU.
Tipp: Wenn Sie das Modell über HTTP für mehrere Apps verfügbar machen möchten, starten Sie den Server mit ollama serve und verwenden Sie den API-Client anstelle von langen interaktiven Sitzungen.
Ollama stop Befehl
Dieser Befehl stoppt das angegebene laufende Modell.
ollama stop llama3.1:8b-instruct-q8_0
Ollama entlässt Modelle automatisch nach einiger Zeit.
Sie können diese Zeit festlegen, standardmäßig ist sie 4 Minuten.
Wenn Sie nicht auf die verbleibende Zeit warten möchten, möchten Sie möglicherweise diesen ollama stop-Befehl verwenden.
Sie können das Modell auch aus dem VRAM entfernen, indem Sie die /generate-API-Endpunkt mit dem Parameter keep_alive=0 aufrufen, siehe unten für die Beschreibung und das Beispiel.
Ollama ps Befehl
ollama ps zeigt derzeit laufende Modelle und Sitzungen an (nützlich, um „warum ist mein VRAM voll?“ zu debuggen).
ollama ps
Ein Beispiel für die Ausgabe von ollama ps ist unten:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minutes from now
Sie sehen hier auf meinem PC, dass gpt-oss:20b perfekt in meine GPU mit 16 GB VRAM passt und nur 14 GB belegt.
Wenn ich ollama run gpt-oss:120b ausführe und dann ollama ps aufrufe, wird das Ergebnis nicht so gut aussehen:
78 % der Schichten sind auf der CPU, und das ist nur mit dem Kontextfenster 4096 Token. Es wird schlimmer, wenn ich den Kontext erhöhen muss.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minutes from now
Performance Knobs (OLLAMA_NUM_PARALLEL)
Wenn Sie unter Last Warteschlangen oder Timeout beobachten, ist der erste Knob, den Sie lernen sollten, OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= wie viele Anfragen Ollama parallel ausführt.- Ein höherer Wert kann die Durchsatzrate erhöhen, kann aber auch den VRAM-Druck und Latenzspitzen erhöhen.
Schnelles Beispiel:
OLLAMA_NUM_PARALLEL=2 ollama serve
Für eine vollständige Erklärung (einschließlich Tuning-Strategien und Fehlermodi), siehe:
Ollama-Modell aus VRAM freigeben (keep_alive)
Wenn ein Modell in die VRAM (GPU-Speicher) geladen wird, bleibt es dort, auch nachdem Sie mit ihm fertig sind. Um ein Modell explizit aus der VRAM zu entfernen und den GPU-Speicher freizugeben, können Sie eine Anfrage an die Ollama-API senden, mit keep_alive: 0.
- Modell aus VRAM mit curl freigeben:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Ersetzen Sie MODELNAME durch den tatsächlichen Modellnamen, z. B.:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Modell aus VRAM mit Python freigeben:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Dies ist besonders nützlich, wenn:
- Sie den GPU-Speicher für andere Anwendungen freigeben müssen
- Sie mehrere Modelle ausführen und die VRAM-Nutzung verwalten möchten
- Sie mit einem großen Modell fertig sind und die Ressourcen sofort freigeben möchten
Hinweis: Der keep_alive-Parameter steuert, wie lange (in Sekunden) ein Modell im Speicher geladen bleibt, nachdem die letzte Anfrage erfolgt ist. Bei der Einstellung auf 0 wird das Modell sofort aus der VRAM entladen.
Anpassen von Ollama-Modellen (System Prompt, Modelfile)
-
System Prompt festlegen: Innerhalb der Ollama REPL können Sie einen System Prompt festlegen, um das Verhalten des Modells anzupassen:
>>> /set system Für alle Fragen beantworte in einfacher englischer Sprache, vermeide technische Fachbegriffe so weit wie möglich >>> /save ipe >>> /byeDanach können Sie das angepasste Modell ausführen:
ollama run ipeDies legt einen System Prompt fest und speichert das Modell für spätere Verwendung.
-
Benutzerdefinierte Modelldatei erstellen: Erstellen Sie eine Textdatei (z. B.
custom_model.txt) mit der folgenden Struktur:FROM llama3.1 SYSTEM [Ihre benutzerdefinierten Anweisungen hier]Danach führen Sie aus:
ollama create mymodel -f custom_model.txt ollama run mymodelDies erstellt ein benutzerdefiniertes Modell basierend auf den Anweisungen in der Datei".
Ollama run-Befehl mit Dateien verwenden (Zusammenfassen, Umleiten)
-
Text aus einer Datei zusammenfassen:
ollama run llama3.2 "Zusammenfassen Sie den Inhalt dieser Datei in 50 Wörtern." < input.txtDieser Befehl fasst den Inhalt von
input.txtmithilfe des angegebenen Modells zusammen. -
Modellantworten in eine Datei umleiten:
ollama run llama3.2 "Erzählen Sie mir über erneuerbare Energien." > output.txtDieser Befehl speichert die Antwort des Modells in
output.txt.
Ollama CLI Use Cases (Textgenerierung, Analyse)
-
Textgenerierung:
- Zusammenfassen eines großen Textdokuments:
ollama run llama3.2 "Zusammenfassen Sie den folgenden Text:" < long-document.txt - Inhalt generieren:
ollama run llama3.2 "Schreiben Sie einen kurzen Artikel über die Vorteile der Verwendung von KI in der Gesundheitsversorgung." > article.txt - Auf spezifische Fragen antworten:
ollama run llama3.2 "Was sind die neuesten Trends in der KI und wie werden sie die Gesundheitsversorgung beeinflussen?"
.
- Zusammenfassen eines großen Textdokuments:
-
Datenverarbeitung und -analyse:
- Text in positive, negative oder neutrale Stimmung klassifizieren:
ollama run llama3.2 "Analysieren Sie die Stimmung dieses Kundenreviews: 'Das Produkt ist fantastisch, aber die Lieferung war langsam.'" - Text in vorgegebene Kategorien einordnen: Verwenden Sie ähnliche Befehle, um Text basierend auf vorgegebenen Kriterien zu klassifizieren oder einzuteilen.
- Text in positive, negative oder neutrale Stimmung klassifizieren:
Ollama mit Python verwenden (Client und API)
- Ollama Python-Bibliothek installieren:
pip install ollama - Text mit Python generieren:
Dieser Codeausschnitt generiert Text mithilfe des angegebenen Modells und Prompts.
import ollama response = ollama.generate(model='gemma:2b', prompt='was ist ein Qubit?') print(response['response'])
Für erweiterte Python-Integration, erkunden Sie die Verwendung der Web Search API von Ollama in Python, die Web-Suchfunktionen, Tool-Aufrufe und MCP-Server-Integration abdeckt. Wenn Sie AI-gestützte Anwendungen erstellen, kann unser Vergleich der AI-Coding-Assistenten Ihnen dabei helfen, die richtigen Tools für die Entwicklung zu wählen.
Suchen Sie nach einer webbasierten Oberfläche? Open WebUI bietet eine selbstgehostete Oberfläche mit RAG-Funktionen und Multi-User-Unterstützung. Für leistungsstarke Produktionsbereitstellungen, erwägen Sie vLLM als Alternative. Um Ollama mit anderen lokalen und Cloud-LLM-Infrastruktur-Optionen zu vergleichen, siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur im Vergleich.
Nützliche Links
Konfiguration und Verwaltung
Alternativen und Vergleiche
- Lokales LLM-Hosting: Kompletter 2026-Guide – Ollama, vLLM, LocalAI, Jan, LM Studio & mehr
- vLLM Quickstart: Hochleistungsfähiges LLM-Serving
- Docker Model Runner vs Ollama: Welche zu wählen?
- Erste Zeichen der Ollama Enshittification
Leistung und Hardware
- Wie Ollama parallele Anfragen verarbeitet
- Wie Ollama Intel CPU Performance und Efficient Cores nutzt
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama Leistungsvergleich
- DGX Spark vs. Mac Studio: Praktischer, preisgeprüfter Blick auf NVIDIAs persönlichen AI-Supercomputer
Integration und Entwicklung
- Verwenden der Ollama Web Search API in Python
- Vergleich der AI-Coding-Assistenten
- Open WebUI: Selbstgehostete LLM-Oberfläche
- Open-Source Chat UIs für LLMs auf lokalen Ollama-Instanzen
- LLMs mit strukturiertem Ausgang einschränken: Ollama, Qwen3 & Python oder Go
- Ollama mit Python integrieren: REST API und Python-Client-Beispiele
- Go-SDKs für Ollama – Vergleich mit Beispielen