Ollama CLI Cheatsheet: ls, serve, run, ps + commanden (2026 update)
Bijgewerkte lijst met Ollama-opdrachten - ls, ps, run, serve, enz.
Deze Ollama CLI cheat sheet richt zich op de opdrachten die je elke dag gebruikt (ollama ls, ollama serve, ollama run, ollama ps, modelbeheer en veelvoorkomende workflows), met voorbeelden die je kunt kopiëren/pasten.
Het bevat ook een korte sectie over “performance knobs” om je te helpen ontdekken (en daarna dieper in te duiken) OLLAMA_NUM_PARALLEL en gerelateerde instellingen.

Deze Ollama cheat sheet richt zich op CLI-opdrachten, modelbeheer en aanpassingen, maar we hebben hier ook een aantal curl aanroepen.
Voor een volledig beeld van waar Ollama zich bevindt onder lokale, zelfgehoste en cloudopties - inclusief vLLM, Docker Model Runner, LocalAI en cloudproviders - zie LLM Hosting: Lokale, Zelfgehoste & Cloudinfrastructuur vergeleken. Als je verschillende lokale LLM hostingoplossingen vergelijkt, bekijk dan onze comprehensieve vergelijking van Ollama, vLLM, LocalAI, Jan, LM Studio en meer. Voor wie alternatieven zoekt voor command-line interfaces, biedt Docker Model Runner een andere aanpak voor LLM-implementatie.
Ollama installatie (download en CLI-installatie)
- Optie 1: Download vanaf de website
- Bezoek ollama.com en download de installateur voor je besturingssysteem (Mac, Linux of Windows).
- Optie 2: Installeer via command line
- Voor gebruikers van Mac en Linux, gebruik de opdracht:
curl https://ollama.ai/install.sh | sh
- Volg de schermopdrachten en voer je wachtwoord in als dat wordt gevraagd.
Ollama systeemvereisten (RAM, opslag, CPU)
- Besturingssysteem: Mac of Linux (Windows-versie in ontwikkeling)
- Geheugen (RAM): Minimaal 8 GB, 16 GB of meer wordt aangeraden
- Opslag: Minimaal ongeveer 10 GB vrije ruimte (modelbestanden kunnen echt groot zijn, zie hier meer Verplaats Ollama Modellen naar een Andere Schijf )
- Processor: Een relatief moderne CPU (van de afgelopen 5 jaar). Als je benieuwd bent hoe Ollama verschillende CPU-architecturen gebruikt, zie dan onze analyse van hoe Ollama Intel CPU prestaties en Efficient Cores gebruikt.
Voor serieuze AI-werkbelastingen, wil je mogelijk hardwareopties vergelijken. We hebben getest NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestaties met Ollama, en als je overweegt in te investeren in high-end hardware, biedt onze DGX Spark prijzen en capaciteitenvergelijking gedetailleerde kostanalyse.
Basis Ollama CLI-opdrachten
| Opdracht | Beschrijving |
|---|---|
ollama serve |
Start Ollama op je lokale systeem. |
ollama create <new_model> |
Maakt een nieuw model aan vanuit een bestaand model voor aanpassing of training. |
ollama show <model> |
Toont details over een specifiek model, zoals zijn configuratie en release datum. |
ollama run <model> |
Voert het opgegeven model uit, waardoor het klaar is voor interactie. |
ollama pull <model> |
Download het opgegeven model naar je systeem. |
ollama list |
Toont alle gedownloade modellen. Hetzelfde als ollama ls |
ollama ps |
Toont de momenteel actieve modellen. |
ollama stop <model> |
Stopt het opgegeven actieve model. |
ollama rm <model> |
Verwijdert het opgegeven model van je systeem. |
ollama help |
Geeft hulp over elke opdracht. |
Spring links: Ollama serve opdracht · Ollama run opdracht · Ollama ps opdracht · Ollama CLI basis · Prestatieknobben (OLLAMA_NUM_PARALLEL) · Parallel requests diep ingaan
Ollama CLI (wat het is)
Ollama CLI is de command-line interface om modellen te beheren en ze lokaal te laten draaien. De meeste workflows worden teruggebracht tot:
- Start de server:
ollama serve - Een model draaien:
ollama run <model> - Bekijk wat is geladen/actief:
ollama ps - Modellen beheren:
ollama pull,ollama list,ollama rm
Ollama modelbeheer: pull en list modellen opdrachten
Modellen lijst:
ollama list
hetzelfde als:
ollama ls
Deze opdracht toont alle modellen die naar je systeem zijn gedownload, met hun bestandsgrootte op je hdd/sdd, zoals
$ ollama ls
NAAM ID GROOTTE GEMODIFIEERD
deepseek-r1:8b 6995872bfe4c 5,2 GB 2 weken geleden
gemma3:12b-it-qat 5d4fa005e7bb 8,9 GB 2 weken geleden
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weken geleden
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4,7 GB 4 weken geleden
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2,9 GB 4 weken geleden
qwen3:8b 500a1f067a9f 5,2 GB 5 weken geleden
qwen3:14b bdbd181c33f2 9,3 GB 5 weken geleden
qwen3:30b-a3b 0b28110b7a33 18 GB 5 weken geleden
devstral:24b c4b2fa0c33d7 14 GB 5 weken geleden
Een model downloaden: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Deze opdracht download het opgegeven model (bijvoorbeeld Gemma 2B, of mistral-nemo:12b-instruct-2407-q6_K) naar je systeem. De modelbestanden kunnen vrij groot zijn, dus houd het oog op de ruimte die modellen op de harde schijf of ssd gebruiken. Je zou zelfs kunnen willen alle Ollama modellen verplaatsen vanuit je thuisdirectory naar een grotere en betere schijf
Ollama serve opdracht
ollama serve start de lokale Ollama-server (standaard HTTP-poort 11434).
ollama serve
“ollama serve” opdracht (voorbeeld met systemd):
# stel omgevingsvariabelen in, start dan de server
# maak ollama beschikbaar op het IP-adres van de host
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Ollama run opdracht
Een model draaien:
ollama run gpt-oss:20b
Deze opdracht start het opgegeven model en opent een interactieve REPL voor interactie. Wil je weten hoe Ollama meerdere gelijktijdige aanvragen beheert? Leer meer over hoe Ollama parallel requests beheert in onze gedetailleerde analyse.
ollama run draait een model in een interactieve sessie,
dus in het geval van gpt-oss:120b zou je iets zien als
$ ollama run gpt-oss:120b
>>> Stuur een bericht (/? voor hulp)
je kunt je vragen of opdrachten typen en het model zal antwoorden.
>>> wie ben jij?
Denken...
De gebruiker vraagt "wie ben jij?" Eenvoudige vraag. Moet als ChatGPT antwoorden, een AI-taalmodel, getraind door OpenAI,
enzovoort. Geef korte intro. Waarschijnlijk vragen of ze hulp nodig hebben.
...gedacht.
Ik ben ChatGPT, een AI-taalmodel gemaakt door OpenAI. Ik ben getraind op een breed scala aan tekst, dus ik kan helpen
antwoorden op vragen, brainstormen met ideeën, uitleggen van concepten, schrijven van teksten, het oplossen van problemen en veel meer. Denk
aan mij als een veelzijdig virtueel assistent—hier om informatie, ondersteuning en conversatie te bieden wanneer je dat nodig hebt. Hoe kan ik je vandaag helpen?
>>> Stuur een bericht (/? voor hulp)
Om de interactieve ollama-sessie te verlaten, druk op Ctrl+D, of je kunt /bye typen, hetzelfde resultaat:
>>> /bye
$
Ollama run opdracht voorbeelden
Om een model te draaien en een enkele vraag te stellen in niet-interactieve modus:
printf "Geef me 10 bash one-liners voor loganalyse.\n" | ollama run llama3.2
Als je gedetailleerde uitgebreide LLM-antwoord in ollama-sessie wilt zien - draai het model met --verbose of -v parameter:
$ ollama run gpt-oss:20b --verbose
>>> wie ben jij?
Denken...
We moeten reageren op een eenvoudige vraag: "wie ben jij?" De gebruiker vraagt "wie ben jij?" We kunnen antwoorden dat we
ChatGPT zijn, een groot taalmodel getraind door OpenAI. We kunnen ook de capaciteiten noemen. De gebruiker verwacht waarschijnlijk
een korte introductie. We zullen het vriendelijk houden.
...gedacht.
Ik ben ChatGPT, een groot taalmodel gemaakt door OpenAI. Ik ben hier om vragen te beantwoorden, uitleg te geven,
ideeën te brainstormen en over een breed scala aan onderwerpen te praten—alles van wetenschap en geschiedenis tot creatief schrijven
en dagelijks advies. Laat me weten wat je graag zou willen bespreken!
totaal duur: 1,118585707s
laadduur: 106,690543ms
prompt eval tel: 71 token(s)
prompt eval duur: 30,507392ms
prompt eval snelheid: 2327,30 tokens/s
eval tel: 132 token(s)
eval duur: 945,801569ms
eval snelheid: 139,56 tokens/s
>>> /bye
$
Ja, dat is juist, het is 139 tokens per seconde. De gpt-oss:20b is zeer snel. Als je, zoals ik, een GPU met 16 GB VRAM hebt - zie dan de LLMs snelheid vergelijking details in Beste LLMs voor Ollama op 16 GB VRAM GPU.
Tip: Als je het model beschikbaar wilt maken via HTTP voor meerdere apps, start dan de server met ollama serve en gebruik de API-client in plaats van lange interactieve sessies.
Ollama stop opdracht
Deze opdracht stopt het opgegeven actieve model.
ollama stop llama3.1:8b-instruct-q8_0
Ollama verwijdert modellen automatisch na enige tijd.
Je kunt deze tijd specificeren, standaard is het 4 minuten.
Als je niet wilt wachten op de resterende tijd, wil je mogelijk deze ollama stop opdracht gebruiken.
Je kunt ook het model uit de VRAM duwen door de /generate API-eindpunt aan te roepen met parameter keep_alive=0, zie hieronder voor de beschrijving en voorbeeld.
Ollama ps opdracht
ollama ps toont momenteel actieve modellen en sessies (handig om te debuggen “waarom is mijn VRAM vol?”).
ollama ps
Het voorbeeld van de ollama ps uitvoer is hieronder:
NAAM ID GROOTTE VERWERKER CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minuten vanaf nu
Je ziet hier op mijn PC dat gpt-oss:20b goed past in mijn GPU’s 16 GB VRAM en gebruikte alleen 14 GB.
Als ik ollama run gpt-oss:120b uitvoer en dan ollama ps aanroept, is het resultaat niet zo positief:
78% van de lagen zijn op CPU, en dit is met slechts een contextvenster van 4096 tokens. Het zou erger zijn als ik de context zou moeten verhogen.
NAAM ID GROOTTE VERWERKER CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minuten vanaf nu
Prestatieknobben (OLLAMA_NUM_PARALLEL)
Als je wachtrijen of time-outs ziet onder belasting, is de eerste knob om te leren OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= hoeveel aanvragen Ollama gelijktijdig uitvoert.- Een hogere waarde kan doorstroming verhogen, maar kan ook VRAM-druk en latency-sprongen verhogen.
Snel voorbeeld:
OLLAMA_NUM_PARALLEL=2 ollama serve
Voor een volledige uitleg (inclusief afstemmingsstrategieën en faalmodi), zie:
Ollama model vrijmaken van VRAM (keep_alive)
Wanneer een model in VRAM (GPU-geheugen) is geladen, blijft het daar zelfs na gebruik. Om een model expliciet vrij te maken van VRAM en GPU-geheugen vrij te maken, kun je een aanvraag sturen naar de Ollama API met keep_alive: 0.
- Model vrijmaken van VRAM met curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Vervang MODELNAME met je werkelijke modelnaam, bijvoorbeeld:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Model vrijmaken van VRAM met Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Dit is vooral handig wanneer:
- Je GPU-geheugen vrij moet maken voor andere toepassingen
- Je meerdere modellen draait en VRAM-gebruik moet beheren
- Je een groot model hebt gebruikt en resources direct moet vrijmaken
Opmerking: De keep_alive parameter bepaalt hoe lang (in seconden) een model in het geheugen blijft geladen na de laatste aanvraag. Het instellen op 0 leegt het model direct uit de VRAM.
Aanpassen van Ollama modellen (systeemprompt, Modelfile)
-
Stel systeemprompt in: Binnen de Ollama REPL kunt u een systeemprompt instellen om het gedrag van het model aan te passen:
>>> /set systeem Voor alle vragen beantwoord in gewoon Engels en vermijd technische jargon zoveel mogelijk >>> /save ipe >>> /byeVervolgens, draai het aangepaste model:
ollama run ipeDit stelt een systeemprompt in en slaat het model op voor toekomstig gebruik.
-
Maak een aangepast modelbestand: Maak een tekstbestand (bijvoorbeeld
custom_model.txt) met de volgende structuur:VAN llama3.1 SYSTEEM [Jouw aangepaste instructies hier]Vervolgens, voer uit:
ollama create mymodel -f custom_model.txt ollama run mymodelDit maakt een aangepast model op basis van de instructies in het bestand".
Ollama run opdracht gebruiken met bestanden (samenvatten, omleiden)
-
Samenvatten van tekst uit een bestand:
ollama run llama3.2 "Samenvat de inhoud van dit bestand in 50 woorden." < input.txtDeze opdracht samenvat de inhoud van
input.txtmet behulp van het opgegeven model. -
Modelantwoorden opslaan in een bestand:
ollama run llama3.2 "Vertel me over hernieuwbare energie." > output.txtDeze opdracht slaat het modelantwoord op in
output.txt.
Ollama CLI gebruikscases (tekstgeneratie, analyse)
-
Tekstgeneratie:
- Samenvatten van een groot tekstbestand:
ollama run llama3.2 "Samenvat de volgende tekst:" < long-document.txt - Tekst genereren:
ollama run llama3.2 "Schrijf een korte artikel over de voordelen van het gebruik van AI in de gezondheidszorg." > article.txt - Beantwoorden van specifieke vragen:
ollama run llama3.2 "Wat zijn de nieuwste trends in AI, en hoe zullen ze de gezondheidszorg beïnvloeden?"
.
- Samenvatten van een groot tekstbestand:
-
Dataverwerking en analyse:
- Tekst classificeren in positief, negatief of neutraal sentiment:
ollama run llama3.2 "Analyseer het sentiment van deze klantrecensie: 'Het product is geweldig, maar levering was traag.'" - Tekst categoriseren in vooraf gedefinieerde categorieën: Gebruik vergelijkbare opdrachten om tekst te classificeren of categoriseren op basis van vooraf gedefinieerde criteria.
- Tekst classificeren in positief, negatief of neutraal sentiment:
Ollama gebruiken met Python (client en API)
- Installeer Ollama Python-bibliotheek:
pip install ollama - Genereer tekst met behulp van Python:
Deze codefragment genereert tekst met behulp van het opgegeven model en prompt.
import ollama response = ollama.generate(model='gemma:2b', prompt='wat is een qubit?') print(response['response'])
Voor geavanceerde Python-integratie, verkennen het gebruik van Ollama’s Web Search API in Python, die webzoekfunctionaliteiten, toolcalling en MCP-serverintegratie behandelt. Als je AI-gemotoriseerde toepassingen bouwt, kan onze AI-codering assistenten vergelijking je helpen het juiste hulpmiddel te kiezen voor ontwikkeling.
Zoek je een webgebaseerde interface? Open WebUI biedt een zelfgehoste interface met RAG-functionaliteit en meervoudige gebruikersondersteuning. Voor hoge prestaties in productieimplementaties, overweeg vLLM als alternatief. Om Ollama met andere lokale en cloud LLM-infrastructuurkeuzes te vergelijken, zie LLM Hosting: Lokale, Zelfgehoste & Cloudinfrastructuur vergeleken.
Nuttige links
Configuratie en beheer
Alternatieven en vergelijkingen
- Lokale LLM Hosting: Volledige 2026 Gids - Ollama, vLLM, LocalAI, Jan, LM Studio & Meer
- vLLM Quickstart: Hoogprestatie LLM Servicing
- Docker Model Runner vs Ollama: Wat Kiezen?
- Eerste Aanduidingen van Ollama Enshittification
Prestaties en hardware
- Hoe Ollama Parallel Requests Beheert
- Hoe Ollama Intel CPU Prestaties en Efficient Cores Gebruikt
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama Prestatievergelijking
- DGX Spark vs. Mac Studio: Een Praktische, Prijsgecontroleerde Kijk op NVIDIA’s Persoonlijke AI Supercomputer
Integratie en ontwikkeling
- Gebruik van Ollama Web Search API in Python
- AI-codering assistenten vergelijking
- Open WebUI: Zelfgehoste LLM-interface
- Open-source chat UIs voor LLMs op lokale Ollama instanties
- LLMs beperken met Structured Output: Ollama, Qwen3 & Python of Go
- Ollama integreren met Python: REST API en Python-clientvoorbeelden
- Go SDKs voor Ollama - vergelijking met voorbeelden