Ollama CLI Cheatsheet: ls, serve, run, ps + commanden (2026 update)

Bijgewerkte lijst met Ollama-opdrachten - ls, ps, run, serve, enz.

Inhoud

Deze Ollama CLI cheat sheet richt zich op de opdrachten die je elke dag gebruikt (ollama ls, ollama serve, ollama run, ollama ps, modelbeheer en veelvoorkomende workflows), met voorbeelden die je kunt kopiëren/pasten.

Het bevat ook een korte sectie over “performance knobs” om je te helpen ontdekken (en daarna dieper in te duiken) OLLAMA_NUM_PARALLEL en gerelateerde instellingen.

ollama cheatsheet

Deze Ollama cheat sheet richt zich op CLI-opdrachten, modelbeheer en aanpassingen, maar we hebben hier ook een aantal curl aanroepen.

Voor een volledig beeld van waar Ollama zich bevindt onder lokale, zelfgehoste en cloudopties - inclusief vLLM, Docker Model Runner, LocalAI en cloudproviders - zie LLM Hosting: Lokale, Zelfgehoste & Cloudinfrastructuur vergeleken. Als je verschillende lokale LLM hostingoplossingen vergelijkt, bekijk dan onze comprehensieve vergelijking van Ollama, vLLM, LocalAI, Jan, LM Studio en meer. Voor wie alternatieven zoekt voor command-line interfaces, biedt Docker Model Runner een andere aanpak voor LLM-implementatie.

Ollama installatie (download en CLI-installatie)

  • Optie 1: Download vanaf de website
    • Bezoek ollama.com en download de installateur voor je besturingssysteem (Mac, Linux of Windows).
  • Optie 2: Installeer via command line
    • Voor gebruikers van Mac en Linux, gebruik de opdracht:
curl https://ollama.ai/install.sh | sh
  • Volg de schermopdrachten en voer je wachtwoord in als dat wordt gevraagd.

Ollama systeemvereisten (RAM, opslag, CPU)

Voor serieuze AI-werkbelastingen, wil je mogelijk hardwareopties vergelijken. We hebben getest NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestaties met Ollama, en als je overweegt in te investeren in high-end hardware, biedt onze DGX Spark prijzen en capaciteitenvergelijking gedetailleerde kostanalyse.

Basis Ollama CLI-opdrachten

Opdracht Beschrijving
ollama serve Start Ollama op je lokale systeem.
ollama create <new_model> Maakt een nieuw model aan vanuit een bestaand model voor aanpassing of training.
ollama show <model> Toont details over een specifiek model, zoals zijn configuratie en release datum.
ollama run <model> Voert het opgegeven model uit, waardoor het klaar is voor interactie.
ollama pull <model> Download het opgegeven model naar je systeem.
ollama list Toont alle gedownloade modellen. Hetzelfde als ollama ls
ollama ps Toont de momenteel actieve modellen.
ollama stop <model> Stopt het opgegeven actieve model.
ollama rm <model> Verwijdert het opgegeven model van je systeem.
ollama help Geeft hulp over elke opdracht.

Spring links: Ollama serve opdracht · Ollama run opdracht · Ollama ps opdracht · Ollama CLI basis · Prestatieknobben (OLLAMA_NUM_PARALLEL) · Parallel requests diep ingaan

Ollama CLI (wat het is)

Ollama CLI is de command-line interface om modellen te beheren en ze lokaal te laten draaien. De meeste workflows worden teruggebracht tot:

  • Start de server: ollama serve
  • Een model draaien: ollama run <model>
  • Bekijk wat is geladen/actief: ollama ps
  • Modellen beheren: ollama pull, ollama list, ollama rm

Ollama modelbeheer: pull en list modellen opdrachten

Modellen lijst:

ollama list

hetzelfde als:

ollama ls

Deze opdracht toont alle modellen die naar je systeem zijn gedownload, met hun bestandsgrootte op je hdd/sdd, zoals

$ ollama ls
NAAM                                                    ID              GROOTTE      GEMODIFIEERD     
deepseek-r1:8b                                          6995872bfe4c    5,2 GB    2 weken geleden     
gemma3:12b-it-qat                                       5d4fa005e7bb    8,9 GB    2 weken geleden     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weken geleden     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4,7 GB    4 weken geleden     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2,9 GB    4 weken geleden     
qwen3:8b                                                500a1f067a9f    5,2 GB    5 weken geleden     
qwen3:14b                                               bdbd181c33f2    9,3 GB    5 weken geleden     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weken geleden     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weken geleden  

Een model downloaden: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Deze opdracht download het opgegeven model (bijvoorbeeld Gemma 2B, of mistral-nemo:12b-instruct-2407-q6_K) naar je systeem. De modelbestanden kunnen vrij groot zijn, dus houd het oog op de ruimte die modellen op de harde schijf of ssd gebruiken. Je zou zelfs kunnen willen alle Ollama modellen verplaatsen vanuit je thuisdirectory naar een grotere en betere schijf

Ollama serve opdracht

ollama serve start de lokale Ollama-server (standaard HTTP-poort 11434).

ollama serve

“ollama serve” opdracht (voorbeeld met systemd):

# stel omgevingsvariabelen in, start dan de server
# maak ollama beschikbaar op het IP-adres van de host
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Ollama run opdracht

Een model draaien:

ollama run gpt-oss:20b

Deze opdracht start het opgegeven model en opent een interactieve REPL voor interactie. Wil je weten hoe Ollama meerdere gelijktijdige aanvragen beheert? Leer meer over hoe Ollama parallel requests beheert in onze gedetailleerde analyse.

ollama run draait een model in een interactieve sessie, dus in het geval van gpt-oss:120b zou je iets zien als

$ ollama run gpt-oss:120b
>>> Stuur een bericht (/? voor hulp)

je kunt je vragen of opdrachten typen en het model zal antwoorden.

>>> wie ben jij?
Denken...
De gebruiker vraagt "wie ben jij?" Eenvoudige vraag. Moet als ChatGPT antwoorden, een AI-taalmodel, getraind door OpenAI, 
enzovoort. Geef korte intro. Waarschijnlijk vragen of ze hulp nodig hebben.
...gedacht.

Ik ben ChatGPT, een AI-taalmodel gemaakt door OpenAI. Ik ben getraind op een breed scala aan tekst, dus ik kan helpen 
antwoorden op vragen, brainstormen met ideeën, uitleggen van concepten, schrijven van teksten, het oplossen van problemen en veel meer. Denk 
aan mij als een veelzijdig virtueel assistent—hier om informatie, ondersteuning en conversatie te bieden wanneer je dat nodig hebt. Hoe kan ik je vandaag helpen?

>>> Stuur een bericht (/? voor hulp)

Om de interactieve ollama-sessie te verlaten, druk op Ctrl+D, of je kunt /bye typen, hetzelfde resultaat:

>>> /bye
$ 

Ollama run opdracht voorbeelden

Om een model te draaien en een enkele vraag te stellen in niet-interactieve modus:

printf "Geef me 10 bash one-liners voor loganalyse.\n" | ollama run llama3.2

Als je gedetailleerde uitgebreide LLM-antwoord in ollama-sessie wilt zien - draai het model met --verbose of -v parameter:

$ ollama run gpt-oss:20b --verbose
>>> wie ben jij?
Denken...
We moeten reageren op een eenvoudige vraag: "wie ben jij?" De gebruiker vraagt "wie ben jij?" We kunnen antwoorden dat we 
ChatGPT zijn, een groot taalmodel getraind door OpenAI. We kunnen ook de capaciteiten noemen. De gebruiker verwacht waarschijnlijk 
een korte introductie. We zullen het vriendelijk houden.
...gedacht.

Ik ben ChatGPT, een groot taalmodel gemaakt door OpenAI. Ik ben hier om vragen te beantwoorden, uitleg te geven, 
ideeën te brainstormen en over een breed scala aan onderwerpen te praten—alles van wetenschap en geschiedenis tot creatief schrijven 
en dagelijks advies. Laat me weten wat je graag zou willen bespreken!

totaal duur:       1,118585707s
laadduur:        106,690543ms
prompt eval tel:    71 token(s)
prompt eval duur: 30,507392ms
prompt eval snelheid: 2327,30 tokens/s
eval tel:           132 token(s)
eval duur:        945,801569ms
eval snelheid:            139,56 tokens/s
>>> /bye
$ 

Ja, dat is juist, het is 139 tokens per seconde. De gpt-oss:20b is zeer snel. Als je, zoals ik, een GPU met 16 GB VRAM hebt - zie dan de LLMs snelheid vergelijking details in Beste LLMs voor Ollama op 16 GB VRAM GPU.

Tip: Als je het model beschikbaar wilt maken via HTTP voor meerdere apps, start dan de server met ollama serve en gebruik de API-client in plaats van lange interactieve sessies.

Ollama stop opdracht

Deze opdracht stopt het opgegeven actieve model.

ollama stop llama3.1:8b-instruct-q8_0

Ollama verwijdert modellen automatisch na enige tijd. Je kunt deze tijd specificeren, standaard is het 4 minuten. Als je niet wilt wachten op de resterende tijd, wil je mogelijk deze ollama stop opdracht gebruiken. Je kunt ook het model uit de VRAM duwen door de /generate API-eindpunt aan te roepen met parameter keep_alive=0, zie hieronder voor de beschrijving en voorbeeld.

Ollama ps opdracht

ollama ps toont momenteel actieve modellen en sessies (handig om te debuggen “waarom is mijn VRAM vol?”).

ollama ps

Het voorbeeld van de ollama ps uitvoer is hieronder:

NAAM           ID              GROOTTE     VERWERKER    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minuten vanaf nu

Je ziet hier op mijn PC dat gpt-oss:20b goed past in mijn GPU’s 16 GB VRAM en gebruikte alleen 14 GB.

Als ik ollama run gpt-oss:120b uitvoer en dan ollama ps aanroept, is het resultaat niet zo positief: 78% van de lagen zijn op CPU, en dit is met slechts een contextvenster van 4096 tokens. Het zou erger zijn als ik de context zou moeten verhogen.

NAAM            ID              GROOTTE     VERWERKER          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minuten vanaf nu

Prestatieknobben (OLLAMA_NUM_PARALLEL)

Als je wachtrijen of time-outs ziet onder belasting, is de eerste knob om te leren OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = hoeveel aanvragen Ollama gelijktijdig uitvoert.
  • Een hogere waarde kan doorstroming verhogen, maar kan ook VRAM-druk en latency-sprongen verhogen.

Snel voorbeeld:

OLLAMA_NUM_PARALLEL=2 ollama serve

Voor een volledige uitleg (inclusief afstemmingsstrategieën en faalmodi), zie:

Ollama model vrijmaken van VRAM (keep_alive)

Wanneer een model in VRAM (GPU-geheugen) is geladen, blijft het daar zelfs na gebruik. Om een model expliciet vrij te maken van VRAM en GPU-geheugen vrij te maken, kun je een aanvraag sturen naar de Ollama API met keep_alive: 0.

  • Model vrijmaken van VRAM met curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Vervang MODELNAME met je werkelijke modelnaam, bijvoorbeeld:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Model vrijmaken van VRAM met Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Dit is vooral handig wanneer:

  • Je GPU-geheugen vrij moet maken voor andere toepassingen
  • Je meerdere modellen draait en VRAM-gebruik moet beheren
  • Je een groot model hebt gebruikt en resources direct moet vrijmaken

Opmerking: De keep_alive parameter bepaalt hoe lang (in seconden) een model in het geheugen blijft geladen na de laatste aanvraag. Het instellen op 0 leegt het model direct uit de VRAM.

Aanpassen van Ollama modellen (systeemprompt, Modelfile)

  • Stel systeemprompt in: Binnen de Ollama REPL kunt u een systeemprompt instellen om het gedrag van het model aan te passen:

    >>> /set systeem Voor alle vragen beantwoord in gewoon Engels en vermijd technische jargon zoveel mogelijk
    >>> /save ipe
    >>> /bye
    

    Vervolgens, draai het aangepaste model:

    ollama run ipe
    

    Dit stelt een systeemprompt in en slaat het model op voor toekomstig gebruik.

  • Maak een aangepast modelbestand: Maak een tekstbestand (bijvoorbeeld custom_model.txt) met de volgende structuur:

    VAN llama3.1
    SYSTEEM [Jouw aangepaste instructies hier]
    

    Vervolgens, voer uit:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Dit maakt een aangepast model op basis van de instructies in het bestand".

Ollama run opdracht gebruiken met bestanden (samenvatten, omleiden)

  • Samenvatten van tekst uit een bestand:

    ollama run llama3.2 "Samenvat de inhoud van dit bestand in 50 woorden." < input.txt
    

    Deze opdracht samenvat de inhoud van input.txt met behulp van het opgegeven model.

  • Modelantwoorden opslaan in een bestand:

    ollama run llama3.2 "Vertel me over hernieuwbare energie." > output.txt
    

    Deze opdracht slaat het modelantwoord op in output.txt.

Ollama CLI gebruikscases (tekstgeneratie, analyse)

  • Tekstgeneratie:

    • Samenvatten van een groot tekstbestand:
      ollama run llama3.2 "Samenvat de volgende tekst:" < long-document.txt
      
    • Tekst genereren:
      ollama run llama3.2 "Schrijf een korte artikel over de voordelen van het gebruik van AI in de gezondheidszorg." > article.txt
      
    • Beantwoorden van specifieke vragen:
      ollama run llama3.2 "Wat zijn de nieuwste trends in AI, en hoe zullen ze de gezondheidszorg beïnvloeden?"
      

    .

  • Dataverwerking en analyse:

    • Tekst classificeren in positief, negatief of neutraal sentiment:
      ollama run llama3.2 "Analyseer het sentiment van deze klantrecensie: 'Het product is geweldig, maar levering was traag.'"
      
    • Tekst categoriseren in vooraf gedefinieerde categorieën: Gebruik vergelijkbare opdrachten om tekst te classificeren of categoriseren op basis van vooraf gedefinieerde criteria.

Ollama gebruiken met Python (client en API)

  • Installeer Ollama Python-bibliotheek:
    pip install ollama
    
  • Genereer tekst met behulp van Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='wat is een qubit?')
    print(response['response'])
    
    Deze codefragment genereert tekst met behulp van het opgegeven model en prompt.

Voor geavanceerde Python-integratie, verkennen het gebruik van Ollama’s Web Search API in Python, die webzoekfunctionaliteiten, toolcalling en MCP-serverintegratie behandelt. Als je AI-gemotoriseerde toepassingen bouwt, kan onze AI-codering assistenten vergelijking je helpen het juiste hulpmiddel te kiezen voor ontwikkeling.

Zoek je een webgebaseerde interface? Open WebUI biedt een zelfgehoste interface met RAG-functionaliteit en meervoudige gebruikersondersteuning. Voor hoge prestaties in productieimplementaties, overweeg vLLM als alternatief. Om Ollama met andere lokale en cloud LLM-infrastructuurkeuzes te vergelijken, zie LLM Hosting: Lokale, Zelfgehoste & Cloudinfrastructuur vergeleken.

Configuratie en beheer

Alternatieven en vergelijkingen

Prestaties en hardware

Integratie en ontwikkeling