Ollama CheatSheet - meest nuttige opdrachten

Deze lijst met Ollama-commands heb ik ongeveer op hetzelfde moment samengesteld...

Inhoud

Hier is de lijst en voorbeelden van de meest nuttige Ollama-commands (Ollama commands cheatsheet) Die ik vroeger al heb samengesteld. Hopelijk is het ook nuttiig voor jou.

ollama cheatsheet

Deze Ollama-cheatsheet richt zich op CLI-commands, modelbeheer en aanpassingen, Maar we hebben hier ook enkele curl oproepen.

Installatie

  • Optie 1: Download vanaf de website
    • Bezoek ollama.com en download de installateur voor je besturingssysteem (Mac, Linux of Windows).
  • Optie 2: Installeer via de command line
    • Voor gebruikers van Mac en Linux, gebruik de commando:
curl https://ollama.ai/install.sh | sh
  • Volg de op het scherm verschijnende instructies en geef je wachtwoord op indien gevraagd.

Systeemvereisten

  • Besturingssysteem: Mac of Linux (Windows-versie in ontwikkeling)
  • Geheugen (RAM): Minimaal 8 GB, 16 GB of meer wordt aangeraden
  • Opslag: Minimaal ongeveer 10 GB vrije ruimte (modelbestanden kunnen erg groot zijn, zie hier meer Verplaats Ollama-modellen naar een ander station)
  • Processor: Een relatief moderne CPU (van de afgelopen 5 jaar).

Basis Ollama CLI-commands

Command Beschrijving
ollama serve Start Ollama op je lokale systeem.
ollama create <new_model> Maakt een nieuw model aan vanuit een bestaand model voor aanpassing of training.
ollama show <model> Toont details over een specifiek model, zoals zijn configuratie en release datum.
ollama run <model> Start het opgegeven model, waardoor het klaar is voor interactie.
ollama pull <model> Download het opgegeven model naar je systeem.
ollama list Lijst alle gedownloade modellen. Hetzelfde als ollama ls
ollama ps Toont de momenteel lopende modellen.
ollama stop <model> Stopt het opgegeven lopende model.
ollama rm <model> Verwijdert het opgegeven model van je systeem.
ollama help Geeft hulp over elk commando.

Modelbeheer

  • Een model downloaden:

    ollama pull mistral-nemo:12b-instruct-2407-q6_K
    

    Dit commando download het opgegeven model (bijvoorbeeld Gemma 2B, of mistral-nemo:12b-instruct-2407-q6_K) naar je systeem. De modelbestanden kunnen erg groot zijn, dus houd de gebruikte ruimte door modellen op de harde schijf of ssd in de gaten. Je zou zelfs kunnen overwegen om alle Ollama-modellen van je thuisschijf naar een grotere en betere schijf te verplaatsen

  • Een model uitvoeren:

    ollama run qwen2.5:32b-instruct-q3_K_S
    

    Dit commando start het opgegeven model en opent een interactieve REPL voor interactie.

  • Modellen lijsten:

    ollama list
    

    hetzelfde als:

    ollama ls
    

    Dit commando lijst alle modellen die zijn gedownload naar je systeem, zoals

    $ ollama ls
    NAME                                                    ID              SIZE      MODIFIED     
    deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weken geleden     
    gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weken geleden     
    LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weken geleden     
    dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weken geleden     
    dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weken geleden     
    qwen3:8b                                                500a1f067a9f    5.2 GB    5 weken geleden     
    qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weken geleden     
    qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weken geleden     
    devstral:24b                                            c4b2fa0c33d7    14 GB     5 weken geleden  
    
  • Een model stoppen:

    ollama stop llama3.1:8b-instruct-q8_0
    

    Dit commando stopt het opgegeven lopende model.

Model vrijgeven van VRAM

Wanneer een model is geladen in VRAM (GPU-geheugen), blijft het daar zelfs na gebruik in de buurt. Om een model expliciet vrij te geven van VRAM en GPU-geheugen vrij te maken, kun je een aanvraag sturen naar de Ollama API met keep_alive: 0.

  • Model vrijgeven van VRAM met curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Vervang MODELNAME met je werkelijke modelnaam, bijvoorbeeld:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Model vrijgeven van VRAM met Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Dit is vooral handig wanneer:

  • Je GPU-geheugen vrij moet maken voor andere toepassingen
  • Je meerdere modellen draait en VRAM-gebruik moet beheren
  • Je met een groot model klaar bent en resources direct vrij wil maken

Opmerking: De parameter keep_alive bepaalt hoe lang (in seconden) een model in het geheugen blijft geladen na de laatste aanvraag. Het instellen op 0 ontladingt het model direct van VRAM.

Modellen aanpassen

  • Stel een systeemprompt in: Binnen de Ollama REPL kun je een systeemprompt instellen om het gedrag van het model aan te passen:

    >>> /set system Voor alle vragen beantwoord in het Engels en vermijd technische termen zoveel mogelijk
    >>> /save ipe
    >>> /bye
    

    Vervolgens kun je het aangepaste model uitvoeren:

    ollama run ipe
    

    Dit stelt een systeemprompt in en slaat het model op voor toekomstig gebruik.

  • Maak een aangepast modelbestand: Maak een tekstbestand (bijvoorbeeld custom_model.txt) aan met de volgende structuur:

    FROM llama3.1
    SYSTEM [Je aangepaste instructies hier]
    

    Vervolgens voer je uit:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Dit maakt een aangepast model op basis van de instructies in het bestand.

Ollama gebruiken met bestanden

  • Samenvatting van tekst uit een bestand:

    ollama run llama3.2 "Samenvat de inhoud van dit bestand in 50 woorden." < input.txt
    

    Dit commando samenvat de inhoud van input.txt met behulp van het opgegeven model.

  • Modelreacties opslaan in een bestand:

    ollama run llama3.2 "Vertel me over hernieuwbare energie." > output.txt
    

    Dit commando slaat de reactie van het model op in output.txt.

Algemene toepassingen

  • Tekstgeneratie:

    • Samenvatten van een groot tekstbestand:
      ollama run llama3.2 "Samenvat de volgende tekst:" < long-document.txt
      
    • Tekst genereren:
      ollama run llama3.2 "Schrijf een korte artikel over de voordelen van het gebruik van AI in de gezondheidszorg." > article.txt
      
    • Beantwoorden van specifieke vragen:
      ollama run llama3.2 "Wat zijn de nieuwste trends in AI en hoe zullen ze de gezondheidszorg beïnvloeden?"
      

    .

  • Data-verwerking en -analyse:

    • Classificeren van tekst in positief, negatief of neutraal sentiment:
      ollama run llama3.2 "Analyseer het sentiment van deze klantrecensie: 'Het product is geweldig, maar de levering was traag.'"
      
    • Categorieëren van tekst in vooraf gedefinieerde categorieën: Gebruik vergelijkbare commando’s om tekst te classificeren of te categoriseren op basis van vooraf gedefinieerde criteria.

Ollama gebruiken met Python

  • Installeer de Ollama Python-bibliotheek:
    pip install ollama
    
  • Genereer tekst met behulp van Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='wat is een qubit?')
    print(response['response'])
    
    Dit codefragment genereert tekst met behulp van het opgegeven model en prompt.