Ollama CLI-kortkommando: ls, serve, run, ps + kommandon (uppdatering 2026)

Uppdaterad lista över Ollama-kommandon - ls, ps, run, serve, osv

Sidinnehåll

Detta Ollama CLI cheat sheet fokuserar på kommandona du använder varje dag (ollama ls, ollama serve, ollama run, ollama ps, modellhantering och vanliga arbetsflöden), med exempel som du kan kopiera och klistra in.

Det inkluderar också en kort “prestandaknappar”-sektion för att hjälpa dig upptäcka (och sedan dyka in i) OLLAMA_NUM_PARALLEL och relaterade inställningar.

ollama cheat sheet

Den här Ollama cheat sheeten fokuserar på CLI-kommandon, modellhantering och anpassning, Men här har vi också några curl anrop.

För en komplett bild av var Ollama passar bland lokala, självvärdbaserade och molnbaserade alternativ – inklusive vLLM, Docker Model Runner, LocalAI och molnleverantörer – se LLM Hosting: Lokalt, självvärdbaserat & Molninfrastruktur jämförd. Om du jämför olika lokala LLM-värdalternativ, kontrollera vår omfattande jämförelse av Ollama, vLLM, LocalAI, Jan, LM Studio och mer. För de som söker alternativ till kommandoradssnitt, Docker Model Runner erbjuder en annan metod för LLM-distribution.

Ollama installation (ladda ner och CLI-installation)

  • Alternativ 1: Ladda ner från webbplatsen
    • Besök ollama.com och ladda ner installationsprogrammet för ditt operativsystem (Mac, Linux eller Windows).
  • Alternativ 2: Installera via kommandorad
    • För användare av Mac och Linux, använd kommandot:
curl -fsSL https://ollama.com/install.sh | sh
  • Följ skärmen på instruktionerna och ange ditt lösenord om det efterfrågas.

Ollama systemkrav (RAM, lagring, CPU)

För allvarliga AI-arbetsbelastningar, kan du vilja jämföra hårdvarualternativ. Vi har benchmarkat NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestanda med Ollama, och om du överväger att investera i högeffektsutrustning, ger vår DGX Spark-priser och kapacitetsjämförelse detaljerad kostnadsanalys.

Grundläggande Ollama CLI-kommandon

Kommando Beskrivning
ollama serve Startar Ollama-servern (standardport 11434).
ollama run <model> Kör den angivna modellen i en interaktiv REPL.
ollama pull <model> Laddar ner den angivna modellen till din system.
ollama push <model> Laddar upp en modell till Ollama-registret.
ollama list Visar alla nedladdade modeller. Samma som ollama ls.
ollama ps Visar aktuellt körande (laddade) modeller.
ollama stop <model> Stoppa (avlasta) en körande modell.
ollama rm <model> Tar bort en modell från ditt system.
ollama cp <source> <dest> Kopierar en modell under ett nytt namn lokalt.
ollama show <model> Visar detaljer om en modell (arkitektur, parametrar, mall, etc.).
ollama create <model> Skapar en ny modell från en Modelfile.
ollama launch [integration] Nollkonfigurationsstart av AI-kodassistent (Claude Code, Codex, Droid, OpenCode).
ollama signin Autentiserar med Ollama-registret (aktiverar privata modeller och molnmodeller).
ollama signout Loggar ut från Ollama-registret.
ollama help Ger hjälp om något kommando.

Hoppa till länkar: Ollama serve-kommando · Ollama launch-kommando · Ollama run-kommando · Ollama run-flaggor · Ollama ps-kommando · Ollama show-kommando · Ollama signin · Ollama CLI-baser · Prestandaknappar (OLLAMA_NUM_PARALLEL) · Parallella förfrågningar djupdykning

Ollama CLI (vad det är)

Ollama CLI är kommandoradsgränssnittet för att hantera modeller och köra/serve dem lokalt. De flesta arbetsflöden minskar till:

  • Starta servern: ollama serve
  • Kör en modell: ollama run <model>
  • Se vad som är laddat/körs: ollama ps
  • Hantera modeller: ollama pull, ollama list, ollama rm

Ollama modellhantering: pull och list kommandon

Lista modeller:

ollama list

samma som:

ollama ls

Detta kommando visar alla modeller som har laddats ner till ditt system, med deras filstorlekar på din hdd/sdd, som

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 weeks ago     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 weeks ago     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 weeks ago     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 weeks ago     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 weeks ago     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 weeks ago     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 weeks ago     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 weeks ago     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 weeks ago  

Ladda ner en modell: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Detta kommando laddar ner den angivna modellen (t.ex., Gemma 2B, eller mistral-nemo:12b-instruct-2407-q6_K) till ditt system. Modellfilerna kan vara väldigt stora, så håll ett öga på utrymmet som används av modeller på hårddisken, eller ssd. Du kan till och med vilja flytta alla Ollama-modeller från din hemkatalog till en annan större och bättre hårddisk

Ladda upp en modell: ollama push

ollama push my-custom-model

Laddar upp en lokal modell till Ollama-registret så att andra kan dra ner den. Du måste vara inloggad först (ollama signin) och modellens namn måste föregås med ditt Ollama-användarnamn, t.ex. myuser/my-model. Använd --insecure om du laddar upp till ett privat register över HTTP:

ollama push myuser/my-model --insecure

Kopiera en modell: ollama cp

ollama cp llama3.2 my-llama3-variant

Skapar en lokal kopia av en modell under ett nytt namn utan att ladda ner något igen. Detta är användbart före redigering av en Modelfile – kopiera först, anpassa kopien och behåll den ursprungliga intakt:

ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile

Ollama show-kommando

ollama show skriver ut information om en nedladdad modell.

ollama show qwen3:14b

Som standard skriver det ut modellkortet (arkitektur, kontextlängd, inbäddningslängd, kvantisering, etc.). Det finns tre användbara flaggor:

Flagga Vad den visar
--modelfile Den fullständiga Modelfilen som används för att skapa modellen (FROM, SYSTEM, TEMPLATE, PARAMETER rader)
--parameters Endast parameterblocket (t.ex. num_ctx, temperature, stop tokens)
--verbose Utökad metadata inklusive tensorformer och lagerantal
# Se exakt vilken systemprompt och mall en modell byggdes med
ollama show deepseek-r1:8b --modelfile

# Kontrollera kontextfönsterstorleken och andra inferensparametrar
ollama show qwen3:14b --parameters

# Fullständig tensorinformation (nyttigt vid felsökning av kvantisering)
ollama show llama3.2 --verbose

Utdata från --modelfile är särskilt användbar före anpassning av en modell: du kan kopiera den grundläggande Modelfilen och redigera från där istället för att skriva en från början.

Ollama serve-kommando

ollama serve startar den lokala Ollama-servern (standard HTTP-port 11434).

ollama serve

“ollama serve”-kommando (systemd-vänlig exempel):

# sätt miljövariabler, sedan starta servern
# gör ollama tillgänglig på värdens IP-adress
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Ollama run-kommando

Kör en modell:

ollama run gpt-oss:20b

Detta kommando startar den angivna modellen och öppnar en interaktiv REPL för interaktion. Vill du förstå hur Ollama hanterar flera parallella förfrågningar? Läs mer om hur Ollama hanterar parallella förfrågningar i vår detaljerade analys.

ollama run kör en modell i en interaktiv session, så att i fallet med gpt-oss:120b skulle du se något som

$ ollama run gpt-oss:120b
>>> Skicka ett meddelande (/? för hjälp)

du kan skriva dina frågor eller kommandon och modellen kommer svara.

>>> vem är du?
Tänker...
Användaren frågar "vem är du?" Enkelt fråga. Skulle svara som ChatGPT, en AI-språkmodell, trädd av OpenAI, 
etc. Ge en kort introduktion. Sannolikt fråga om de behöver hjälp.
...klar med tänkande.

Jag är ChatGPT, en AI-språkmodell som skapats av OpenAI. Jag har tränats på ett brett spektrum av text så jag kan hjälpa 
svara på frågor, brainstorma idéer, förklara koncept, skriva utkast, felsöka problem och mycket mer. Tänk 
på mig som en mångsidig virtuell assistent – här för att ge information, stöd och samtal när du behöver 
det. Hur kan jag hjälpa dig idag?

>>> Skicka ett meddelande (/? för hjälp)

För att avsluta den interaktiva ollama-sessionen, tryck på Ctrl+D, eller du kan skriva /bye, samma resultat:

>>> /bye
$ 

Ollama run-kommando exempel

För att köra en modell och ställa en enskild fråga i icke-interaktivt läge:

printf "Ge mig 10 bash en-linjare för loganalys.\n" | ollama run llama3.2

Om du vill se detaljerad lättläst LLM-svar i ollama-session – kör modellen med --verbose eller -v parameter:

$ ollama run gpt-oss:20b --verbose
>>> vem är du?
Tänker...
Vi behöver svara på en enkel fråga: "vem är du?" Användaren frågar "vem är du?" Vi kan svara att vi 
är ChatGPT, en stor språkmodell tränad av OpenAI. Vi kan också nämna förmågor. Användaren förväntar sig 
sannolikt en kort introduktion. Vi håller det vänligt.
...klar med tänkande.

Jag är ChatGPT, en stor språkmodell som skapats av OpenAI. Jag är här för att hjälpa svara på frågor, erbjuda förklaringar, 
brainstorma idéer och prata om ett brett spektrum av ämnen – allt från vetenskap och historia till kreativ skrivning 
och vardagliga råd. bara låt mig veta vad du vill prata om!

total tid:       1,118585707s
ladda tid:        106,690543ms
prompt eval antal:    71 token
prompt eval tid:      30,507392ms
prompt eval hastighet:     2327,30 token/s
bedömning antal:           132 token
bedömning tid:        945,801569ms
bedömning hastighet:            139,56 token/s
>>> /bye
$ 

Ja, det är rätt, det är 139 token per sekund. Den gpt-oss:20b är mycket snabb. Om du, som jag, har en GPU med 16 GB VRAM – se LLMs hastighetsjämförelse detaljer i Bästa LLMs för Ollama på 16 GB VRAM GPU.

Tips: Om du vill att modellen ska vara tillgänglig över HTTP för flera appar, starta servern med ollama serve och använd API-klienten istället för långa interaktiva sessioner.

Ollama run-flaggor (full reference)

Flagga Beskrivning
--verbose / -v Skriv ut tidsstatistik (token/s, laddningstid, etc.) efter varje svar
-p, --parameters Skicka modellparametrar direkt utan en Modelfile (se nedan)
--format string Tvinga en specifik utdataformat, t.ex. json
--nowordwrap Inaktivera automatiskt ordwrap – användbart när du pipear utdata till skript
--insecure Tillåt anslutning till ett register över HTTP (för privata/självvärdbaserade register)

Överstyra modellparametrar utan en Modelfile (-p / –parameters)

Flaggan -p låter dig ändra inferensparametrar vid körning utan att skapa en Modelfile. Du kan stapla flera -p flaggor:

# Öka kontextfönstret och sänk temperatur
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# Kör en koduppgift med deterministisk utdata
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

Vanliga parametrar du kan sätta så här:

Parameter Effekt
num_ctx Kontextfönsterstorlek i token (standard är modellberoende, ofta 2048–4096)
temperature Slumpmässighet: 0 = deterministisk, 1 = kreativ
top_p Nukleus-samplinggräns
top_k Begränsa ordboken till topp-K token
num_predict Maximala token att generera (-1 = obegränsat)
repeat_penalty Straff för upprepade token

Flervalsinput i REPL

Omsluta text i trippel citattecken ("\"\"\") för att ange en flervalsfråga utan att skicka in tidigt:

>>> """Sammanfatta detta i en mening:
... Den snabba bruna foxen hoppade över den tröga hunden.
... Det hände på en tisdag.
... """

Multimodella modeller (bilder)

För visionkänsliga modeller (t.ex. gemma3, llava), skicka en bildsökväg direkt i frågan:

ollama run gemma3 "Vad finns i denna bild? /home/user/screenshot.png"

Generera inbäddningar via CLI

Inbäddningsmodeller utgår en JSON-array istället för text. Pipe text direkt för snabba en gångs inbäddningar:

echo "Hej världen" | ollama run nomic-embed-text

För produktionsinbäddningsarbetsbelastningar använd /api/embeddings REST-slutpunkten eller Python-klienten istället.

Tvinga JSON-utdata (–format)

ollama run llama3.2 --format json "Lista 5 huvudstäder som JSON"

Modellen instrueras att returnera giltig JSON. Användbart när du pipear utdata till jq eller ett skript som förväntar sig strukturerad data.

Ollama stop-kommando

Detta kommando stoppar den angivna körande modellen.

ollama stop llama3.1:8b-instruct-q8_0

Ollama evakuerar modeller automagiskt efter en viss tid. Du kan ange denna tid, standard är 4 minuter. Om du inte vill vänta på den återstående tiden, kan du vilja använda detta ollama stop-kommando. Du kan också kasta ut modellen ur VRAM genom att anropa /generate API-slutpunkten med parametern keep_alive=0, se beskrivningen och exempel nedan.

Ollama ps-kommando

ollama ps visar aktuellt körande modeller och sessioner (nyttigt för att felsöka “varför är min VRAM full?”).

ollama ps

Exemplet på ollama ps-utdata är nedan:

NAME           ID              SIZE     PROCESSOR    CONTEXT    UNTIL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minuter från nu

Du ser här på min dator passar gpt-oss:20b in i min GPU:s 16 GB VRAM väldigt bra, och upptar endast 14 GB.

Om jag kör ollama run gpt-oss:120b och sedan anropar ollama ps, kommer resultatet inte vara så bra: 78% av lager är på CPU, och detta är bara med kontextfönstret 4096 token. Det skulle bli mer om jag behöver öka kontexten.

NAME            ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minuter från nu

Ollama launch-kommando (AI-kodintegreringar)

ollama launch är ett kommando introducerat i Ollama v0.15 (januari 2026) som ger dig nollkonfiguration, enradssättning för populära AI-kodassistenters som kör mot din lokala Ollama-server.

Varför använda ollama launch?

Före ollama launch, att ansluta en kodagent som Claude Code eller Codex till en lokal Ollama-bakgrund betydde manuellt inställa miljövariabler, peka verktyget till rätt API-slutpunkt och välja en kompatibel modell. ollama launch hanterar allt detta för dig interaktivt.

Om du redan kör Ollama lokalt och vill ha en agentisk kodassistent utan att betala för API-anrop eller skicka kod till molnet, är ollama launch snabbaste vägen dit.

Stödda integreringar

Integration Vad det är
claude Anthropics Claude Code – agentisk kodassistent
codex OpenAIs Codex CLI-kodassistent
droid Factorys AI-kodagent
opencode Opensource-kodassistent

Grundläggande användning

# Interaktivt val – välj en integration från en meny
ollama launch

# Starta en specifik integration direkt
ollama launch claude

# Starta med en specifik modell
ollama launch claude --model qwen3-coder

# Konfigurera integrationen utan att starta den (nyttigt för att undersöka inställningar)
ollama launch droid --config

Rekommenderade modeller

Kodagenter behöver ett långt kontextfönster för att hålla hela filens kontext och flera omgångars konversationshistorik. Ollama rekommenderar modeller med minst 64 000 token av kontext:

Modell Anteckningar
qwen3-coder Stark kodprestanda, lång kontext, kör lokalt
glm-4.7-flash Snabb lokal alternativ
devstral:24b Mistrals kodfokuserade modell

Om din GPU inte passar in modellen, erbjuder Ollama också molnvärdade alternativ (t.ex. qwen3-coder:480b-cloud) som integrerar på samma sätt men dirigerar inferens till Ollamas molntjänst – kräver ollama signin.

Exempel: kör Claude Code lokalt med Ollama

# 1. Se till att modellen är tillgänglig
ollama pull qwen3-coder

# 2. Starta Claude Code mot den
ollama launch claude --model qwen3-coder

Ollama ställer in de nödvändiga miljövariablerna och startar Claude Code som pekar på http://localhost:11434 automatiskt. Du kan sedan använda Claude Code exakt som du normalt gör – den enda skillnaden är att inferens sker på din egen hårdvara.

Prestandaknappar (OLLAMA_NUM_PARALLEL)

Om du ser köring eller timeout under belastning, är det första knappen att lära dig OLLAMA_NUM_PARALLEL.

  • OLLAMA_NUM_PARALLEL = hur många förfrågningar Ollama utför parallellt.
  • En högre värde kan öka genomströmmningen, men kan öka VRAM-tryck och latensspikar.

Snabb exempel:

OLLAMA_NUM_PARALLEL=2 ollama serve

För en fullständig förklaring (inklusive inställningsstrategier och felmoder), se:

Frigöra Ollama modell från VRAM (keep_alive)

När en modell laddas in i VRAM (GPU-minne), förblir den där även efter att du har slutfört användningen. För att explicit frigöra en modell från VRAM och frigöra GPU-minne, kan du skicka en begäran till Ollama API med keep_alive: 0.

  • Frigör modell från VRAM med curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'

Byt ut MODELNAME mot ditt faktiska modellnamn, till exempel:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
  • Frigör modell från VRAM med Python:
import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Detta är särskilt användbart när:

  • Du behöver frigöra GPU-minne för andra program
  • Du kör flera modeller och vill hantera VRAM-användning
  • Du har slutfört användningen av en stor modell och vill frigöra resurser omedelbart

Notera: keep_alive-parametern styr hur länge (i sekunder) en modell förblir laddad i minnet efter den sista förfrågan. Att sätta den till 0 frigör omedelbart modellen från VRAM.

Anpassa Ollama modeller (systemprompt, Modelfile)

  • Ställ in systemprompt: Inom Ollama REPL kan du ställa in en systemprompt för att anpassa modellens beteende:

    >>> /set system För alla frågor svar i ren engelska undvik teknisk jargon så mycket som möjligt
    >>> /save ipe
    >>> /bye
    

    Sedan, kör den anpassade modellen:

    ollama run ipe
    

    Detta ställer in en systemprompt och sparar modellen för framtida användning.

  • Skapa anpassad modellfil: Skapa en textfil (t.ex., custom_model.txt) med följande struktur:

    FROM llama3.1
    SYSTEM [Dina anpassade instruktioner här]
    

    Sedan, kör:

    ollama create mymodel -f custom_model.txt
    ollama run mymodel
    

    Detta skapar en anpassad modell baserat på instruktionerna i filen".

Ollama signin och signout (registreringsautentisering)

ollama signin
ollama signout

ollama signin autentiserar din lokala Ollama-installation med Ollama-registret på ollama.com. När du har loggat in, lagrar klienten autentiseringsuppgifterna lokalt och återanvänder dem automatiskt för efterföljande kommandon.

Vad signin låter dig göra:

  • Dra ner och ladda upp privata modeller från ditt konto eller organisation.
  • Använd molnvärdade modeller (t.ex. qwen3-coder:480b-cloud) som är för stora att köras lokalt.
  • Publicera modeller till registret med ollama push.

Alternativ: API-nyckelautentisering

Om du kör Ollama i en CI-pipeline eller en headless-server där interaktiv ollama signin inte är praktiskt, skapa en API-nyckel i ditt Ollama-kontoinställningar och exponera den som en miljövariabel:

export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model

OLLAMA_API_KEY-variabeln tas upp automatiskt av varje Ollama-kommando och API-begäran – det finns ingen behov av att köra ollama signin på varje maskin.

Använda Ollama run-kommando med filer (sammanfatta, omdirigera)

  • Sammanfatta text från en fil:

    ollama run llama3.2 "Sammanfatta innehållet i denna fil i 50 ord." < input.txt
    

    Detta kommando sammanfattar innehållet i input.txt med hjälp av den angivna modellen.

  • Logga modellsvaret till en fil:

    ollama run llama3.2 "Berätta mig om förnyelsebar energi." > output.txt
    

    Detta kommando sparar modellens svar till output.txt.

Ollama CLI-användningsfall (textgenerering, analys)

  • Textgenerering:

    • Sammanfatta en stor textfil:
      ollama run llama3.2 "Sammanfatta följande text:" < long-document.txt
      
    • Generera innehåll:
      ollama run llama3.2 "Skriv en kort artikel om fördelarna med att använda AI i hälsovård." > article.txt
      
    • Svara på specifika frågor:
      ollama run llama3.2 "Vad är de senaste trenderna inom AI, och hur kommer de att påverka hälsovård?"
      

    .

  • Datahantering och analys:

    • Klassificera text i positiv, negativ eller neutral känsla:
      ollama run llama3.2 "Analysera känslon i denna kundrecension: 'Produkten är fantastisk, men leveransen var långsam.'"
      
    • Kategorisera text i fördefinierade kategorier: Använd liknande kommandon för att klassificera eller kategorisera text baserat på fördefinierade kriterier.

Använda Ollama med Python (klient och API)

  • Installera Ollama Python-bibliotek:
    pip install ollama
    
  • Generera text med Python:
    import ollama
    
    response = ollama.generate(model='gemma:2b', prompt='vad är en kvantbit?')
    print(response['response'])
    
    Detta kodavsnitt genererar text med den angivna modellen och prompten.

För avancerad Python-integrering, utforska använda Ollamas Web Search API i Python, som täcker webbsökning, verktygskall och MCP-serverintegration. Om du bygger AI-driven appar, kan vår AI-kodassistent jämförelse hjälpa dig välja rätt verktyg för utveckling.

Söker du efter en webbaserad gränssnitt? Öppna WebUI ger ett självvärdbaserat gränssnitt med RAG-funktioner och flera användarstöd. För högpresterande produktionsdistributioner, överväg vLLM som alternativ. För att jämföra Ollama med andra lokala och molna LLM-infrastrukturval, se LLM Hosting: Lokalt, självvärdbaserat & Molninfrastruktur jämförd.

Några användbara länkar

Konfiguration och hantering

Alternativ och jämförelser

Prestanda och hårdvara

Integration och utveckling