Vilka är de populäraste kommandona i Ollama?

De mest populära kommandona i Ollama är ollama list, ollama pull, ollama rm och ollama run.

Hur ser jag var Ollama passar in bland lokala och molnbaserade LLM-alternativ?

Guiden för LLM-utplacering jämför lokala verktyg som Ollama och vLLM med molnleverantörer och förklarar när man bör välja respektive lösning.

Hur frigör jag GPU-minne efter att ha använt en Ollama-modell?

Använd ollama stop tillsammans med modellnamnet för att stoppa en körande modell, eller skicka en förfrågan till Ollama-API:t med keep_alive satt till 0 för att omedelbart avladda modellen från VRAM.

Hur installerar jag Ollama på Linux?

Besök ollama.com för att ladda ner installatören, eller kör curl https://ollama.ai/install.sh | sh i terminalen och följ instruktionerna.

Vilka är systemkraven för att köra Ollama?

Du behöver Mac eller Linux, minst 8 GB RAM (16 GB rekommenderas), cirka 10 GB ledigt lagringsutrymme för modeller och en relativt modern CPU från de senaste åren.

Hur ser jag vilka Ollama-modeller som är laddade eller körs för närvarande?

Kör ollama ps för att visa en lista över de modeller som för närvarande är inlämnade, deras storlek, om de använder GPU eller CPU, samt hur länge de stannar i minnet.

Hur kör jag en Ollama-modell med en enskild prompt utan att öppna en interaktiv session?

Skicka din prompt till ollama run, till exempel printf “Din fråga här\n” | ollama run modellnamn, vilket kör modellen en gång och sedan avslutar.

Hur kan jag öka eller begränsa parallella förfrågningar i Ollama?

Sätt omgivningsvariabeln OLLAMA_NUM_PARALLEL innan du startar servern (t.ex. OLLAMA_NUM_PARALLEL=2 ollama serve) för att kontrollera hur många förfråningar Ollama bearbetar samtidigt.

Hur anpassar jag en Ollama-modell eller sätter ett systemprompt?

Använd /set system i det interaktiva REPL:et och sedan /save för att skapa en ny modell, eller skapa en Modelfil med FROM- och SYSTEM-rader och kör ollama create för att bygga en anpassad modell.

Ollama-kommandoskivsnabbhänvisning: ls, serve, run, ps + kommandon (uppdatering 2026)

Q: Var kan jag jämföra Ollama med andra alternativ för värdning av LLM?

Vår översikt över LLM-Hosting jämför Ollama med vLLM, Docker Model Runner, LocalAI och molnleverantörer, inklusive kostnads- och infrastrukturavvägningar.

Uppdaterad kommandolista för Ollama – ls, ps, run, serve m.fl.

Sidinnehåll

Denna Ollama CLI-snabbkurs fokuserar på kommandon du använder varje dag (ollama ls, ollama serve, ollama run, ollama ps, hantering av modeller och vanliga arbetsflöden), med exempel du kan kopiera och klistra in.

Den inkluderar också ett kort avsnitt om “prestandaknappar” för att hjälpa dig upptäcka (och sedan fördjupa dig i) OLLAMA_NUM_PARALLEL och relaterade inställningar.

ollama cheatsheet

Denna Ollama-snabbkurs fokuserar på CLI-kommandon, modellhantering och anpassning, men vi har här också några curl-anrop.

För en helhetsbild av var Ollama passar bland lokala, självhostade och molnalternativ – inklusive vLLM, Docker Model Runner, LocalAI och molnleverantörer – se LLM-hosting: Lokalt, självhostat och molninfrastruktur jämfört. Om du jämför olika lokala LLM-hostingslösningar, kolla in vår omfattande jämförelse av Ollama, vLLM, LocalAI, Jan, LM Studio och mer. För de som söker alternativ till kommandotolksgränssnitt, erbjuder Docker Model Runner ett annat tillvägagångssätt för LLM-implementering.

Ollama-installation (nedladdning och CLI-installation)

Alternativ 1: Ladda ner från webbplatsen
- Besök ollama.com och ladda ner installationsprogrammet för din operativsystem (Mac, Linux eller Windows).
Alternativ 2: Installera via kommandotolken
- För Mac- och Linux-användare, använd kommandot:

curl -fsSL https://ollama.com/install.sh | sh

Följ instruktionerna på skärmen och ange ditt lösenord om du uppmanas.

Ollama systemkrav (RAM, lagring, CPU)

Operativsystem: Mac, Linux eller Windows
Minne (RAM): Minst 8 GB, 16 GB eller mer rekommenderas
Lagring: Minst ~10 GB ledigt utrymme (modellfiler kan vara riktigt stora, se mer här Flytta Ollama-modeller till annan enhet )
Processor: En relativt modern CPU (från de senaste 5 åren). Om du är nyfiken på hur Ollama utnyttjar olika CPU-arkitekturer, se vår analys av hur Ollama använder Intel CPU-prestanda och Efficient Cores.

För seriösa AI-arbetsbelastningar kan du vilja jämföra hårdvarualternativ. Vi har testat NVIDIA DGX Spark jämfört med Mac Studio jämfört med RTX-4080-prestanda med Ollama, och om du överväger att investera i toppklasshårdvara, ger vår DGX Spark-pris- och kapacitetsjämförelse en detaljerad kostnadsanalys.

Grundläggande Ollama CLI-kommandon

Kommando	Beskrivning
`ollama serve`	Startar Ollama-servern (standardport 11434).
`ollama run <modell>`	Kör den angivna modellen i ett interaktivt REPL.
`ollama pull <modell>`	Laddar ner den angivna modellen till ditt system.
`ollama push <modell>`	Laddar upp en modell till Ollama-registret.
`ollama list`	Listar alla nedladdade modeller. Samma som `ollama ls`.
`ollama ps`	Visar just nu körda (laddade) modeller.
`ollama stop <modell>`	Stoppar (avlastar) en körande modell.
`ollama rm <modell>`	Tar bort en modell från ditt system.
`ollama cp <källa> <mål>`	Kopierar en modell under ett nytt namn lokalt.
`ollama show <modell>`	Visar detaljer om en modell (arkitektur, parametrar, mall, etc.).
`ollama create <modell>`	Skapar en ny modell från en Modelfile.
`ollama launch [integration]`	Konfigurationsfri start av AI-kodningsassistenter (Claude Code, Codex, Droid, OpenCode).
`ollama signin`	Autentiserar mot Ollama-registret (aktiverar privata modeller och molnmodeller).
`ollama signout`	Loggar ut från Ollama-registret.
`ollama help`	Ger hjälp om vilket kommando som helst.

Snabblänkar: Ollama serve-kommando · Ollama launch-kommando · Ollama run-kommando · Ollama run-flaggor · Ollama ps-kommando · Ollama show-kommando · Ollama signin · Ollama CLI-grunder · Prestandaknappar (OLLAMA_NUM_PARALLEL) · Djupdykning i parallella anrop

Ollama CLI (vad det är)

Ollama CLI är kommandotolksgränssnittet för att hantera modeller och köra/tjänstgöra dem lokalt. De flesta arbetsflöden minskar till:

Starta servern: ollama serve
Kör en modell: ollama run <modell>
Se vad som är laddat/körande: ollama ps
Hantera modeller: ollama pull, ollama list, ollama rm

Ollama modellhantering: kommandon för att hämta och lista modeller

Lista modeller:

ollama list

samma som:

ollama ls

Detta kommando listar alla modeller som har laddats ner till ditt system, med deras filstorlekar på din HDD/SSD, som i

$ ollama ls
NAME                                                    ID              SIZE      MODIFIED     
deepseek-r1:8b                                          6995872bfe4c    5.2 GB    2 veckor sedan     
gemma3:12b-it-qat                                       5d4fa005e7bb    8.9 GB    2 veckor sedan     
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL    4e994e0f85a0    13 GB     3 veckor sedan     
dengcao/Qwen3-Embedding-8B:Q4_K_M                       d3ca2355027f    4.7 GB    4 veckor sedan     
dengcao/Qwen3-Embedding-4B:Q5_K_M                       7e8c9ad6885b    2.9 GB    4 veckor sedan     
qwen3:8b                                                500a1f067a9f    5.2 GB    5 veckor sedan     
qwen3:14b                                               bdbd181c33f2    9.3 GB    5 veckor sedan     
qwen3:30b-a3b                                           0b28110b7a33    18 GB     5 veckor sedan     
devstral:24b                                            c4b2fa0c33d7    14 GB     5 veckor sedan

Ladda ner en modell: ollama pull

ollama pull mistral-nemo:12b-instruct-2407-q6_K

Detta kommando laddar ner den angivna modellen (t.ex. Gemma 2B, eller mistral-nemo:12b-instruct-2407-q6_K) till ditt system. Modellfilerna kan vara ganska stora, så håll koll på utrymmet som används av modeller på hårddisken eller SSD. Du kanske till och med vill flytta alla Ollama-modeller från din hemkatalog till en annan större och bättre enhet

Ladda upp en modell: ollama push

ollama push min-anpassad-modell

Laddar upp en lokal modell till Ollama-registret så att andra kan hämta den. Du måste vara inloggad först (ollama signin) och modellnamnet måste ha prefixet med ditt Ollama-användarnamn, t.ex. minanvändare/min-modell. Använd --insecure om du laddar upp till ett privat register via HTTP:

ollama push minanvändare/min-modell --insecure

Kopiera en modell: ollama cp

ollama cp llama3.2 min-llama3-variant

Skapar en lokal kopia av en modell under ett nytt namn utan att ladda ner något igen. Detta är praktiskt innan du redigerar en Modelfile – kopiera först, anpassa kopien och behåll originalet intakt:

ollama cp qwen3:14b qwen3-14b-anpassad
ollama create qwen3-14b-anpassad -f ./Modelfile

Ollama show-kommando

ollama show skriver ut information om en nedladdad modell.

ollama show qwen3:14b

Som standard skriver den ut modellkortet (arkitektur, kontextlängd, inbäddningslängd, kvantisering, etc.). Det finns tre användbara flaggor:

Flagga	Vad den visar
`--modelfile`	Den fullständiga Modelfile som användes för att skapa modellen (FROM, SYSTEM, TEMPLATE, PARAMETER-rader)
`--parameters`	Endast parametrar-blocket (t.ex. `num_ctx`, `temperature`, `stop`-token)
`--verbose`	Utökad metadata inklusive tensorformer och lagerantal

# Se exakt vilken systemprompt och mall en modell byggdes med
ollama show deepseek-r1:8b --modelfile

# Kontrollera kontextfönstrets storlek och andra inferensparametrar
ollama show qwen3:14b --parameters

# Full detaljnivå på tensor-nivå (användbart vid felsökning av kvantisering)
ollama show llama3.2 --verbose

Utdata från --modelfile är särskilt användbar innan du anpassar en modell: du kan kopiera grundläggande Modelfile och redigera från där istället för att skriva en från grunden.

Ollama serve-kommando

ollama serve startar den lokala Ollama-servern (standard HTTP-port 11434).

ollama serve

“ollama serve”-kommando (systemd-vänligt exempel):

# sätta miljövariabler, sedan starta servern
# göra ollama tillgänglig på värdens IP-adress
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve

Ollama run-kommando

Kör en modell:

ollama run gpt-oss:20b

Detta kommando startar den angivna modellen och öppnar ett interaktivt REPL för interaktion. Vill du förstå hur Ollama hanterar flera samtidiga anrop? Lär dig mer om hur Ollama hanterar parallella anrop i vår detaljerade analys.

ollama run kör en modell i en interaktiv session, så du i fallet med gpt-oss:120b skulle se något liknande

$ ollama run gpt-oss:120b
>>> Skicka ett meddelande (/? för hjälp)

du kan skriva dina frågor eller kommandon och modellen svarar.

>>> vem är du?
Tänker...
Användaren frågar "vem är du?" Enkel fråga. Bør svara som ChatGPT, en AI-språkmodell tränad av OpenAI, 
etc. Ge en kort introduktion. Fråga kanske om de behöver hjälp.
...färdig med att tänka.

Jag är ChatGPT, en AI-språkmodell skapad av OpenAI. Jag har tränats på ett brett spektrum av text så att jag kan hjälpa 
svara på frågor, brainstorma idéer, förklara koncept, utkasta text, felsöka problem och mycket mer. Tänk 
på mig som en mångsidig virtuell assistent – här för att ge information, stöd och samtal när du behöver 
det. Hur kan jag hjälpa dig idag?

>>> Skicka ett meddelande (/? för hjälp)

För att avsluta den interaktiva Ollama-sessionen, tryck Ctrl+D, eller så kan du skriva /bye, samma resultat:

>>> /bye
$

Ollama run-kommando-exempel

För att köra en modell och ställa en enda fråga i icke-interaktivt läge:

printf "Ge mig 10 bash one-liners för loganalys.\n" | ollama run llama3.2

Om du vill se detaljerad verbos LLM-svar i Ollama-sessionen – kör modellen med --verbose eller -v-parametern:

$ ollama run gpt-oss:20b --verbose
>>> vem är du?
Tänker...
Vi måste svara på en enkel fråga: "vem är du?" Användaren frågar "vem är du?" Vi kan svara att vi 
är ChatGPT, en stor språkmodell tränad av OpenAI. Vi kan också nämna kapaciteter. Användaren förväntar sig 
sannolikt en kort introduktion. Vi håller det vänligt.
...färdig med att tänka.

Jag är ChatGPT, en stor språkmodell skapad av OpenAI. Jag är här för att hjälpa svara på frågor, ge förklaringar, 
brainstorma idéer och chatta om ett brett spektrum av ämnen – allt från vetenskap och historia till kreativt skrivande 
och vardagsrådgivning. Berätta bara vad du vill prata om!

total varaktighet:       1.118585707s
laddningsvaraktighet:        106.690543ms
promptutvärderingsantal:    71 token(s)
promptutvärderingsvaraktighet: 30.507392ms
promptutvärderingshastighet:     2327.30 tokens/s
utvärderingsantal:           132 token(s)
utvärderingsvaraktighet:        945.801569ms
utvärderingshastighet:            139.56 tokens/s
>>> /bye
$

Ja, det stämmer, det är 139 token per sekund. gpt-oss:20b är mycket snabb. Om du, som jag, har GPU med 16 GB VRAM – se LLM-hastighetsjämförelsedetaljer i Bästa LLM:er för Ollama på 16 GB VRAM GPU.

Tips: Om du vill att modellen ska vara tillgänglig via HTTP för flera appar, starta servern med ollama serve och använd API-klienten istället för långa interaktiva sessioner.

Ollama run-flaggor (full referens)

Flagga	Beskrivning
`--verbose` / `-v`	Skriv ut tidsstatistik (token/s, laddningstid, etc.) efter varje svar
`-p, --parameters`	Skicka modellparametrar inlinje utan Modelfile (se nedan)
`--format string`	Tvinga ett specifikt utdataformat, t.ex. `json`
`--nowordwrap`	Inaktivera automatisk radbrytning – användbart när utdata pipas till skript
`--insecure`	Tillåt anslutning till ett register via HTTP (för privata/självhostade register)

Åsidosätt modellparametrar utan Modelfile (-p / –parameters)

Flaggan -p låter dig ändra inferensparametrar vid körning utan att skapa en Modelfile. Du kan stapla flera -p-flaggor:

# Öka kontextfönstret och sänk temperaturen
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5

# Kör en kodninguppgift med deterministisk utdata
ollama run devstral:24b -p temperature=0 -p num_ctx=65536

Vanliga parametrar du kan sätta på detta sätt:

Parameter	Effekt
`num_ctx`	Kontextfönstrets storlek i token (standard är modellberoende, ofta 2048–4096)
`temperature`	Slumpmässighet: 0 = deterministisk, 1 = kreativ
`top_p`	Tröskel för kärnprovtagning (nucleus sampling)
`top_k`	Begränsar ordförrådet till topp-K token
`num_predict`	Maximala token att generera (-1 = obegränsat)
`repeat_penalty`	Straff för att upprepa token

Flerradig inmatning i REPL

Innesluta text i trippel citat (""") för att skriva in en flerradig prompt utan att skicka in den för tidigt:

>>> """Sammanfatta detta i en mening:
... Den snabba bruna räv hoppar över den tröga hunden.
... Det hände en tisdag.
... """

Multimodala modeller (bilder)

För synkapabla modeller (t.ex. gemma3, llava), skicka en bildsökväg direkt i prompten:

ollama run gemma3 "Vad finns i denna bild? /home/användare/skärmdump.png"

Generera inbäddningar via CLI

Inbäddningsmodeller returnerar en JSON-array istället för text. Pipa text direkt för snabba enskilda inbäddningar:

echo "Hej världen" | ollama run nomic-embed-text

För produktionsinbäddningsarbetsbelastningar använd /api/embeddings REST-endpunkten eller Python-klienten istället.

Tvinga JSON-utdata (–format)

ollama run llama3.2 --format json "Lista 5 huvudstäder som JSON"

Modellen instrueras att returnera giltig JSON. Användbart när utdata pipas till jq eller ett skript som förväntar sig strukturerad data.

Ollama stop-kommando

Detta kommando stoppar den angivna körande modellen.

ollama stop llama3.1:8b-instruct-q8_0

Ollama sparkar modeller automagiskt efter en viss tid. Du kan specificera denna tid, standard är 4 minuter. Om du inte vill vänta på återstående tid kanske du vill använda detta ollama stop-kommando. Du kan också sparka modellen ut ur VRAM genom att anropa /generate API-endpunkten med parametern keep_alive=0, se nedan för beskrivning och exempel.

Ollama ps-kommando

ollama ps visar just nu körda modeller och sessioner (användbart för att felsöka “varför är min VRAM full?”).

ollama ps

Exemplet på ollama ps-utdata är nedan:

NAMN           ID              STORLEK     PROCESSOR    KONTEXT    TILL
gpt-oss:20b    17052f91a42e    14 GB    100% GPU     4096       4 minuter från nu

Du ser här på min PC att gpt-oss:20b passar in i min GPU:s 16 GB VRAM mycket bra, och upptar endast 14 GB.

Om jag kör ollama run gpt-oss:120b och sedan anropar ollama ps, blir resultatet inte lika glatt: 78% av lagen är på CPU, och detta är bara med kontextfönstret 4096 token. Det skulle vara mer om jag behöver öka kontexten.

NAMN            ID              STORLEK     PROCESSOR          KONTEXT    TILL
gpt-oss:120b    a951a23b46a1    66 GB    78%/22% CPU/GPU    4096       4 minuter från nu

Ollama launch-kommando (AI-kodningsintegrationer)

ollama launch är ett kommando introducerat i Ollama v0.15 (januari 2026) som ger dig konfigurationsfri, enskild rad-installation för populära AI-kodningsassistenter som kör mot din lokala Ollama-server.

Varför använda ollama launch?

Innan ollama launch innebar att koppla ihop en kodningsagent som Claude Code eller Codex med en lokal Ollama-backend manuellt att sätta miljövariabler, peka verktyget mot rätt API-endpunkt och välja en kompatibel modell. ollama launch hanterar allt detta åt dig interaktivt.

Om du redan kör Ollama lokalt och vill ha en agentisk kodningsassistent utan att betala för API-anrop eller skicka kod till molnet, är ollama launch den snabbaste vägen dit.

Supporterade integrationer

Integration	Vad det är
`claude`	Anthropic’s Claude Code – agentisk kodningsassistent
`codex`	OpenAI’s Codex CLI-kodningsassistent
`droid`	Factory’s AI-kodningsagent
`opencode`	Öppen källkod för kodningsassistent

Grundläggande användning

# Interaktivt val – välj en integration från en meny
ollama launch

# Starta en specifik integration direkt
ollama launch claude

# Starta med en specifik modell
ollama launch claude --model qwen3-coder

# Konfigurera integrationen utan att starta den (användbart för att inspektera inställningar)
ollama launch droid --config

Rekommenderade modeller

Kodningsagenter behöver ett långt kontextfönster för att hålla hel-fil-kontext och konversationshistorik över flera varv. Ollama rekommenderar modeller med minst 64 000 token i kontext:

Modell	Noteringar
`qwen3-coder`	Stark kodningsprestanda, lång kontext, kör lokalt
`glm-4.7-flash`	Snabb lokal alternativ
`devstral:24b`	Mistral’s kodningsinriktade modell

Om din GPU inte kan passa in modellen, erbjuder Ollama också molnhostade varianter (t.ex. qwen3-coder:480b-cloud) som integrerar på samma sätt men skickar inferens till Ollama’s molnnivå – vilket kräver ollama signin.

Exempel: kör Claude Code lokalt med Ollama

# 1. Se till att modellen är tillgänglig
ollama pull qwen3-coder

# 2. Starta Claude Code mot den
ollama launch claude --model qwen3-coder

Ollama sätter de nödvändiga miljövariablerna och startar Claude Code som pekar på http://localhost:11434 automatiskt. Du kan sedan använda Claude Code exakt som du normalt skulle – den enda skillnaden är att inferensen sker på din egen hårdvara.

Prestandaknappar (`OLLAMA_NUM_PARALLEL`)

Om du ser köbildning eller tidsöverskridanden under belastning, är den första knappen att lära sig OLLAMA_NUM_PARALLEL.

OLLAMA_NUM_PARALLEL = hur många anrop Ollama utför parallellt.
Ett högre värde kan öka igenomströmningen, men kan öka VRAM-belastning och latensspikar.

Snabbt exempel:

OLLAMA_NUM_PARALLEL=2 ollama serve

För en fullständig förklaring (inklusive justeringsstrategier och felmode), se:

Hur Ollama hanterar parallella anrop

Släppa Ollama-modell från VRAM (keep_alive)

När en modell är laddad i VRAM (GPU-minne), stannar den där även efter att du är klar med den. För att explicit släppa en modell från VRAM och frigöra GPU-minne, kan du skicka ett anrop till Ollama-API:et med keep_alive: 0.

Släpp modell från VRAM med curl:

curl http://localhost:11434/api/generate -d '{"model": "MODELNAMN", "keep_alive": 0}'

Ersätt MODELNAMN med ditt faktiska modellnamn, t.ex.:

curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'

Släpp modell från VRAM med Python:

import requests

response = requests.post(
    'http://localhost:11434/api/generate',
    json={'model': 'qwen3:14b', 'keep_alive': 0}
)

Detta är särskilt användbart när:

Du behöver frigöra GPU-minne för andra applikationer
Du kör flera modeller och vill hantera VRAM-användning
Du är klar med att använda en stor modell och vill frigöra resurser omedelbart

Obs: Parametern keep_alive styr hur länge (i sekunder) en modell stannar laddad i minnet efter det sista anropet. Att sätta den till 0 avlastar modellen från VRAM omedelbart.

Om du hellre vill undvika Ollama’s abstraktionslager helt och vill ha direkt kontroll över vilken GGUF-modell som är inbodd vid vilket som helst tillfälle, täcker llama-server-router-läge llama.cpp-inhemmiga tillvägagångssättet för dynamisk modellväxling.

Anpassa Ollama-modeller (systemprompt, Modelfile)

Sätt systemprompt: Inuti Ollama-REPL kan du sätta en systemprompt för att anpassa modellens beteende:
```
>>> /set system För alla frågor som ställs, svara på enkel engelska och undvik teknisk jargon så mycket som möjligt
>>> /save ipe
>>> /bye
```
Kör sedan den anpassade modellen:
```
ollama run ipe
```
Detta sätter en systemprompt och sparar modellen för framtida användning.
Skapa anpassad modellfil: Skapa en textfil (t.ex. custom_model.txt) med följande struktur:
```
FROM llama3.1
SYSTEM [Dina anpassade instruktioner här]
```
Kör sedan:
```
ollama create minmodell -f custom_model.txt
ollama run minmodell
```
Detta skapar en anpassad modell baserad på instruktionerna i filen".

ollama signin
ollama signout

ollama signin autentiserar din lokala Ollama-installation mot Ollama-registret på ollama.com. När du är inloggad lagras inloggningsuppgifterna lokalt och återanvänds automatiskt för efterföljande kommandon.

Vad signin låser upp:

Hämta och ladda upp privata modeller från ditt konto eller organisation.
Använd molnhostade modeller (t.ex. qwen3-coder:480b-cloud) som är för stora för att köras lokalt.
Publicera modeller till registret med ollama push.

Alternativ: API-nyckelautentisering

Om du kör Ollama i en CI-pipeline eller en headless-server där interaktiv ollama signin inte är praktiskt, skapa en API-nyckel i dina Ollama-konto-inställningar och exponera den som en miljövariabel:

export OLLAMA_API_KEY=ollama_...
ollama pull minorg/private-modell

Variabeln OLLAMA_API_KEY plockas upp automatiskt av varje Ollama-kommando och API-anrop – ingen anledning att köra ollama signin på varje maskin.

Använda Ollama run-kommando med filer (sammanfatta, omdirigera)

Sammanfatta text från en fil:
```
ollama run llama3.2 "Sammanfatta innehållet i denna fil på 50 ord." < input.txt
```
Detta kommando sammanfattar innehållet i input.txt med hjälp av den angivna modellen.
Logga modellrespons till en fil:
```
ollama run llama3.2 "Berätta om förnybar energi." > output.txt
```
Detta kommando sparar modellens respons till output.txt.

Ollama CLI användningsområden (textgenerering, analys)

Textgenerering:

Sammanfatta en stor textfil:

ollama run llama3.2 "Sammanfatta följande text:" < long-document.txt

Generera innehåll:

ollama run llama3.2 "Skriv en kort artikel om fördelarna med att använda AI i vården." > article.txt

Svara på specifika frågor:

ollama run llama3.2 "Vad är de senaste trenderna inom AI, och hur kommer de att påverka vården?"

Dataprocessning och analys:
- Klassificera text i positiv, negativ eller neutral sentiment:
```
ollama run llama3.2 "Analysera sentimentet av denna kundrecension: 'Produkten är fantastisk, men leveransen var långsam.'"
```
- Kategorisera text i fördefinierade kategorier: Använd liknande kommandon för att klassificera eller kategorisera text baserat på fördefinierade kriterier.

Använda Ollama med Python (klient och API)

Installera Ollama Python-bibliotek:
```
pip install ollama
```

Generera text med Python:

import ollama

response = ollama.generate(model='gemma:2b', prompt='vad är en qubit?')
print(response['response'])

Detta kodsnutt genererar text med hjälp av den angivna modellen och prompten.

För avancerad Python-integration, utforska [använda Ollama’s Web Search API i Python](https://www.glukhov.org/sv/llm-hosting/ollama/ollama-web-search-in-python/ “Äga Ollama’s inhemska Web Search API med Python. Lär dig använda web_search och web_fetch-funktioner, bygga intelligenta sökagenter med verktygsanrop, och integrera med MCP-servrar för Cline och Codex. Inkluderar kompletta kodexempel.), som täcker webbsökningskapaciteter, verktygsanrop och MCP-serverintegration. Om du bygger AI-drivna applikationer, kan vår AI-kodningsassistenter-jämförelse hjälpa dig välja rätt verktyg för utveckling.

Söker du ett webbaserat gränssnitt? Open WebUI ger ett självhostat gränssnitt med RAG-kapaciteter och multi-användarstöd. För högpresterande produktionsimplementeringar, överväg vLLM som ett alternativ. För att jämföra Ollama med andra lokala och moln LLM-infrastrukturval, se LLM-hosting: Lokalt, självhostat och molninfrastruktur jämfört.

Ollama-kommandoskivsnabbhänvisning: ls, serve, run, ps + kommandon (uppdatering 2026)

Ollama-installation (nedladdning och CLI-installation)

Ollama systemkrav (RAM, lagring, CPU)

Grundläggande Ollama CLI-kommandon

Ollama CLI (vad det är)

Ollama modellhantering: kommandon för att hämta och lista modeller

Ollama show-kommando

Ollama serve-kommando

Ollama run-kommando

Ollama run-kommando-exempel

Ollama run-flaggor (full referens)

Åsidosätt modellparametrar utan Modelfile (-p / –parameters)

Flerradig inmatning i REPL

Multimodala modeller (bilder)

Generera inbäddningar via CLI

Tvinga JSON-utdata (–format)

Ollama stop-kommando

Ollama ps-kommando

Ollama launch-kommando (AI-kodningsintegrationer)

Varför använda ollama launch?

Supporterade integrationer

Grundläggande användning

Rekommenderade modeller

Exempel: kör Claude Code lokalt med Ollama

Prestandaknappar (`OLLAMA_NUM_PARALLEL`)

Släppa Ollama-modell från VRAM (keep_alive)

Anpassa Ollama-modeller (systemprompt, Modelfile)

Använda Ollama run-kommando med filer (sammanfatta, omdirigera)

Ollama CLI användningsområden (textgenerering, analys)

Använda Ollama med Python (klient och API)

Användbara länkar

Konfiguration och hantering

Alternativ och jämförelser

Prestanda och hårdvara

Integration och utveckling

Ollama-installation (nedladdning och CLI-installation)

Ollama systemkrav (RAM, lagring, CPU)

Grundläggande Ollama CLI-kommandon

Ollama CLI (vad det är)

Ollama modellhantering: kommandon för att hämta och lista modeller

Ollama show-kommando

Ollama serve-kommando

Ollama run-kommando

Ollama run-kommando-exempel

Ollama run-flaggor (full referens)

Åsidosätt modellparametrar utan Modelfile (-p / –parameters)

Flerradig inmatning i REPL

Multimodala modeller (bilder)

Generera inbäddningar via CLI

Tvinga JSON-utdata (–format)

Ollama stop-kommando

Ollama ps-kommando

Ollama launch-kommando (AI-kodningsintegrationer)

Varför använda ollama launch?

Supporterade integrationer

Grundläggande användning

Rekommenderade modeller

Exempel: kör Claude Code lokalt med Ollama

Prestandaknappar (OLLAMA_NUM_PARALLEL)

Släppa Ollama-modell från VRAM (keep_alive)

Anpassa Ollama-modeller (systemprompt, Modelfile)

Ollama signin och signout (registerautentisering)

Använda Ollama run-kommando med filer (sammanfatta, omdirigera)

Ollama CLI användningsområden (textgenerering, analys)

Använda Ollama med Python (klient och API)

Användbara länkar

Konfiguration och hantering

Alternativ och jämförelser

Prestanda och hårdvara

Integration och utveckling

Prenumerera

Prestandaknappar (`OLLAMA_NUM_PARALLEL`)