Ollama CLI-kortkommando: ls, serve, run, ps + kommandon (uppdatering 2026)
Uppdaterad lista över Ollama-kommandon - ls, ps, run, serve, osv
Detta Ollama CLI cheat sheet fokuserar på kommandona du använder varje dag (ollama ls, ollama serve, ollama run, ollama ps, modellhantering och vanliga arbetsflöden), med exempel som du kan kopiera och klistra in.
Det inkluderar också en kort “prestandaknappar”-sektion för att hjälpa dig upptäcka (och sedan dyka in i) OLLAMA_NUM_PARALLEL och relaterade inställningar.

Den här Ollama cheat sheeten fokuserar på CLI-kommandon, modellhantering och anpassning, Men här har vi också några curl anrop.
För en komplett bild av var Ollama passar bland lokala, självvärdbaserade och molnbaserade alternativ – inklusive vLLM, Docker Model Runner, LocalAI och molnleverantörer – se LLM Hosting: Lokalt, självvärdbaserat & Molninfrastruktur jämförd. Om du jämför olika lokala LLM-värdalternativ, kontrollera vår omfattande jämförelse av Ollama, vLLM, LocalAI, Jan, LM Studio och mer. För de som söker alternativ till kommandoradssnitt, Docker Model Runner erbjuder en annan metod för LLM-distribution.
Ollama installation (ladda ner och CLI-installation)
- Alternativ 1: Ladda ner från webbplatsen
- Besök ollama.com och ladda ner installationsprogrammet för ditt operativsystem (Mac, Linux eller Windows).
- Alternativ 2: Installera via kommandorad
- För användare av Mac och Linux, använd kommandot:
curl -fsSL https://ollama.com/install.sh | sh
- Följ skärmen på instruktionerna och ange ditt lösenord om det efterfrågas.
Ollama systemkrav (RAM, lagring, CPU)
- Operativsystem: Mac, Linux eller Windows
- Minne (RAM): Minst 8 GB, 16 GB eller mer rekommenderas
- Lagring: Minst ~10 GB ledigt utrymme (modellfilerna kan vara väldigt stora, se mer här Flytta Ollama-modeller till en annan hårddisk )
- Processor: En relativt modern CPU (från de senaste fem åren). Om du är nyfiken på hur Ollama använder olika CPU-arkitekturer, se vår analys av hur Ollama använder Intel CPU-prestanda och effektiva kärnor.
För allvarliga AI-arbetsbelastningar, kan du vilja jämföra hårdvarualternativ. Vi har benchmarkat NVIDIA DGX Spark vs Mac Studio vs RTX-4080 prestanda med Ollama, och om du överväger att investera i högeffektsutrustning, ger vår DGX Spark-priser och kapacitetsjämförelse detaljerad kostnadsanalys.
Grundläggande Ollama CLI-kommandon
| Kommando | Beskrivning |
|---|---|
ollama serve |
Startar Ollama-servern (standardport 11434). |
ollama run <model> |
Kör den angivna modellen i en interaktiv REPL. |
ollama pull <model> |
Laddar ner den angivna modellen till din system. |
ollama push <model> |
Laddar upp en modell till Ollama-registret. |
ollama list |
Visar alla nedladdade modeller. Samma som ollama ls. |
ollama ps |
Visar aktuellt körande (laddade) modeller. |
ollama stop <model> |
Stoppa (avlasta) en körande modell. |
ollama rm <model> |
Tar bort en modell från ditt system. |
ollama cp <source> <dest> |
Kopierar en modell under ett nytt namn lokalt. |
ollama show <model> |
Visar detaljer om en modell (arkitektur, parametrar, mall, etc.). |
ollama create <model> |
Skapar en ny modell från en Modelfile. |
ollama launch [integration] |
Nollkonfigurationsstart av AI-kodassistent (Claude Code, Codex, Droid, OpenCode). |
ollama signin |
Autentiserar med Ollama-registret (aktiverar privata modeller och molnmodeller). |
ollama signout |
Loggar ut från Ollama-registret. |
ollama help |
Ger hjälp om något kommando. |
Hoppa till länkar: Ollama serve-kommando · Ollama launch-kommando · Ollama run-kommando · Ollama run-flaggor · Ollama ps-kommando · Ollama show-kommando · Ollama signin · Ollama CLI-baser · Prestandaknappar (OLLAMA_NUM_PARALLEL) · Parallella förfrågningar djupdykning
Ollama CLI (vad det är)
Ollama CLI är kommandoradsgränssnittet för att hantera modeller och köra/serve dem lokalt. De flesta arbetsflöden minskar till:
- Starta servern:
ollama serve - Kör en modell:
ollama run <model> - Se vad som är laddat/körs:
ollama ps - Hantera modeller:
ollama pull,ollama list,ollama rm
Ollama modellhantering: pull och list kommandon
Lista modeller:
ollama list
samma som:
ollama ls
Detta kommando visar alla modeller som har laddats ner till ditt system, med deras filstorlekar på din hdd/sdd, som
$ ollama ls
NAME ID SIZE MODIFIED
deepseek-r1:8b 6995872bfe4c 5.2 GB 2 weeks ago
gemma3:12b-it-qat 5d4fa005e7bb 8.9 GB 2 weeks ago
LoTUs5494/mistral-small-3.1:24b-instruct-2503-iq4_NL 4e994e0f85a0 13 GB 3 weeks ago
dengcao/Qwen3-Embedding-8B:Q4_K_M d3ca2355027f 4.7 GB 4 weeks ago
dengcao/Qwen3-Embedding-4B:Q5_K_M 7e8c9ad6885b 2.9 GB 4 weeks ago
qwen3:8b 500a1f067a9f 5.2 GB 5 weeks ago
qwen3:14b bdbd181c33f2 9.3 GB 5 weeks ago
qwen3:30b-a3b 0b28110b7a33 18 GB 5 weeks ago
devstral:24b c4b2fa0c33d7 14 GB 5 weeks ago
Ladda ner en modell: ollama pull
ollama pull mistral-nemo:12b-instruct-2407-q6_K
Detta kommando laddar ner den angivna modellen (t.ex., Gemma 2B, eller mistral-nemo:12b-instruct-2407-q6_K) till ditt system. Modellfilerna kan vara väldigt stora, så håll ett öga på utrymmet som används av modeller på hårddisken, eller ssd. Du kan till och med vilja flytta alla Ollama-modeller från din hemkatalog till en annan större och bättre hårddisk
Ladda upp en modell: ollama push
ollama push my-custom-model
Laddar upp en lokal modell till Ollama-registret så att andra kan dra ner den.
Du måste vara inloggad först (ollama signin) och modellens namn måste föregås med ditt Ollama-användarnamn, t.ex. myuser/my-model.
Använd --insecure om du laddar upp till ett privat register över HTTP:
ollama push myuser/my-model --insecure
Kopiera en modell: ollama cp
ollama cp llama3.2 my-llama3-variant
Skapar en lokal kopia av en modell under ett nytt namn utan att ladda ner något igen. Detta är användbart före redigering av en Modelfile – kopiera först, anpassa kopien och behåll den ursprungliga intakt:
ollama cp qwen3:14b qwen3-14b-custom
ollama create qwen3-14b-custom -f ./Modelfile
Ollama show-kommando
ollama show skriver ut information om en nedladdad modell.
ollama show qwen3:14b
Som standard skriver det ut modellkortet (arkitektur, kontextlängd, inbäddningslängd, kvantisering, etc.). Det finns tre användbara flaggor:
| Flagga | Vad den visar |
|---|---|
--modelfile |
Den fullständiga Modelfilen som används för att skapa modellen (FROM, SYSTEM, TEMPLATE, PARAMETER rader) |
--parameters |
Endast parameterblocket (t.ex. num_ctx, temperature, stop tokens) |
--verbose |
Utökad metadata inklusive tensorformer och lagerantal |
# Se exakt vilken systemprompt och mall en modell byggdes med
ollama show deepseek-r1:8b --modelfile
# Kontrollera kontextfönsterstorleken och andra inferensparametrar
ollama show qwen3:14b --parameters
# Fullständig tensorinformation (nyttigt vid felsökning av kvantisering)
ollama show llama3.2 --verbose
Utdata från --modelfile är särskilt användbar före anpassning av en modell: du kan kopiera den grundläggande Modelfilen och redigera från där istället för att skriva en från början.
Ollama serve-kommando
ollama serve startar den lokala Ollama-servern (standard HTTP-port 11434).
ollama serve
“ollama serve”-kommando (systemd-vänlig exempel):
# sätt miljövariabler, sedan starta servern
# gör ollama tillgänglig på värdens IP-adress
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_NUM_PARALLEL=2
ollama serve
Ollama run-kommando
Kör en modell:
ollama run gpt-oss:20b
Detta kommando startar den angivna modellen och öppnar en interaktiv REPL för interaktion. Vill du förstå hur Ollama hanterar flera parallella förfrågningar? Läs mer om hur Ollama hanterar parallella förfrågningar i vår detaljerade analys.
ollama run kör en modell i en interaktiv session,
så att i fallet med gpt-oss:120b skulle du se något som
$ ollama run gpt-oss:120b
>>> Skicka ett meddelande (/? för hjälp)
du kan skriva dina frågor eller kommandon och modellen kommer svara.
>>> vem är du?
Tänker...
Användaren frågar "vem är du?" Enkelt fråga. Skulle svara som ChatGPT, en AI-språkmodell, trädd av OpenAI,
etc. Ge en kort introduktion. Sannolikt fråga om de behöver hjälp.
...klar med tänkande.
Jag är ChatGPT, en AI-språkmodell som skapats av OpenAI. Jag har tränats på ett brett spektrum av text så jag kan hjälpa
svara på frågor, brainstorma idéer, förklara koncept, skriva utkast, felsöka problem och mycket mer. Tänk
på mig som en mångsidig virtuell assistent – här för att ge information, stöd och samtal när du behöver
det. Hur kan jag hjälpa dig idag?
>>> Skicka ett meddelande (/? för hjälp)
För att avsluta den interaktiva ollama-sessionen, tryck på Ctrl+D, eller du kan skriva /bye, samma resultat:
>>> /bye
$
Ollama run-kommando exempel
För att köra en modell och ställa en enskild fråga i icke-interaktivt läge:
printf "Ge mig 10 bash en-linjare för loganalys.\n" | ollama run llama3.2
Om du vill se detaljerad lättläst LLM-svar i ollama-session – kör modellen med --verbose eller -v parameter:
$ ollama run gpt-oss:20b --verbose
>>> vem är du?
Tänker...
Vi behöver svara på en enkel fråga: "vem är du?" Användaren frågar "vem är du?" Vi kan svara att vi
är ChatGPT, en stor språkmodell tränad av OpenAI. Vi kan också nämna förmågor. Användaren förväntar sig
sannolikt en kort introduktion. Vi håller det vänligt.
...klar med tänkande.
Jag är ChatGPT, en stor språkmodell som skapats av OpenAI. Jag är här för att hjälpa svara på frågor, erbjuda förklaringar,
brainstorma idéer och prata om ett brett spektrum av ämnen – allt från vetenskap och historia till kreativ skrivning
och vardagliga råd. bara låt mig veta vad du vill prata om!
total tid: 1,118585707s
ladda tid: 106,690543ms
prompt eval antal: 71 token
prompt eval tid: 30,507392ms
prompt eval hastighet: 2327,30 token/s
bedömning antal: 132 token
bedömning tid: 945,801569ms
bedömning hastighet: 139,56 token/s
>>> /bye
$
Ja, det är rätt, det är 139 token per sekund. Den gpt-oss:20b är mycket snabb. Om du, som jag, har en GPU med 16 GB VRAM – se LLMs hastighetsjämförelse detaljer i Bästa LLMs för Ollama på 16 GB VRAM GPU.
Tips: Om du vill att modellen ska vara tillgänglig över HTTP för flera appar, starta servern med ollama serve och använd API-klienten istället för långa interaktiva sessioner.
Ollama run-flaggor (full reference)
| Flagga | Beskrivning |
|---|---|
--verbose / -v |
Skriv ut tidsstatistik (token/s, laddningstid, etc.) efter varje svar |
-p, --parameters |
Skicka modellparametrar direkt utan en Modelfile (se nedan) |
--format string |
Tvinga en specifik utdataformat, t.ex. json |
--nowordwrap |
Inaktivera automatiskt ordwrap – användbart när du pipear utdata till skript |
--insecure |
Tillåt anslutning till ett register över HTTP (för privata/självvärdbaserade register) |
Överstyra modellparametrar utan en Modelfile (-p / –parameters)
Flaggan -p låter dig ändra inferensparametrar vid körning utan att skapa en Modelfile.
Du kan stapla flera -p flaggor:
# Öka kontextfönstret och sänk temperatur
ollama run qwen3:14b -p num_ctx=32768 -p temperature=0.5
# Kör en koduppgift med deterministisk utdata
ollama run devstral:24b -p temperature=0 -p num_ctx=65536
Vanliga parametrar du kan sätta så här:
| Parameter | Effekt |
|---|---|
num_ctx |
Kontextfönsterstorlek i token (standard är modellberoende, ofta 2048–4096) |
temperature |
Slumpmässighet: 0 = deterministisk, 1 = kreativ |
top_p |
Nukleus-samplinggräns |
top_k |
Begränsa ordboken till topp-K token |
num_predict |
Maximala token att generera (-1 = obegränsat) |
repeat_penalty |
Straff för upprepade token |
Flervalsinput i REPL
Omsluta text i trippel citattecken ("\"\"\") för att ange en flervalsfråga utan att skicka in tidigt:
>>> """Sammanfatta detta i en mening:
... Den snabba bruna foxen hoppade över den tröga hunden.
... Det hände på en tisdag.
... """
Multimodella modeller (bilder)
För visionkänsliga modeller (t.ex. gemma3, llava), skicka en bildsökväg direkt i frågan:
ollama run gemma3 "Vad finns i denna bild? /home/user/screenshot.png"
Generera inbäddningar via CLI
Inbäddningsmodeller utgår en JSON-array istället för text. Pipe text direkt för snabba en gångs inbäddningar:
echo "Hej världen" | ollama run nomic-embed-text
För produktionsinbäddningsarbetsbelastningar använd /api/embeddings REST-slutpunkten eller Python-klienten istället.
Tvinga JSON-utdata (–format)
ollama run llama3.2 --format json "Lista 5 huvudstäder som JSON"
Modellen instrueras att returnera giltig JSON. Användbart när du pipear utdata till jq eller ett skript som förväntar sig strukturerad data.
Ollama stop-kommando
Detta kommando stoppar den angivna körande modellen.
ollama stop llama3.1:8b-instruct-q8_0
Ollama evakuerar modeller automagiskt efter en viss tid.
Du kan ange denna tid, standard är 4 minuter.
Om du inte vill vänta på den återstående tiden, kan du vilja använda detta ollama stop-kommando.
Du kan också kasta ut modellen ur VRAM genom att anropa /generate API-slutpunkten med parametern keep_alive=0, se beskrivningen och exempel nedan.
Ollama ps-kommando
ollama ps visar aktuellt körande modeller och sessioner (nyttigt för att felsöka “varför är min VRAM full?”).
ollama ps
Exemplet på ollama ps-utdata är nedan:
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:20b 17052f91a42e 14 GB 100% GPU 4096 4 minuter från nu
Du ser här på min dator passar gpt-oss:20b in i min GPU:s 16 GB VRAM väldigt bra, och upptar endast 14 GB.
Om jag kör ollama run gpt-oss:120b och sedan anropar ollama ps, kommer resultatet inte vara så bra:
78% av lager är på CPU, och detta är bara med kontextfönstret 4096 token. Det skulle bli mer om jag behöver öka kontexten.
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:120b a951a23b46a1 66 GB 78%/22% CPU/GPU 4096 4 minuter från nu
Ollama launch-kommando (AI-kodintegreringar)
ollama launch är ett kommando introducerat i Ollama v0.15 (januari 2026) som ger dig nollkonfiguration, enradssättning för populära AI-kodassistenters som kör mot din lokala Ollama-server.
Varför använda ollama launch?
Före ollama launch, att ansluta en kodagent som Claude Code eller Codex till en lokal Ollama-bakgrund betydde manuellt inställa miljövariabler, peka verktyget till rätt API-slutpunkt och välja en kompatibel modell. ollama launch hanterar allt detta för dig interaktivt.
Om du redan kör Ollama lokalt och vill ha en agentisk kodassistent utan att betala för API-anrop eller skicka kod till molnet, är ollama launch snabbaste vägen dit.
Stödda integreringar
| Integration | Vad det är |
|---|---|
claude |
Anthropics Claude Code – agentisk kodassistent |
codex |
OpenAIs Codex CLI-kodassistent |
droid |
Factorys AI-kodagent |
opencode |
Opensource-kodassistent |
Grundläggande användning
# Interaktivt val – välj en integration från en meny
ollama launch
# Starta en specifik integration direkt
ollama launch claude
# Starta med en specifik modell
ollama launch claude --model qwen3-coder
# Konfigurera integrationen utan att starta den (nyttigt för att undersöka inställningar)
ollama launch droid --config
Rekommenderade modeller
Kodagenter behöver ett långt kontextfönster för att hålla hela filens kontext och flera omgångars konversationshistorik. Ollama rekommenderar modeller med minst 64 000 token av kontext:
| Modell | Anteckningar |
|---|---|
qwen3-coder |
Stark kodprestanda, lång kontext, kör lokalt |
glm-4.7-flash |
Snabb lokal alternativ |
devstral:24b |
Mistrals kodfokuserade modell |
Om din GPU inte passar in modellen, erbjuder Ollama också molnvärdade alternativ (t.ex. qwen3-coder:480b-cloud) som integrerar på samma sätt men dirigerar inferens till Ollamas molntjänst – kräver ollama signin.
Exempel: kör Claude Code lokalt med Ollama
# 1. Se till att modellen är tillgänglig
ollama pull qwen3-coder
# 2. Starta Claude Code mot den
ollama launch claude --model qwen3-coder
Ollama ställer in de nödvändiga miljövariablerna och startar Claude Code som pekar på http://localhost:11434 automatiskt.
Du kan sedan använda Claude Code exakt som du normalt gör – den enda skillnaden är att inferens sker på din egen hårdvara.
Prestandaknappar (OLLAMA_NUM_PARALLEL)
Om du ser köring eller timeout under belastning, är det första knappen att lära dig OLLAMA_NUM_PARALLEL.
OLLAMA_NUM_PARALLEL= hur många förfrågningar Ollama utför parallellt.- En högre värde kan öka genomströmmningen, men kan öka VRAM-tryck och latensspikar.
Snabb exempel:
OLLAMA_NUM_PARALLEL=2 ollama serve
För en fullständig förklaring (inklusive inställningsstrategier och felmoder), se:
Frigöra Ollama modell från VRAM (keep_alive)
När en modell laddas in i VRAM (GPU-minne), förblir den där även efter att du har slutfört användningen. För att explicit frigöra en modell från VRAM och frigöra GPU-minne, kan du skicka en begäran till Ollama API med keep_alive: 0.
- Frigör modell från VRAM med curl:
curl http://localhost:11434/api/generate -d '{"model": "MODELNAME", "keep_alive": 0}'
Byt ut MODELNAME mot ditt faktiska modellnamn, till exempel:
curl http://localhost:11434/api/generate -d '{"model": "qwen3:14b", "keep_alive": 0}'
- Frigör modell från VRAM med Python:
import requests
response = requests.post(
'http://localhost:11434/api/generate',
json={'model': 'qwen3:14b', 'keep_alive': 0}
)
Detta är särskilt användbart när:
- Du behöver frigöra GPU-minne för andra program
- Du kör flera modeller och vill hantera VRAM-användning
- Du har slutfört användningen av en stor modell och vill frigöra resurser omedelbart
Notera: keep_alive-parametern styr hur länge (i sekunder) en modell förblir laddad i minnet efter den sista förfrågan. Att sätta den till 0 frigör omedelbart modellen från VRAM.
Anpassa Ollama modeller (systemprompt, Modelfile)
-
Ställ in systemprompt: Inom Ollama REPL kan du ställa in en systemprompt för att anpassa modellens beteende:
>>> /set system För alla frågor svar i ren engelska undvik teknisk jargon så mycket som möjligt >>> /save ipe >>> /byeSedan, kör den anpassade modellen:
ollama run ipeDetta ställer in en systemprompt och sparar modellen för framtida användning.
-
Skapa anpassad modellfil: Skapa en textfil (t.ex.,
custom_model.txt) med följande struktur:FROM llama3.1 SYSTEM [Dina anpassade instruktioner här]Sedan, kör:
ollama create mymodel -f custom_model.txt ollama run mymodelDetta skapar en anpassad modell baserat på instruktionerna i filen".
Ollama signin och signout (registreringsautentisering)
ollama signin
ollama signout
ollama signin autentiserar din lokala Ollama-installation med Ollama-registret på ollama.com. När du har loggat in, lagrar klienten autentiseringsuppgifterna lokalt och återanvänder dem automatiskt för efterföljande kommandon.
Vad signin låter dig göra:
- Dra ner och ladda upp privata modeller från ditt konto eller organisation.
- Använd molnvärdade modeller (t.ex.
qwen3-coder:480b-cloud) som är för stora att köras lokalt. - Publicera modeller till registret med
ollama push.
Alternativ: API-nyckelautentisering
Om du kör Ollama i en CI-pipeline eller en headless-server där interaktiv ollama signin inte är praktiskt, skapa en API-nyckel i ditt Ollama-kontoinställningar och exponera den som en miljövariabel:
export OLLAMA_API_KEY=ollama_...
ollama pull myorg/private-model
OLLAMA_API_KEY-variabeln tas upp automatiskt av varje Ollama-kommando och API-begäran – det finns ingen behov av att köra ollama signin på varje maskin.
Använda Ollama run-kommando med filer (sammanfatta, omdirigera)
-
Sammanfatta text från en fil:
ollama run llama3.2 "Sammanfatta innehållet i denna fil i 50 ord." < input.txtDetta kommando sammanfattar innehållet i
input.txtmed hjälp av den angivna modellen. -
Logga modellsvaret till en fil:
ollama run llama3.2 "Berätta mig om förnyelsebar energi." > output.txtDetta kommando sparar modellens svar till
output.txt.
Ollama CLI-användningsfall (textgenerering, analys)
-
Textgenerering:
- Sammanfatta en stor textfil:
ollama run llama3.2 "Sammanfatta följande text:" < long-document.txt - Generera innehåll:
ollama run llama3.2 "Skriv en kort artikel om fördelarna med att använda AI i hälsovård." > article.txt - Svara på specifika frågor:
ollama run llama3.2 "Vad är de senaste trenderna inom AI, och hur kommer de att påverka hälsovård?"
.
- Sammanfatta en stor textfil:
-
Datahantering och analys:
- Klassificera text i positiv, negativ eller neutral känsla:
ollama run llama3.2 "Analysera känslon i denna kundrecension: 'Produkten är fantastisk, men leveransen var långsam.'" - Kategorisera text i fördefinierade kategorier: Använd liknande kommandon för att klassificera eller kategorisera text baserat på fördefinierade kriterier.
- Klassificera text i positiv, negativ eller neutral känsla:
Använda Ollama med Python (klient och API)
- Installera Ollama Python-bibliotek:
pip install ollama - Generera text med Python:
Detta kodavsnitt genererar text med den angivna modellen och prompten.
import ollama response = ollama.generate(model='gemma:2b', prompt='vad är en kvantbit?') print(response['response'])
För avancerad Python-integrering, utforska använda Ollamas Web Search API i Python, som täcker webbsökning, verktygskall och MCP-serverintegration. Om du bygger AI-driven appar, kan vår AI-kodassistent jämförelse hjälpa dig välja rätt verktyg för utveckling.
Söker du efter en webbaserad gränssnitt? Öppna WebUI ger ett självvärdbaserat gränssnitt med RAG-funktioner och flera användarstöd. För högpresterande produktionsdistributioner, överväg vLLM som alternativ. För att jämföra Ollama med andra lokala och molna LLM-infrastrukturval, se LLM Hosting: Lokalt, självvärdbaserat & Molninfrastruktur jämförd.
Några användbara länkar
Konfiguration och hantering
Alternativ och jämförelser
- Lokal LLM-värd: Komplett 2026-guide - Ollama, vLLM, LocalAI, Jan, LM Studio & Mer
- vLLM snabbstart: Högrepresterande LLM-server
- Docker Model Runner vs Ollama: Vilken ska du välja?
- Första tecknen på Ollama Enshittification
Prestanda och hårdvara
- Hur Ollama hanterar parallella förfrågningar
- Hur Ollama använder Intel CPU-prestanda och effektiva kärnor
- NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama Prestandajämförelse
- DGX Spark vs. Mac Studio: En praktisk, prischeckad titt på NVIDIA:s personliga AI-superdator
Integration och utveckling
- Använda Ollama Web Search API i Python
- AI-kodassistent jämförelse
- Open WebUI: Självvärdbaserat LLM-gränssnitt
- Öppen källkod Chat UI:er för LLM:er på lokala Ollama-instanser
- Begränsa LLM:er med strukturerad utdata: Ollama, Qwen3 & Python eller Go
- Integrera Ollama med Python: REST API och Python-klientexempel
- Go SDK:er för Ollama - jämförelse med exempel