AI - Page 5 - Rost Glukhov | Personlig webbplats och teknisk blogg

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestandajämförelse

Jag hittade några intressanta prestandatest av GPT-OSS 120b som kör på Ollama över tre olika plattformar: NVIDIA DGX Spark, Mac Studio, och RTX 4080. GPT-OSS 120b-modellen från Ollama-biblioteket väger 65 GB, vilket innebär att den inte passar in i den 16 GB VRAM som finns på en RTX 4080 (eller den nyare RTX 5080).

Bygg MCP-servrar i Python: Guide för webbsökning och skrapning

Model Context Protocol (MCP) revolutionerar hur AI-assistenter interagerar med externa datorkällor och verktyg. I den här guiden kommer vi att utforska hur man bygger MCP servrar i Python, med exempel som fokuserar på webbsökning och skrapning.

Docker Model Runner Cheatsheet: Kommandon & Exempel

Docker Model Runner (DMR) är Docks officiella lösning för att köra AI-modeller lokalt, introducerad i april 2025. Den här cheatsheten ger en snabb referens för alla viktiga kommandon, konfigurationer och bästa praxis.

Docker Model Runner vs Ollama (2026): Vilken är bäst för lokala LLMs?

Att köra stora språkmodeller (LLMs) lokalt har blivit alltmer populärt för skydd av integritet, kostnadsstyrning och möjlighet att använda modeller offline. Landskapet förändrades betydligt i april 2025 när Docker introducerade Docker Model Runner (DMR), sin officiella lösning för distribution av AI-modeller.

LLM-ASIC:ar och specialiserade inferenschips (varför de är viktiga)

Framtiden för AI handlar inte bara om smartare modeller. Det handlar också om kiselbaserad hårdvara som matchar hur dessa modeller faktiskt serveras. Specialiserad hårdvara för LLM-inferens följer en väg som påminner om Bitcoin-gruvdrifts övergång från GPU till specialbyggda ASIC, men med hårdare begränsningar eftersom modeller och precisionsschemat ständigt utvecklas.

DGX Spark jämfört med Mac Studio: En prisjämförelse av NVIDIAs personliga AI-superdator

NVIDIA DGX Spark är en realitet, till salu 15 oktober 2025, och riktar sig mot CUDA-utvecklare som behöver lokal LLM-arbete med en integrerad NVIDIA AI-stack. US MSRP $3 999; UK/DE/JP-pris är högre på grund av moms och kanal. AUD/KRW-priser är ännu inte allmänt postade.

Ollama Go-klienter: SDK-jämförelse och Qwen3/GPT-OSS-exempel

Den här guiden ger en omfattande översikt över tillgängliga Go SDK:er för Ollama och jämför deras funktionssätt.

Här är en jämförelse mellan Qwen3:30b och GPT-OSS:20b fokuserande på instruktionssäljning och prestandaparametrar, specifikationer och hastighet.

Ollama GPT-OSS Strukturerade utgångsproblem

Ollama’s GPT-OSS modeller har återkommande problem med att hantera strukturerad utdata, särskilt när de används med ramverk som LangChain, OpenAI SDK, vllm och andra.

Begränsa LLMs med strukturerad utdata: Ollama, Qwen3 & Python eller Go

Stora språkmodeller (LLMs) är kraftfulla, men i produktion vill vi sällan ha fritt formulerade stycken. Istället vill vi ha förutsägbart data: attribut, fakta eller strukturerade objekt som du kan mata in i en app. Det är LLM Strukturerad Utdata.

Minnesallokering och modellschemaläggning i Ollama nya versionen - v0.12.1

Här jämför jag hur mycket VRAM den nya versionen av Ollama allokerar för modellen hur mycket VRAM den nya versionen av Ollama allokerar för modellen med den tidigare versionen av Ollama. Den nya versionen är sämre.

Ollama Enshittification – de tidiga tecknen

Ollama har snabbt blivit en av de mest populära verktygen för att köra LLM:er lokalt. Dess enkla CLI och streamlina modellhantering har gjort det till ett förfrågat alternativ för utvecklare som vill arbeta med AI-modeller utanför molnet.

Chattgränssnitt för lokala Ollama-instanser

Lokalt värd Ollama möjliggör att köra stora språkmodeller på din egen dator, men att använda den via kommandoraden är inte användarvänligt. Här är flera öppen källkodprojekt som tillhandahåller ChatGPT-stilgränssnitt som ansluter till en lokal Ollama.

Populäritet hos programmeringsspråk och verktyg för mjukvaruutvecklare

The Pragmatic Engineer-nytt publicerade för några dagar sedan undersökningsstatistik om populariteten för programmeringsspråk, IDE:er, AI-verktyg och andra data för mitten av 2025.

NVIDIA DGX Spark – ny liten AI-superdator

Nvidia är på väg att släppa NVIDIA DGX Spark – en liten AI-superdator med Blackwell-arkitektur, 128+ GB enhetligt minne och 1 PFLOPS AI-prestation. En bra enhet att köra LLM på.

Omrangering av dokument med Ollama och Qwen3 Reranker-modellen – i Go

Eftersom standard Ollama inte har en direkt rerank-API, behöver du implementera omrankning med Qwen3 Reranker i GO genom att generera inbäddningar (embeddings) för par av fråga-dokument och sedan betygsätta dem.