LLM

Begränsa LLMs med strukturerad utdata: Ollama, Qwen3 & Python eller Go

Stora språkmodeller (LLMs) är kraftfulla, men i produktion vill vi sällan ha fritt formulerade stycken. Istället vill vi ha förutsägbart data: attribut, fakta eller strukturerade objekt som du kan mata in i en app. Det är LLM Strukturerad Utdata.

Minnesallokering och modellschemaläggning i Ollama nya versionen - v0.12.1

Här jämför jag hur mycket VRAM den nya versionen av Ollama allokerar för modellen hur mycket VRAM den nya versionen av Ollama allokerar för modellen med den tidigare versionen av Ollama. Den nya versionen är sämre.

Ollama Enshittification – de tidiga tecknen

Ollama har snabbt blivit en av de mest populära verktygen för att köra LLM:er lokalt. Dess enkla CLI och streamlina modellhantering har gjort det till ett förfrågat alternativ för utvecklare som vill arbeta med AI-modeller utanför molnet.

Chattgränssnitt för lokala Ollama-instanser

Lokalt värd Ollama möjliggör att köra stora språkmodeller på din egen dator, men att använda den via kommandoraden är inte användarvänligt. Här är flera öppen källkodprojekt som tillhandahåller ChatGPT-stilgränssnitt som ansluter till en lokal Ollama.

NVIDIA DGX Spark - ny liten AI-superdator

Nvidia står inför att släppa NVIDIA DGX Spark - en liten AI-superdator på Blackwell-arkitektur med 128+GB enhetligt RAM och 1 PFLOPS AI-prestanda. En trevlig enhet för att köra LLMs.

Modellkontextprotokoll (MCP) och anteckningar om implementering av MCP-server i Go

Här har vi en beskrivning av The Model Context Protocol (MCP), korta anteckningar om hur man implementerar en MCP-server i Go, inklusive meddelandestruktur och protokollspecificeringar.

Omrankning av dokument med Ollama och Qwen3 Reranker-modellen - i Go

Ett standard Ollama-verktyg har ingen direkt rerank-API, så du måste implementera reranking med Qwen3 Reranker i GO genom att generera inbäddningar för fråga-dokument-par och poängsätta dem.

Jämförelse av kvaliteten på Hugo-sidöversättning – LLM:er på Ollama

I denna test jämför jag hur olika LLM:er som är värd på Ollama översätter Hugo-sidor från engelska till tyska: jämföra hur olika LLM:er värd på Ollama översätter Hugo-sida.

Omrankning av texter med Ollama och Qwen3 Embedding LLM - i Go

Den här lilla Go-kodexemplet för omrankning använder Ollama för att generera inbäddningar för frågan och för varje kandidatdokument, sedan sorterar i fallande ordning efter cosinuslikhet.

Qwen3 Embedding & Reranker Modeller på Ollama: State-of-the-Art Prestanda

Modellerna för Qwen3 Embedding och Reranker (https://www.glukhov.org/sv/rag/embeddings/qwen3-embedding-qwen3-reranker-on-ollama/ “Qwen3 Embedding och Reranker modeller på ollama”) är de senaste lanseringarna i Qwen-familjen, specifikt utformade för avancerade textembedding-, återvinning- och omrankningstjänster.

LLM-prestanda och PCIe-lan: Viktiga överväganden

Hur påverkar PCIe-laner LLM-prestanda? Beroende på uppgiften. För träning och fler-GPU-inferens – prestandaförändringen är betydande.

Konvertera HTML-innehåll till Markdown med hjälp av LLM och Ollama

I Ollama modellbiblioteket finns det modeller som kan konvertera HTML-innehåll till Markdown, vilket är användbart för innehållskonverteringsuppgifter. Den här guiden är en del av vår Dokumentationsverktyg 2026: Markdown, LaTeX, PDF & Skrivningsflöden hub.

Sökning vs Deepsearch vs djupgående forskning

Sökning är bäst för snabb och rak informationshämtning med hjälp av nyckelord.
Djup Sökning utmärker sig genom att förstå kontext och avsikt, vilket ger mer relevanta och omfattande resultat för komplexa frågor.

Listar här några AI-assisterade kodverktyg och AI-kodassistenter och deras bra sidor.

Användning av LLM:er är inte särskilt kostsam, det kan inte behövas köpa nya fantastiska GPU:er. Här är en lista över LLM-leverantörer i molnet med LLM:er de värdar.

Test: Hur Ollama använder Intel CPU-prestanda och effektiva kärnor

Jag har en teori att testa – om man använder alla kärnor på Intel CPU skulle det öka hastigheten hos LLMs? Det är irriterande att den nya gemma3 27-bit model (gemma3:27b, 17GB på ollama) inte passar in i min GPU:s 16GB VRAM och delvis kör på CPU.

Begränsa LLMs med strukturerad utdata: Ollama, Qwen3 & Python eller Go

Minnesallokering och modellschemaläggning i Ollama nya versionen - v0.12.1

Ollama Enshittification – de tidiga tecknen

Chattgränssnitt för lokala Ollama-instanser

NVIDIA DGX Spark - ny liten AI-superdator

Modellkontextprotokoll (MCP) och anteckningar om implementering av MCP-server i Go

Omrankning av dokument med Ollama och Qwen3 Reranker-modellen - i Go

Jämförelse av kvaliteten på Hugo-sidöversättning – LLM:er på Ollama

Omrankning av texter med Ollama och Qwen3 Embedding LLM - i Go

Qwen3 Embedding & Reranker Modeller på Ollama: State-of-the-Art Prestanda

LLM-prestanda och PCIe-lan: Viktiga överväganden

Konvertera HTML-innehåll till Markdown med hjälp av LLM och Ollama

Sökning vs Deepsearch vs djupgående forskning

Jämförelse av AI-kodningsassistenter

molntjänstleverantörer för LLM

Test: Hur Ollama använder Intel CPU-prestanda och effektiva kärnor