Ollama GPT-OSS Problem med Strukturerad Utdata
Inte särskilt trevligt.
Ollamas GPT-OSS-modeller har återkommande problem med hantering av strukturerad utdata, särskilt när de används med ramverk som LangChain, OpenAI SDK, vllm och andra.
Inte särskilt trevligt.
Ollamas GPT-OSS-modeller har återkommande problem med hantering av strukturerad utdata, särskilt när de används med ramverk som LangChain, OpenAI SDK, vllm och andra.
Några sätt att få strukturerad utdata från Ollama
Stora språkmodeller (LLMs) är kraftfulla, men i produktion vill vi sällan ha fritt formulerade stycken. Istället vill vi ha förutsägbart data: attribut, fakta eller strukturerade objekt som du kan mata in i en app. Det är LLM Strukturerad Utdata.
Min egen test av modellplanering i Ollama
Här jämför jag hur mycket VRAM den nya versionen av Ollama tilldelar modellen (https://www.glukhov.org/sv/post/2025/09/memory-allocation-in-ollama-new-version/ “Ollama VRAM-allokering”) jämfört med tidigare version. Den nya versionen är sämre.
Min syn på det nuvarande tillståndet för Ollama-utveckling
Ollama har snabbt blivit ett av de mest populära verktygen för att köra LLMs lokalt. Dess enkla CLI och strömlinjeformade modellhantering har gjort det till ett förstahandsval för utvecklare som vill arbeta med AI-modeller utanför molnet. Men som med många lovande plattformar finns det redan tecken på Enshittification:
Översikt över de mest framträdande gränssnitten för Ollama år 2025
Lokalt värdade Ollama gör det möjligt att köra stora språkmodeller på din egen dator, men att använda det via kommandoraden är inte användarvänligt. Här är flera öppna källkodsprojekt som erbjuder ChatGPT-stilgränssnitt som ansluter till ett lokalt Ollama.
Jämförelse av mjukvaruutvecklingsverktyg och programmeringsspråk
The Pragmatic Engineer-nytt publicerade för några dagar sedan undersökningsstatistik om populariteten för programmeringsspråk, IDE:er, AI-verktyg och andra data för mitten av 2025.
Under juli 2025 bör det snart vara tillgängligt
Nvidia står inför att släppa NVIDIA DGX Spark - en liten AI-superdator på Blackwell-arkitektur med 128+GB enhetligt RAM och 1 PFLOPS AI-prestanda. En trevlig enhet för att köra LLMs.
Implementerar RAG? Här är några kodbitar på Go - 2...
Ett standard Ollama-verktyg har ingen direkt rerank-API, så du måste implementera reranking med Qwen3 Reranker i GO genom att generera inbäddningar för fråga-dokument-par och poängsätta dem.
qwen3 8b, 14b och 30b, devstral 24b, mistral small 24b
I den här testen jämför jag hur olika LLMs som är värdade på Ollama översätter Hugo-sidor från engelska till tyska. Tre sidor som jag testade handlade om olika ämnen och hade trevlig markdown med struktur: rubriker, listor, tabeller, länkar etc.
Implementerar RAG? Här är några kodesnuttar i Golang...
Den här lilla Go-kodexemplet för omrankning använder Ollama för att generera inbäddningar för frågan och för varje kandidatdokument, sedan sorterar i fallande ordning efter cosinuslikhet.
Tänker du på att installera en andra GPU för LLMs?
Hur PCIe-lanes påverkar LLM-prestanda? Beroende på uppgiften. Vid träning och multi-gpu-inferens - prestandafallet är betydande.
LLM för att extrahera text från HTML...
I biblioteket med Ollama-modeller finns det modeller som kan konvertera HTML-innehåll till Markdown, vilket är användbart för uppgifter som innehållskonvertering.
Hur skiljer de sig?
Cursor AI vs GitHub Copilot vs Cline AI vs...
Listar här några AI-assisterade kodverktyg och AI-kodassistenter och deras bra sidor.
Kort lista över LLM-leverantörer
Användning av LLMs är inte särskilt dyrt, kanske finns det inte ens behov av att köpa nya fantastiska GPU:er. Här är en lista över LLM-leverantörer i molnet med de LLMs de erbjuder.
Ollama på Intel CPU Effektiva vs Prestandakärnor
Jag har en teori att jag vill testa - om användningen av alla kärnor på en Intel CPU skulle öka hastigheten på LLMs?
Det här plågar mig att den nya gemma3 27-bitarsmodellen (gemma3:27b, 17GB på ollama) inte passar in i min GPUs 16GB VRAM och delvis körs på CPU.