AI - Page 6 - Rost Glukhov | Persoonlijke website en technische blog

LLM-kosten verlagen: strategieën voor tokenoptimalisatie

Tokenoptimalisatie is de cruciale vaardigheid die kostenefficiënte LLM-toepassingen scheidt van budgetverslindende experimenten.

Immich is een revolutionaire open-source, zelfgehost oplossing voor het beheren van foto’s en video’s die je volledige controle geeft over je herinneringen. Met functies die concurreren met Google Photos - waaronder AI-gestuurde gezichtsherkenning, slimme zoekfuncties en automatische mobiele back-up - terwijl je data privé en veilig blijft op je eigen server.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestatielijst

Ik vond enkele interessante prestatietests van GPT-OSS 120b die draaien op Ollama over drie verschillende platforms: NVIDIA DGX Spark, Mac Studio, en RTX 4080. De GPT-OSS 120b model uit de Ollama bibliotheek weegt 65 GB, wat betekent dat het niet past in de 16 GB VRAM van een RTX 4080 (of de nieuwere RTX 5080).

MCP-servers bouwen in Python: WebSearch & Scrape gids

De Model Context Protocol (MCP) is revolutionair voor de manier waarop AI-assistenten met externe gegevensbronnen en tools interacteren. In deze gids bespreken we hoe je MCP-servers in Python kunt bouwen, met voorbeelden gericht op webzoekfuncties en web scraping.

Docker Model Runner Cheatsheet: Opdrachten & Voorbeelden

Docker Model Runner (DMR) is de officiële oplossing van Docker voor het lokaal uitvoeren van AI-modellen, geïntroduceerd in april 2025. Deze cheatsheet biedt een snelle verwijzing naar alle essentiële opdrachten, configuraties en beste praktijken.

Docker Model Runner vs Ollama (2026): Welk van de twee is beter voor lokale LLMs?

Het uitvoeren van grote taalmodellen (LLMs) lokaal is steeds populairder geworden vanwege privacy, kostcontrole en offlinefunctionaliteiten. Het landschap is aanzienlijk veranderd in april 2025 toen Docker Docker Model Runner (DMR) introduceerde, hun officiële oplossing voor AI-modellering.

LLM-ASIC's en gespecialiseerde inferentiechips (waarom ze belangrijk zijn)

De toekomst van AI draait niet alleen om slimmer [modellen](https://www.glukhov.org/nl/rag/embeddings/qwen3-embedding-qwen3-reranker-on-ollama/ “Qwen3 embedding en reranker modellen - state-of-the-art prestaties). Het gaat ook om silicium dat aansluit op de manier waarop deze modellen daadwerkelijk worden aangeboden. Gespecialiseerde hardware voor LLM-inferentie volgt een pad dat doet denken aan de verschuiving in Bitcoin-mining van GPUs naar doelgerichte ASICs, maar met strengere beperkingen omdat modellen en precisie-formules voortdurend evolueren.

DGX Spark versus Mac Studio: Een prijsgecheckte blik op NVIDIA's persoonlijke AI-supercomputer

NVIDIA DGX Spark is een feit, verkrijgbaar vanaf 15 oktober 2025, en is gericht op CUDA-ontwikkelaars die lokale LLM-werklasten nodig hebben met een geïntegreerde NVIDIA AI-stack. De US MSRP bedraagt $3.999; de retailprijs in UK/DE/JP is hoger door BTW en kanaalkosten. Publieke stickerprijzen voor AUD/KRW zijn nog niet algemeen gepubliceerd.

Go-clients voor Ollama: SDK-vergelijking en voorbeelden met Qwen3/GPT-OSS

Deze gids biedt een uitgebreid overzicht van beschikbare Go SDKs voor Ollama en vergelijkt hun functionaliteiten.

Hieronder volgt een vergelijking tussen Qwen3:30b en GPT-OSS:20b, met de nadruk op instructievolging en prestatieparameters, specificaties en snelheid.

Ollama GPT-OSS Structured Output Problemen

Ollama’s GPT-OSS modellen hebben herhalende problemen met het verwerken van gestructureerde uitvoer, vooral wanneer ze worden gebruikt met frameworks zoals LangChain, OpenAI SDK, vllm en anderen.

LLM’s beperken met gestructureerde output: Ollama, Qwen3 en Python of Go

Grote Taalmodellen (LLM’s) zijn krachtig, maar in productieomgevingen willen we zelden vrij tekst. In plaats daarvan willen we voorspelbare data: attributen, feiten of gestructureerde objecten die je in een applicatie kunt laden. Dat is Gestructureerde Output van LLM’s.

Geheugenallocatie en modelplanning in de nieuwe versie van Ollama - v0.12.1

Hier vergelijk ik hoeveel VRAM de nieuwe versie van Ollama toewijst aan het model hoeveel VRAM nieuwe versie van Ollama toewijst aan het model met de vorige Ollama-versie. De nieuwe versie is erger.

Ollama Enshittification - De vroege tekenen

Ollama is snel geworden tot een van de meest populaire tools om LLMs lokaal uit te voeren. Zijn eenvoudige CLI en gestroomlijnde modelbeheer hebben het tot de favoriete keuze gemaakt voor ontwikkelaars die willen werken met AI-modellen buiten de cloud.

Chatinterface voor lokale Ollama-instanties

Locally geïnstalleerde Ollama maakt het mogelijk om grote taalmodellen op je eigen computer te draaien, maar het gebruik ervan via de opdrachtnaam is niet gebruikersvriendelijk. Hieronder vind je verschillende open-source projecten die ChatGPT-stijl interfaces bieden die verbinding maken met een lokale Ollama.

Populariteit van programmeertalen en softwareontwikkelings-tools

Het Pragmatic Engineer letter verscheen een paar dagen geleden met een enquête over de populariteit van programmeertalen, IDEs, AI-tools en andere gegevens voor het midden van 2025.

AI

LLM-kosten verlagen: strategieën voor tokenoptimalisatie

Self-Hosting Immich: Privé foto cloud

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Ollama-prestatielijst

MCP-servers bouwen in Python: WebSearch & Scrape gids

Docker Model Runner Cheatsheet: Opdrachten & Voorbeelden

Docker Model Runner vs Ollama (2026): Welk van de twee is beter voor lokale LLMs?

LLM-ASIC's en gespecialiseerde inferentiechips (waarom ze belangrijk zijn)

DGX Spark versus Mac Studio: Een prijsgecheckte blik op NVIDIA's persoonlijke AI-supercomputer

Go-clients voor Ollama: SDK-vergelijking en voorbeelden met Qwen3/GPT-OSS

Vergelijking: Qwen3:30b vs GPT-OSS:20b

Ollama GPT-OSS Structured Output Problemen

LLM’s beperken met gestructureerde output: Ollama, Qwen3 en Python of Go

Geheugenallocatie en modelplanning in de nieuwe versie van Ollama - v0.12.1

Ollama Enshittification - De vroege tekenen

Chatinterface voor lokale Ollama-instanties

Populariteit van programmeertalen en softwareontwikkelings-tools