LLM - Page 5 - Rost Glukhov | Persoonlijke website en technische blog

MCP-servers bouwen in Python: WebSearch & Scrape gids

De Model Context Protocol (MCP) is revolutionair voor de manier waarop AI-assistenten met externe gegevensbronnen en tools interacteren. In deze gids bespreken we hoe je MCP-servers in Python kunt bouwen, met voorbeelden gericht op webzoekfuncties en web scraping.

HTML naar Markdown converteren met Python: een uitgebreid overzicht

HTML naar Markdown converteren is een fundamentele taak in moderne ontwikkelingsworkflows, vooral wanneer je webinhoud voor Large Language Models (LLMs), documentatiesystemen of statische sitegeneratoren zoals Hugo voorbereidt. Deze gids is onderdeel van onze Documentatie-tools in 2026: Markdown, LaTeX, PDF en printworkflows hub.

Docker Model Runner Cheatsheet: Opdrachten & Voorbeelden

Docker Model Runner (DMR) is de officiële oplossing van Docker voor het lokaal uitvoeren van AI-modellen, geïntroduceerd in april 2025. Deze cheatsheet biedt een snelle verwijzing naar alle essentiële opdrachten, configuraties en beste praktijken.

Docker Model Runner vs Ollama (2026): Welk van de twee is beter voor lokale LLMs?

Het uitvoeren van grote taalmodellen (LLMs) lokaal is steeds populairder geworden vanwege privacy, kostcontrole en offlinefunctionaliteiten. Het landschap is aanzienlijk veranderd in april 2025 toen Docker Docker Model Runner (DMR) introduceerde, hun officiële oplossing voor AI-modellering.

LLM-ASIC's en gespecialiseerde inferentiechips (waarom ze belangrijk zijn)

De toekomst van AI draait niet alleen om slimmer [modellen](https://www.glukhov.org/nl/rag/embeddings/qwen3-embedding-qwen3-reranker-on-ollama/ “Qwen3 embedding en reranker modellen - state-of-the-art prestaties). Het gaat ook om silicium dat aansluit op de manier waarop deze modellen daadwerkelijk worden aangeboden. Gespecialiseerde hardware voor LLM-inferentie volgt een pad dat doet denken aan de verschuiving in Bitcoin-mining van GPUs naar doelgerichte ASICs, maar met strengere beperkingen omdat modellen en precisie-formules voortdurend evolueren.

DGX Spark versus Mac Studio: Een prijsgecheckte blik op NVIDIA's persoonlijke AI-supercomputer

NVIDIA DGX Spark is een feit, verkrijgbaar vanaf 15 oktober 2025, en is gericht op CUDA-ontwikkelaars die lokale LLM-werklasten nodig hebben met een geïntegreerde NVIDIA AI-stack. De US MSRP bedraagt $3.999; de retailprijs in UK/DE/JP is hoger door BTW en kanaalkosten. Publieke stickerprijzen voor AUD/KRW zijn nog niet algemeen gepubliceerd.

Hier is een vergelijking tussen Qwen3:30b en GPT-OSS:20b
met aandacht voor instructievolgzaamheid en prestatieparameters, specificaties en snelheid.

Ollama integreren met Python: REST API- en Python-clientvoorbeelden

In dit bericht gaan we twee manieren bespreken om je Python-toepassing te verbinden met Ollama: 1. Via de HTTP REST API; 2. Via de officiële Ollama Python-bibliotheek.

Ollama GPT-OSS Structured Output Problemen

Ollama’s GPT-OSS modellen hebben herhalende problemen met het verwerken van gestructureerde uitvoer, vooral wanneer ze worden gebruikt met frameworks zoals LangChain, OpenAI SDK, vllm en anderen.

Gestructureerde vergelijking van uitvoer over populaire LLM-aanbieders - OpenAI, Gemini, Anthropic, Mistral en AWS Bedrock

Hier is een zij-aan-zij vergelijking van de ondersteuning voor gestructureerde uitvoer (het verkrijgen van betrouwbare JSON) bij populaire LLM-aanbieders, plus minimale Python-voorbeelden

Beperken van LLMs met gestructureerde uitvoer: Ollama, Qwen3 & Python of Go

Large Language Models (LLMs) zijn krachtig, maar in productie willen we zelden vrije tekst. In plaats daarvan willen we voorspelbare data: kenmerken, feiten of gestructureerde objecten die je kunt voeden in een app. Dat is LLM Structured Output.

Geheugenallocatie en modelplanning in de nieuwe versie van Ollama - v0.12.1

Hier vergelijk ik hoeveel VRAM de nieuwe versie van Ollama toewijst aan het model hoeveel VRAM nieuwe versie van Ollama toewijst aan het model met de vorige Ollama-versie. De nieuwe versie is erger.

Ollama Enshittification - De vroege tekenen

Ollama is snel geworden tot een van de meest populaire tools om LLMs lokaal uit te voeren. Zijn eenvoudige CLI en gestroomlijnde modelbeheer hebben het tot de favoriete keuze gemaakt voor ontwikkelaars die willen werken met AI-modellen buiten de cloud.

Chatinterface voor lokale Ollama-instanties

Locally geïnstalleerde Ollama maakt het mogelijk om grote taalmodellen op je eigen computer te draaien, maar het gebruik ervan via de opdrachtnaam is niet gebruikersvriendelijk. Hieronder vind je verschillende open-source projecten die ChatGPT-stijl interfaces bieden die verbinding maken met een lokale Ollama.

NVIDIA DGX Spark – een nieuwe, compacte AI-supercomputer

Nvidia staat op het punt om de NVIDIA DGX Spark uit te brengen: een klein AI-supercomputerapparaat gebaseerd op de Blackwell-architectuur, met meer dan 128 GB unified RAM en een AI-prestatie van 1 PFLOPS. Een leuk apparaat om LLM’s op uit te voeren.

Model Context Protocol (MCP), en aantekeningen over het implementeren van een MCP-server in Go

Hier hebben we een beschrijving van het Model Context Protocol (MCP), korte aantekeningen over hoe je een MCP-server in Go kunt implementeren, inclusief berichtstructuur en protocolespecificaties.