LLM - Rost Glukhov | Persoonlijke website en technische blog

Llama-Server-routermodus: dynamisch wisselen van modellen zonder herstart

Lang had llama.cpp een opvallende beperking:
je kon slechts één model per proces bedienen, en om te wisselen moest je herstarten.

Claude Skills en SKILL.md voor ontwikkelaars: VS Code, JetBrains, Cursor

De meeste teams misbruiken Claude Skills op één van de twee manieren. Ze maken van SKILL.md ofwel een stortbak, of ze stappen nooit over naar het gebruik van grote, gekopieerde en geplakte prompts.

Hermes AI-assistentvaardigheden voor echte productie-omgevingen

Hermes AI-assistent, officieel gedocumenteerd als Hermes Agent, is niet gepositioneerd als een simpele chat-wrapper.

OpenClaw Skills-ecosysteem en praktische productiekeuzes

OpenClaw heeft twee extensieverhalen, die elkaar makkelijk kunnen verwisselen.

Plugins breiden de runtime uit. Skills breiden het gedrag van de agent uit.

OpenClaw-plug-ins — Ecosysteemgids en praktische keuzes

Dit artikel gaat over OpenClaw-plug-ins — native gateway-pakketten die kanalen, modelproviders, tools, spraak, geheugen, media, webzoeken en andere runtime-oppervlakken toevoegen.

OpenClaw-productieopstellingen met plugins en skills

OpenClaw lijkt in demonstraties simpel. In productie wordt het een systeem.

Anthropic sluit de Claude-kloof voor agenttools

De stille achterdeur die een golf van agent-experimenten mogelijk maakte, is nu gesloten.

Snelle start met Vane (Perplexica 2.0), Ollama en llama.cpp

Vane is een van de meest pragmatische opties binnen het domein van “AI-zoekmachines met bronvermelding”: een zelfgehoste antwoorden-engine die live web-ophaal met lokale of cloud-LLM’s combineert, waarbij de volledige stack onder uw controle blijft.

Installatie en configuratie van Claude Code voor Ollama en llama.cpp, plus prijzen

Claude Code is geen autocomplete met beter marketing. Het is een agentisch codeerinstrument: het leest uw codebase, bewerkte bestanden, voert commando’s uit en integreert met uw ontwikkeltools.

Hermes AI-assistent: installatie, configuratie, werkwijze en probleemoplossing

Hermes Agent is een zelfgehoste, model-onafhankelijke AI-assistent die lokaal op een machine of een goedkope VPS draait, werkt via terminal- en messaging-interfaces en in de loop der tijd verbetert door herhaalde taken om te zetten in herbruikbare vaardigheden.

TGI - Text Generation Inference - Installeren, configureren en oplossen van problemen

Text Generation Inference (TGI) heeft een zeer specifieke energie. Het is niet de nieuwste speler op de inference-straat, maar het is wel degene die al heeft geleerd hoe productie faalt en

LLM-benchmarks met 16 GB VRAM in llama.cpp (snelheid en context)

Hier vergelijk ik de snelheid van verschillende LLMs die draaien op een GPU met 16 GB VRAM en kies ik de beste optie voor self-hosting.

RTX 5090 in Australië: Prijzen, voorraad en realiteit in maart 2026

Australië heeft voorraad RTX 5090. Amper. En als je er eentje vindt, betaal je een premie die los staat van de realiteit.

Op afstand toegang tot Ollama via Tailscale of WireGuard, zonder openbare poorten.

Ollama is het meest tevreden wanneer het wordt behandeld als een lokale daemon: de CLI en uw apps communiceren met een loopback HTTP API, en de rest van het netwerk komt er nooit achter dat het bestaat.

Ollama in Docker Compose met GPU en persistente modelopslag

Ollama werkt uitstekend op bare metal. Het wordt nog interessanter wanneer je het als een service behandelt: een stabiel eindpunt, vastgezet versies, persistente opslag en een GPU die ofwel beschikbaar is of niet.

Ollama achter een reverse proxy met Caddy of Nginx voor HTTPS-streaming

Ollama achter een reverse proxy draaien is de eenvoudigste manier om HTTPS, optionele toegangscontrole en voorspelbaar streamgedrag te krijgen.