Self-Hosting

Alle llama.cpp-routermodellen opnieuw laden zonder opnieuw te starten

Routermodus van llama.cpp is een van de meest nuttige wijzigingen aan llama-server in jaren. Het geeft lokale LLM-beheerders eindelijk iets dat lijkt op de modelbeheerservaring die mensen verwachten van Ollama, terwijl het de ruwe prestaties en lage-level controle behoudt die llama.cpp in de eerste plaats de moeite waard maken.

Referentie voor parameters voor agentic LLM-inferentie voor Qwen en Gemma

Deze pagina is een praktische referentie voor het afstemmen van agentische LLM-inferentie (temperatuur, top_p, top_k, penalties en hoe deze interacteren in meervoudige stappen en workflows met veel hulpmiddelen).

Hermes-spraakbesturing vanaf uw telefoon

Je chat al met Hermes Agent via je telefoon met tekst. Nu wil je er direct mee praten en gesproken antwoorden terugkrijgen. Dat is meestal de juiste zet, zeker als je al Hermes als een persistente, zelf gehoste assistent gebruikt. Het typen van lange prompts op een klein scherm is traag en foutgevoelig.

Praktische gids van NemoClaw voor veilige OpenClaw-operaties in 2026

De meeste AI-agent-stacks behandelen beveiliging nog steeds als een reparatie na de demonstratie. NemoClaw begint van het tegenovergestelde uitgangspunt en maakt isolatie, beleid en routing vanaf dag één tot de standaard.

Kennismanagement in 2026: PKM-tools, self-hosted wikis en digitale systemen

Persoonlijke kennismanagement omvat Obsidian, Logseq, DokuWiki, Zettelkasten en PARA — de juiste keuze hangt af van of je een lokale notengraf, een zelfgehoste wiki of een workflow gestuurd door een outliner wilt.

Claude, OpenClaw en het einde van vaste prijsmodellen voor agents

De stille achterdeur die een golf van experimenten met agents mogelijk maakte, is nu gesloten.

Snelle start met Vane (Perplexica 2.0), Ollama en llama.cpp

Vane is een van de meest pragmatische opties binnen het domein van “AI-zoekmachines met bronvermelding”: een zelfgehoste antwoorden-engine die live web-ophaal met lokale of cloud-LLM’s combineert, waarbij de volledige stack onder uw controle blijft.

TGI - Text Generation Inference - Installeren, configureren en oplossen van problemen

Text Generation Inference (TGI) heeft een zeer specifieke energie. Het is niet de nieuwste speler op de inference-straat, maar het is wel degene die al heeft geleerd hoe productie faalt en

LLM-benchmarks met 16 GB VRAM met behulp van llama.cpp (snelheid en context)

Hier vergelijk ik de snelheid van verschillende LLM’s die op een GPU met 16 GB VRAM draaien, en kies ik de beste optie voor zelfhosting.

RTX 5090 in Australië: Prijzen, voorraad en realiteit in maart 2026

Australië heeft voorraad RTX 5090. Amper. En als je er eentje vindt, betaal je een premie die los staat van de realiteit.

Op afstand toegang tot Ollama via Tailscale of WireGuard, zonder openbare poorten.

Ollama is het meest tevreden wanneer het wordt behandeld als een lokale daemon: de CLI en uw apps communiceren met een loopback HTTP API, en de rest van het netwerk komt er nooit achter dat het bestaat.

Ollama in Docker Compose met GPU en persistente modelopslag

Ollama werkt uitstekend op bare metal. Het wordt nog interessanter wanneer je het als een service behandelt: een stabiel eindpunt, vastgezet versies, persistente opslag en een GPU die ofwel beschikbaar is of niet.

Ollama achter een reverse proxy met Caddy of Nginx voor HTTPS-streaming

Ollama achter een reverse proxy draaien is de eenvoudigste manier om HTTPS, optionele toegangscontrole en voorspelbaar streamgedrag te krijgen.

Tekst-embeddings voor RAG en zoekfuncties - Python, Ollama, OpenAI-compatibele API's

Als u werkt aan generatie versterkt met ophalen (RAG), leidt dit gedeelte u in eenvoudige taal door tekst-embeddings: wat ze zijn, hoe ze passen binnen zoeken en ophalen, en hoe u twee veelvoorkomende lokale opstellingen in Python kunt aanroepen via Ollama of een OpenAI-compatibele HTTP-API (zoals veel op llama.cpp gebaseerde servers exposen).

IndexNow uitgelegd - zoekmachines informeren bij het publiceren

Statische websites en blogs veranderen telkens wanneer je ze uitrolt. Zoekmachines die IndexNow ondersteunen, kunnen op de hoogte worden gebracht van deze wijzigingen zonder te hoeven wachten op de volgende blinde crawl.

SGLang QuickStart: installeer, configureer en serveer LLM's via de OpenAI API

SGLang is een high-performance framework voor het uitvoeren van inference bij grote taalmodellen en multimodale modellen, ontworpen om lage latentie en hoge doorvoer te leveren, variërend van een enkele GPU tot gedistribueerde clusters.