AI-systemen: zelfgehoste assistenten, RAG en lokale infrastructuur
De meeste lokale AI-opstellingen beginnen met een model en een runtime.
U downloadt een gekwantiseerd model, start het via Ollama of een andere runtime en begint met prompten. Voor experimenteel gebruik is dit meer dan voldoende. Maar zodra u verder gaat dan nieuwsgierigheid — zodra u zich zorgen maakt over geheugen, de kwaliteit van ophaling (retrieval), routeringsbeslissingen of kostenbewustzijn — begint de eenvoud zijn beperkingen te tonen.
Deze cluster verkent een andere aanpak: het behandelen van de AI-assistent niet als een enkele modeloproep, maar als een gecoördineerd systeem.
Dat onderscheid lijkt op het eerste gezicht subtiel, maar het verandert de manier waarop u over lokale AI denkt volledig.

Wat is een AI-systeem?
Een AI-systeem is meer dan alleen een model. Het is een orkestratieniveau dat inferentie, ophaling, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een samenhangende assistent.
Lokaal een model draaien is infrastructuurwerk. Het ontwerpen van een assistent rondom dat model is systeemwerk.
Als u onze bredere gidsen heeft verkend over:
- LLM-hosting in 2026: Lokale, self-hosted en cloud-infrastructuur vergeleken
- Retrieval-Augmented Generation (RAG)-handleiding: Architectuur, implementatie en productiehandleiding
- Second Brain uitgelegd voor engineers en kenniswerkers
- LLM-prestaties in 2026: Benchmarks, bottlenecks en optimalisatie
- Observability voor AI-systemen
dan weet u al dat inferentie slechts één laag van de stack is.
De AI Systems-cluster rust bovenop die lagen. Het vervangt ze niet — het combineert ze.
OpenClaw: Een self-hosted AI-assistentsysteem
OpenClaw is een open-source, self-hosted AI-assistent die is ontworpen om te opereren over verschillende messagingplatforms terwijl het draait op lokale infrastructuur.
Op een praktisch niveau:
- Gebruikt het lokale LLM-runtimes zoals Ollama of vLLM
- Integreert het ophaling over geïndexeerde documenten
- Onderhoudt het geheugen buiten een enkele sessie om
- Voert het tools en automatiseringstaken uit
- Kan het worden instrumenteerd en gemonitord
- Werkt het binnen hardwarebeperkingen
Het is niet slechts een wrapper rondom een model. Het is een orkestratieniveau dat inferentie, ophaling, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een samenhangende assistent.
Aan de slag en architectuur:
- OpenClaw quickstart-handleiding — Docker-gebaseerde installatie met behulp van een lokaal Ollama-model of een cloudgebaseerde Claude-configuratie
- OpenClaw systeemoverzicht — architectuurverkenning van hoe OpenClaw verschilt van eenvoudigere lokale opstellingen
- NemoClaw-handleiding voor veilige OpenClaw-operaties — security-first OpenClaw-pad met OpenShell-sandboxing, beleidstiers, gerouteerde inferentie en dag-twee-operaties
Context en analyse:
- OpenClaw tijdslijn van opkomst en ondergang — de economie achter de virale piek, het abonnementen-afsluitmoment in april 2026 en wat de ineenstorting onthult over AI-hypecycli
- OpenClaw vs Hermes Agent — sterren, downloads en gebruiksdata — live leaderboard van 20 frameworks met OpenRouter-tokenranglijsten, pakketdownloadaantallen, community-healthmetrics en zoektrendanalyse
OpenClaw uitbreiden en configureren:
Plugins breiden de OpenClaw-runtime uit — door geheugenbackends, modelproviders, communicatiekanalen, webtools en observability toe te voegen. Skills breiden agentgedrag uit — door te definiëren hoe en wanneer de agent die capaciteiten gebruikt. Productieconfiguratie betekent beide combineren, vormgegeven rondom wie het systeem daadwerkelijk gebruikt.
- OpenClaw Plugins — Ecosysteemgids en praktische keuzes — inheemse plugintypen, CLI-levenscyclus, veiligheidsrails en concrete keuzes voor geheugen, kanalen, tools en observability
- OpenClaw Skills-ecosysteem en praktische productiekeuzes — ClawHub-ontdekking, installatie- en verwijderingsflows, per-role stacks en de skills die het waard zijn om in 2026 te behouden
- OpenClaw productieopzetpatronen met Plugins en Skills — complete plugin- en skill-configuraties per usertype: developer, automatisering, onderzoek, support en groei — elk met gecombineerde installatiescripts
Hermes: Een persistente agent met Skills en Tool-Sandboxing
Hermes Agent is een self-hosted, modelagnostische assistent die zich richt op persistente operatie: het kan draaien als een langlevend proces, tools uitvoeren via configureerbare backends en workflows verbeteren door middel van geheugen en herbruikbare skills.
Op een praktisch niveau is Hermes nuttig wanneer u wilt:
- Een terminal-first assistent die ook kan bruggen naar messaging-apps
- Providerflexibiliteit via OpenAI-compatibele endpoints en modelwisseling
- Tool-uitvoeringsgrenzen via lokale en gesandboxde backends
- Dag-twee-operaties met diagnostiek, logs en config-hygiëne
Hermes-profielen zijn volledig geïsoleerde omgevingen — elk met zijn eigen config, secrets, geheugens, sessies, skills en state — waardoor profielen de echte eenheid van productiebeheer zijn, niet de individuele skill.
- Hermes AI-Assistent - Installatie, Setup, Workflow en Troubleshooting — installatie, provider-setup, workflowpatronen en troubleshooting
- Hermes Agent CLI-cheatsheet — commando’s, flags en slash-shortcuts — tabulaire index van
hermes-subcommando’s, globale flags, gateway- en profieltooling en veelvoorkomende slash-shortcuts - Hermes Spraakbesturing vanaf uw telefoon — mobile-first spraakworkflow voor Telegram en Discord, met STT- en TTS-providerafstelling plus troubleshooting
- Hermes Agent Geheugensysteem: Hoe Persistent AI-Geheugen Werkelijk Werkt — diepgaande technische gids voor het twee-bestanden kerngeheugen, frozen snapshot-patroon, alle 8 externe providers en de filosofie van begrensd geheugen
- Hermes AI-Assistent Skills voor Echte Productieopstellingen — profile-first skill-architectuur voor engineers, onderzoekers, operators en executive workflows
- Hermes Agent Skill-Auteurschap — SKILL.md-structuur en beste praktijken — praktische
SKILL.md-lay-out, metadata, conditionele activatie en troubleshooting wanneer skills verdwijnen uit de index - Kanban in Hermes Agent voor Self-Hosted LLM-Workflows — praktische controlepatronen voor dispatcher-concurrentie, afhankelijkheidsketens en cron-gebaseerde batching op self-hosted gateways
Persistent kennis en geheugen
Sommige problemen worden niet opgelost door alleen maar een grotere contextvenster — ze hebben persistent kennis (grafieken, ingestiepipelines) en agent geheugenplugins (Honcho, Mem0, Hindsight en vergelijkbare backends) nodig die zijn aangesloten op assistenten zoals Hermes of OpenClaw.
- AI Systems Geheugenhub — reikwijdte van de geheugen-subcluster plus links naar Cognee-handleidingen en stack-context
- Agent geheugenproviders vergeleken — volledige vergelijking van Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover en Supermemory voor Hermes-achtige integraties
MCP: Model Context Protocol Servers
Het Model Context Protocol (MCP) is een open standaard geïntroduceerd door Anthropic voor het verbinden van AI-taalmodellen met externe datasources, tools en systemen. Het lost het N×M-integratieprobleem op door een universele interface te bieden — denk eraan als een USB-C-poort voor AI-applicaties. Het bouwen van MCP-servers stelt u in staat AI-assistenten uit te breiden met custom integraties voor bestanden, databases, API’s en aanroepbare tools, met behulp van een eenvoudig JSON-RPC-gebaseerd protocol over stdio of HTTP.
- MCP Server in Go — protocolarchitectuur, JSON-RPC-berichtstructuur, capability-negotiatie, officiële Go SDK en een stap-voor-stap tutorial voor het bouwen van MCP-servers in Go
- MCP Servers Bouwen in Python — praktische Python-implementatiegids die websearch- en scraping-MCP-servers dekt, stdio- en SSE-transports, en Claude Desktop-integratie
Wat AI-systemen anders maakt
Meerdere kenmerken maken AI-systemen de moeite waard om nader te bestuderen.
Model Routing als Ontwerpkiezing
De meeste lokale opstellingen defaulten naar één model. AI-systemen ondersteunen het intentionele selecteren van modellen.
Dat stelt vragen:
- Moeten kleine verzoeken kleinere modellen gebruiken?
- Wanneer rechtvaardigt redenering een groter contextvenster?
- Wat is het kostenverschil per 1.000 tokens?
Deze vragen verbinden zich direct met de prestatie-afwegingen besproken in de LLM-prestatiehandleiding en infrastructuurbeslissingen uitgelicht in de LLM-hostinghandleiding.
AI-systemen brengen die beslissingen aan de oppervlakte in plaats ze te verbergen.
Ophaling Wordt Behandeld als een Evoluerend Component
AI-systemen integreren documentophaling, maar niet als een simplistische “embed en zoek”-stap.
Ze erkennen:
- Chunkgrootte beïnvloedt recall en kosten
- Hybride zoekopdracht (BM25 + vector) kan beter presteren dan pure dense ophaling
- Reranking verbetert relevantie ten koste van latentie
- Indexeerstrategie beïnvloedt geheugengebruik
Deze thema’s sluiten aan bij de diepere architectuuroverwegingen besproken in de RAG-handleiding.
Het verschil is dat AI-systemen ophaling integreren in een levende assistent in plaats het te presenteren als een geïsoleerde demo.
Geheugen als Infrastructuur
Stateless LLMs vergeten alles tussen sessies.
AI-systemen introduceren persistente geheugenniveaus. Dat roept direct ontwerpvragen op:
- Wat moet langdurig worden opgeslagen?
- Wanneer moet context worden samengevat?
- Hoe voorkomt u token-explosie?
- Hoe indexeert u geheugen efficiënt?
Die vragen kruisen zich direct met datalaag-overwegingen uit de data-infrastructuurhandleiding. Voor Hermes Agent specifiek — begrensde twee-bestanden geheugen, prefix-caching, externe plugins — begin met Hermes Agent Geheugensysteem en de cross-framework vergelijking Agent geheugenproviders vergeleken. De AI Systems Geheugenhub lijst gerelateerde Cognee- en kennislaag-handleidingen.
Geheugen stopt met een feature te zijn en wordt een opslagprobleem.
Observability Is Niet Optioneel
De meeste lokale AI-experimenten stoppen bij “het reageert”.
AI-systemen maken het mogelijk om te observeren:
- Tokengebruik
- Latentie
- Hardwarebenutting
- Throughputpatronen
Dit verbindt zich natuurlijk met de monitoringsprincipes beschreven in de observability-handleiding.
Als AI draait op hardware, moet het meetbaar zijn zoals elke andere workload.
Hoe het Voelt om te Gebruiken
Van buitenaf kan een AI-systeem er nog steeds uitzien als een chatinterface.
Onder het oppervaal gebeurt er meer.
Als u het vraagt om een technisch rapport dat lokaal is opgeslagen samen te vatten:
- Het haalt relevante documentsegmenten op.
- Het selecteert een geschikt model.
- Het genereert een reactie.
- Het registreert tokengebruik en latentie.
- Het werkt persistent geheugen bij indien nodig.
De zichtbare interactie blijft eenvoudig. Het systeemgedrag is gelaagd.
Dat gelaagde gedrag is wat een systeem onderscheidt van een demo.
Waar AI-systemen in de Stack Thuisbehoren
De AI Systems-cluster bevindt zich op het snijpunt van meerdere infrastructuurniveaus:
- LLM-hosting: Het runtimeniveau waar modellen worden uitgevoerd (Ollama, vLLM, llama.cpp)
- RAG: Het ophalingniveau dat context en grondslag biedt
- Prestaties: Het meetniveau dat latentie en throughput trackt
- Observability: Het monitoringsniveau dat metrics en kostentracking biedt
- Data-infrastructuur: Het opslag niveau dat geheugen en indexering afhandelt
Het begrijpen van dat onderscheid is nuttig. Het zelf draaien maakt het verschil duidelijker.
Voor een minimale lokale installatie met OpenClaw, zie de OpenClaw quickstart-handleiding, die u door een Docker-gebaseerde setup leidt met behulp van een lokaal Ollama-model of een cloudgebaseerde Claude-configuratie.
Als uw opstelling afhankelijk is van Claude, deze beleidsverandering voor agent-tools verduidelijkt waarom API-facturatie nu vereist is voor third-party OpenClaw-workflows.
Gerelateerde Bronnen
MCP-servers:
AI-assistent handleidingen:
- OpenClaw systeemoverzicht
- OpenClaw tijdslijn van opkomst en ondergang
- OpenClaw quickstart-handleiding
- OpenClaw Plugins — Ecosysteemgids en praktische keuzes
- OpenClaw Skills-ecosysteem en praktische productiekeuzes
- OpenClaw productieopzetpatronen met Plugins en Skills
- Hermes AI-Assistent - Installatie, Setup, Workflow en Troubleshooting
- Hermes Agent Geheugensysteem: Hoe Persistent AI-Geheugen Werkelijk Werkt
- AI Systems Geheugenhub
- Agent geheugenproviders vergeleken
- Hermes AI-Assistent Skills voor Echte Productieopstellingen
- Hermes Agent Skill-Auteurschap — SKILL.md-structuur en beste praktijken
Infrastructuurniveaus:
- LLM-hosting in 2026: Lokale, self-hosted en cloud-infrastructuur vergeleken
- Retrieval-Augmented Generation (RAG)-handleiding: Architectuur, implementatie en productiehandleiding
- LLM-prestaties in 2026: Benchmarks, bottlenecks en optimalisatie
- Agentic LLM-inferentieparameters voor Qwen en Gemma
- Observability voor AI-systemen
- Data-infrastructuur voor AI-systemen