AI-systemen: zelfgehoste assistenten, RAG en lokale infrastructuur

Inhoud

De meeste lokale AI-opstellingen beginnen met een model en een runtime.

U downloadt een gekwantiseerd model, start het via Ollama of een andere runtime en begint met prompten. Voor experimenten is dit meer dan genoeg. Maar zodra u verder gaat dan nieuwsgierigheid — zodra u zorgt voor geheugen, retrievalkingheid, routingbeslissingen of kostenbewustzijn — begint de eenvoud zijn beperkingen te tonen.

Deze cluster verkent een andere aanpak: de AI-assistent behandelen niet als een enkele modelaanroep, maar als een gecoördineerd systeem.

Dat onderscheid lijkt op het eerste gezicht subtiel, maar het verandert hoe u volledig denkt over lokale AI.

Orkestratie van AI-systemen met lokale LLM’s, RAG en geheugenlagen

Wat is een AI-systeem?

Een AI-systeem is meer dan een model. Het is een orkestratielaag die inferentie, retrieval, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een coherente assistent.

Lokaal een model draaien is infrastructuurwerk. Een assistent ontwerpen rond dat model is systeemwerk.

Als u onze bredere gidsen heeft verkend over:

LLM-hosting in 2026: Lokale, self-hosted en cloudinfrastructuur vergeleken
LLM-architectuur: Systeemontwerp voor productie-AI — routing, kostenoptimalisatie, vangnetten en multi-modelorkestratie
Retrieval-Augmented Generation (RAG)-handleiding: Architectuur, implementatie en productiegids
Tweede brein uitgelegd voor engineers en kenniswerkers
LLM-prestaties in 2026: Benchmarks, bottlenecks en optimalisatie
Observabiliteit voor AI-systemen

dan weet u al dat inferentie slechts één laag van de stack is.

De AI-systemencluster zit bovenop die lagen. Het vervangt ze niet — het combineert ze.

Voor een dwarsdoorsnede van hoe die lagen samenpassen in productieassistenten — LLM, geheugen, hulpmiddelen, routing en observabiliteit, met OpenClaw en Hermes als referentiesystemen — zie AI-assistentenarchitectuur: LLM, geheugen, hulpmiddelen, routing, observabiliteit.

Zodra de assistentarchitectuur stevig is, is de volgende stap deze proactief maken. Polling Agents in AI Assistants: 11 Implementation Patterns behandelt hoe achtergrondpollingworkers, wachtrijgebaseerde uitvoering, duurzame workflows en semantische LLM-evaluatoren een reactieve assistent omvormen tot één die zelfstandig observeert, beslist en handelt.

Wanneer één assistent niet genoeg is en meerdere agents moeten coördineren, bepaalt de keuze van het coördinatiepatroon alles: latentie, fouttolerantie, kosten en debugbaarheid. Multi-Agent Orchestration Patterns: A Practical Guide behandelt de zes canonieke patronen — orchestrator-worker, sequentiële pipeline, fan-out, hiërarchisch, swarm en mesh — met specifieke falingsmodi en een beslissingsframework voor het kiezen van de juiste architectuur.

OpenClaw: Een self-hosted AI-assistentsysteem

OpenClaw is een open-source, self-hosted AI-assistent die is ontworpen om te werken over messagingplatforms heen terwijl het draait op lokale infrastructuur.

Op een praktisch niveau:

Gebruikt lokale LLM-runtimes zoals Ollama of vLLM
Integreert retrieval over geïndexeerde documenten
Behoudt geheugen beyond een enkele sessie
Voert hulpmiddelen en automatiseringstaken uit
Kan worden geïnstromeenteerd en gemonitord
Werkt binnen hardwarebeperkingen

Het is niet alleen een wrapper om een model. Het is een orkestratielaag die inferentie, retrieval, geheugen en uitvoering verbindt tot iets dat zich gedraagt als een coherente assistent.

Aan de slag en architectuur:

OpenClaw quickstart gids — Docker-gebaseerde installatie met behulp van een lokaal Ollama-model of een cloudgebaseerde Claude-configuratie
OpenClaw systeemoverzicht — architectuurverkennende van hoe OpenClaw afwijkt van eenvoudigere lokale setups
NemoClaw gids voor veilige OpenClaw-operaties — security-first OpenClaw-pad met OpenShell-sandboxing, beleidstiers, gerouteerde inferentie en day-two-operaties

Context en analyse:

OpenClaw rise and fall timeline — de economie achter de virale piek, de abonnementsstop in april 2026 en wat de ineenstorting onthult over AI-hypecycli
OpenClaw vs Hermes Agent — sterren, downloads en gebruiksdata — live leaderboard van 20 frameworks met OpenRouter-tokenranglijsten, pakketdownloadaantallen, community-healthmetrieken en zoektrendanalyse

OpenClaw uitbreiden en configureren:

Plugins breiden de OpenClaw-runtime uit — door geheugenbackends, modelproviders, communicatiekanalen, webhulpmiddelen en observabiliteit toe te voegen. Skills breiden agentgedrag uit — door te definiëren hoe en wanneer de agent die mogelijkheden gebruikt. Productieconfiguratie betekent beide combineren, gevormd rond wie het systeem daadwerkelijk gebruikt.

OpenClaw Plugins — Ecosysteemgids en Praktische Keuzes — inheemse plugintypen, CLI-lifecycle, veiligheidsrails en concrete keuzes voor geheugen, kanalen, hulpmiddelen en observabiliteit
OpenClaw Skills Ecosysteem en Praktische Productiekeuzes — ClawHub-ontdekking, installatie- en verwijderingsstromen, per-rol stacks en de skills die het waard zijn om te behouden in 2026
OpenClaw Productie Setup Patronen met Plugins en Skills — complete plugin- en skill-configuraties per usertype: ontwikkelaar, automatisering, onderzoek, ondersteuning en groei — elk met gecombineerde installatiescripts

Hermes: Een persistente agent met Skills en Tool-sandboxing

Hermes Agent is een self-hosted, model-onafhankelijke assistent gericht op persistentie: het kan draaien als een langlopend proces, hulpmiddelen uitvoeren via configureerbare backends en workflows verbeteren door de tijd heen via geheugen en herbruikbare skills.

Op een praktisch niveau is Hermes nuttig wanneer u wilt:

Een terminal-first assistent die ook kan bruggen naar messagingapps
Providerflexibiliteit via OpenAI-compatibele eindpunten en modelwisseling
Hulpmiddelen uitvoeringsgrenzen via lokale en sandboxed backends
Day-two-operaties met diagnostiek, logs en config-hygiëne

Hermes-profielen zijn volledig geïsoleerde omgevingen — elk met zijn eigen config, secrets, geheugens, sessies, skills en status — waardoor profielen de echte eenheid van productie-eigendom zijn, niet de individuele skill.

Hermes AI Assistant - Installatie, Setup, Workflow en Probleemoplossing — installatie, provider-setup, workflowpatronen en probleemoplossing
Hermes Agent CLI cheatsheet — commando’s, vlaggen en slash-knoppen — tabulaire index van hermes subcommando’s, globale vlaggen, gateway- en profielhulpmiddelen, en veelgebruikte slash-knoppen
Hermes Spraakbesturing vanaf Uw Telefoon — mobile-first spraakworkflow voor Telegram en Discord, met STT- en TTS-providerafstimming plus probleemoplossing
Hermes Agent Geheugensysteem: Hoe Persistent AI-Geheugen Echt Werkt — diepgaande technische gids voor het twee-bestand kerngeheugen, frozen snapshot-patroon, alle 8 externe providers en de filosofie van gebonden geheugen
Hermes AI Assistant Skills voor Echte Productie Setups — profiel-first skillarchitectuur voor engineers, onderzoekers, operators en executive workflows
Hermes Agent Skill Authoring — SKILL.md Structuur en Beste Praktijken — praktische SKILL.md lay-out, metadata, conditionele activatie en probleemoplossing wanneer skills verdwijnen uit de index
Kanban in Hermes Agent voor Self Hosted LLM Workflows — praktische controlemiddelen voor dispatcher-concurrentie, afhankelijkheidsketens en cron-gebaseerde batching op self-hosted gateways

Persistent kennis en geheugen

Sommige problemen worden niet opgelost door een grotere contextvenster alleen — ze hebben persistent kennis (grafieken, ingestingspipelines) en agent geheugenplugins (Honcho, Mem0, Hindsight en vergelijkbare backends) nodig die zijn aangesloten op assistenten zoals Hermes of OpenClaw.

AI Systems Memory hub — scope van de geheugen subcluster plus links naar Cognee-gidsen en stackcontext
Geheugensystemen in AI-assistenten die Echt Helpen — cross-framework geheugenontwerp voor werkende status, gestructureerde feiten en retrieval-lagen
Agent geheugenproviders vergeleken — volledige vergelijking van Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover en Supermemory voor Hermes-stijl integraties

MCP: Model Context Protocol Servers

Het Model Context Protocol (MCP) is een open standaard geïntroduceerd door Anthropic voor het verbinden van AI-taalmodellen met externe gegevensbronnen, hulpmiddelen en systemen. Het lost het N×M-integratieprobleem op door een universele interface te bieden — denk eraan als een USB-C-poort voor AI-applicaties. Het bouwen van MCP-servers stelt u in staat AI-assistenten uit te breiden met custom integraties voor bestanden, databases, API’s en aanroepbare hulpmiddelen, met behulp van een eenvoudig JSON-RPC-gebaseerd protocol over stdio of HTTP.

MCP Server in Go — protocolarchitectuur, JSON-RPC-berichtstructuur, capaciteitsonderhandeling, officiële Go SDK en een stap-voor-stap tutorial voor het bouwen van MCP-servers in Go
MCP Servers Bouwen in Python — praktische Python-implementatiegids die websearch- en scraping-MCP-servers dekt, stdio- en SSE-transporten, en Claude Desktop-integratie

A2A: Agent-to-Agent Protocol

Het Agent2Agent Protocol (A2A) is een open standaard voor communicatie tussen onafhankelijk ingezette AI-agentsystemen. Waar MCP een agent verbindt met hulpmiddelen, verbindt A2A agents met andere agents — waardoor ze elkaar kunnen ontdekken via Agent Cards, taken en berichten kunnen uitwisselen, voortgang kunnen streamen en getypte artefacten kunnen teruggeven. A2A is ontworpen voor systemen waarin agents eigendom zijn van verschillende teams, zijn gebouwd met verschillende frameworks of zijn ingezet als afzonderlijke services die moeten interopereren.

Wat is het A2A Protocol? Agent Cards en Taken Uitgelegd — deep-dive in A2A-concepten: Agent Cards, taaklevenscyclus, berichten, delen, artefacten, streaming, beveiliging en het orchestrator-plus-specialisten patroon
A2A Streaming en Async Taken voor Langdurige Agent Workflows — operationele gids voor SSE-streaming, push-webhooks, input_required human-in-the-loop flows, falingsafhandeling en observabiliteit voor taken die een enkele HTTP-aanvraag overleven
A2A vs MCP: Hebben AI-Agents Echt Beide Protocollen Nodig? — praktische vergelijking van de twee protocollen: wanneer MCP alleen genoeg is, wanneer A2A echte waarde toevoegt, en hoe het “A2A buiten, MCP binnen” patroon op schaal werkt
Google A2A Protocol in 2026: Adoptie, Hype en Realiteit — een gemeten blik op waar A2A daadwerkelijk productietractie heeft in 2026, wat de hype misvat, en een praktisch beslissingsframework voor wanneer het te gebruiken

Wat Maakt AI-systemen Anders

Enkele kenmerken maken AI-systemen de moeite waard om nader te bekijken.

Modelrouting als Ontwerpkeuze

De meeste lokale setups defaulten naar één model. AI-systemen ondersteunen het intentioneel selecteren van modellen.

Dat introduceert vragen:

Zouden kleine aanvragen kleinere modellen moeten gebruiken?
Wanneer rechtvaardigt redeneren een grotere contextvenster?
Wat is het kostenverschil per 1.000 tokens?

Deze vragen verbinden direct met prestatieafwegingen besproken in de LLM-prestatiegids en infrastructuurbeslissingen geschetst in de LLM-hostinggids.

AI-systemen tonen die beslissingen in plaats van ze te verbergen.

Retrieval Wordt Behandeld als een Evoluerend Component

AI-systemen integreren documentretrieval, maar niet als een simplistische “embed en zoek” stap.

Ze erkennen:

Chunk-grootte beïnvloedt recall en kosten
Hybride zoekopdracht (BM25 + vector) kan beter presteren dan pure dense retrieval
Reranking verbetert relevantie ten koste van latentie
Indexeringsstrategie beïnvloedt geheugengebruik

Deze thema’s sluiten aan bij de diepere architectuuroverwegingen besproken in de RAG-tutorial.

Het verschil is dat AI-systemen retrieval inbedden in een levende assistent in plaats van het te presenteren als een geïsoleerde demo.

Geheugen als Infrastructuur

Stateless LLM’s vergeten alles tussen sessies.

AI-systemen introduceren persistente geheugenlagen. Dat roept onmiddellijk ontwerpvragen op:

Wat moet langetermijn worden opgeslagen?
Wanneer moet context worden samengevat?
Hoe voorkomt u token-explosie?
Hoe indexeert u geheugen efficiënt?

Die vragen snijden direct door data-laagoverwegingen uit de data-infrastructuurgids. Voor Hermes Agent specifiek — gebonden twee-bestand geheugen, prefix-caching, externe plugins — begin met Hermes Agent Geheugensysteem en de cross-framework vergelijking Agent geheugenproviders vergeleken. De AI Systems Memory hub lijst gerelateerde Cognee- en kennislaaggidsen.

Geheugen stopt met een feature te zijn en wordt een opslagprobleem.

Observabiliteit is Optioneel Niet

De meeste lokale AI-experimenten stoppen bij “het reageert.”

AI-systemen maken het mogelijk om te observeren:

Tokengebruik
Latentie
Hardwareutilisatie
Doorvoertpatronen

Dit verbindt natuurlijk met de monitoringprincipes beschreven in de observabiliteitsgids.

Als AI op hardware draait, zou het meetbaar moeten zijn als elke andere workload.

Hoe Het Voelt om Te Gebruiken

Van buitenaf kan een AI-systeem er nog steeds uitzien als een chatinterface.

Onder de oppervlakte gebeurt er meer.

Als u het vraagt om een technisch rapport dat lokaal is opgeslagen samen te vatten:

Het haalt relevante documentsegmenten op.
Het selecteert een passend model.
Het genereert een antwoord.
Het registreert tokengebruik en latentie.
Het actualiseert persistent geheugen indien nodig.

De zichtbare interactie blijft eenvoudig. Het systeemgedrag is gelaagd.

Dat gelaagde gedrag is wat een systeem onderscheidt van een demo.

Waar AI-systemen in de Stack Passen

De AI-systemencluster zit op het snijpunt van verschillende infrastructuurlagen:

LLM-hosting: De runtime-laag waar modellen worden uitgevoerd (Ollama, vLLM, llama.cpp)
RAG: De retrieval-laag die context en grondslag biedt
Prestaties: De meetlaag die latentie en doorvoer volgt
Observabiliteit: De monitoringlaag die metrieken en kostentracking biedt
Data-infrastructuur: De opslaglaag die geheugen en indexing behandelt

Het begrijpen van dat onderscheid is nuttig. Het zelf draaien maakt het verschil duidelijker.

Voor een minimale lokale installatie met OpenClaw, zie de OpenClaw quickstart gids, die doorloopt een Docker-gebaseerde setup met behulp van een lokaal Ollama-model of een cloudgebaseerde Claude-configuratie.

Als uw setup afhankelijk is van Claude, dit beleidswijziging voor agent hulpmiddelen verduidelijkt waarom API-facturatie nu vereist is voor third-party OpenClaw-workflows.

Gerelateerde Bronnen

A2A: Agent-to-Agent Protocol:

MCP servers:

AI-assistent gidsen:

Infrastructuurlagen: