Vergelijking van Agent Memory Providers — Honcho, Mem0, Hindsight en nog vijf andere
Acht pluggable backends voor persistente agent memory.
Moderne assistenten vergeten nog steeds alles zodra je het tabblad sluit, tenzij er iets persisteert buiten het contextvenster. Agent memory providers zijn services of bibliotheken die feiten en samenvattingen vasthouden over verschillende sessies heen — vaak geïntegreerd als plugins, zodat het framework lichtgewicht blijft terwijl het geheugen schaalbaar is.
Deze gids vergelijkt acht backends die worden geleverd als Hermes Agent externe geheugen-plugins — Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover en Supermemory — en legt uit hoe deze passen binnen bredere AI systems stacks. Dezelfde leveranciers verschijnen in OpenClaw en andere agent-tools via community- of officiële integraties. De AI Systems Memory hub vermeldt dit artikel naast Cognee en gerelateerde gidsen.
Voor Hermes-specifiek begrensd kerngeheugen (MEMORY.md en USER.md), bevriezingsgedrag en triggers, zie Hermes Agent Memory System.
Hermes Agent vermeldt acht externe geheugenprovider-plugins voor persistente kennis over verschillende sessies heen. Slechts één externe provider kan tegelijkertijd actief zijn. De ingebouwde MEMORY.md en USER.md blijven naast de provider geladen — ze zijn additief, geen vervanging.
Externe afhankelijkheden. Elke externe provider, behalve Holographic, vereist ten minste één externe service-aanroep — een LLM voor geheugenextractie, een embedding-model voor semantisch zoeken, of een database zoals PostgreSQL voor opslag. Deze afhankelijkheden hebben directe gevolgen voor de privacy, de kosten en de vraag of uw geheugenstack volledig self-hosted kan draaien. Hindsight en ByteRover bundelen of elimineren de meeste afhankelijkheden; Honcho, Mem0 en Supermemory vereisen de meeste onderdelen. Waar een provider Ollama of een andere OpenAI-compatibele endpoint ondersteunt, kunt u LLM- en embedding-aanroepen naar een lokaal model sturen en gegevens volledig buiten externe servers houden.

Activering met Hermes Agent
hermes memory setup # Interactieve selector + configuratie
hermes memory status # Controleren wat actief is
hermes memory off # Externe provider uitschakelen
Of handmatig in ~/.hermes/config.yaml:
memory:
provider: openviking # of honcho, mem0, hindsight, holographic, retaindb, byterover, supermemory
Vergelijking van providers
| Provider | Opslag | Kosten | Externe Afhankelijkheden | Zelf te hosten | Uniek Kenmerk |
|---|---|---|---|---|---|
| Honcho | Cloud/Self-hosted | Betaald/Gratis | LLM + Embedding model + PostgreSQL/pgvector + Redis | Ja — Docker / K3s / Fly.io | Dialectische gebruikersmodellering + sessie-specifieke context |
| OpenViking | Self-hosted | Gratis | LLM (VLM) + Embedding model | Ja — lokale server; Ollama-native installatiewizard | Filesystem-hiërarchie + gelaagde loading |
| Mem0 | Cloud/Self-hosted | Betaald/Gratis OSS | LLM + Embedding model + Vector store (Qdrant of pgvector) | Ja — Docker Compose OSS; volledig lokaal mogelijk | LLM-extractie aan de serverzijde |
| Hindsight | Cloud/Lokaal | Gratis/Betaald | LLM + gebundelde PostgreSQL + ingebouwde embedder + ingebouwde reranker | Ja — Docker of embedded Python; volledig lokaal met Ollama | Knowledge graph + reflect synthese |
| Holographic | Lokaal | Gratis | Geen | Native — geen infrastructuur vereist | HRR-algebra + trust scoring |
| RetainDB | Cloud | $20/maand | Cloud-managed (LLM + retrieval op RetainDB-servers) | Nee | Delta-compressie |
| ByteRover | Lokaal/Cloud | Gratis/Betaald | Alleen LLM — geen embedding model, geen DB | Ja — standaard local-first; Ollama ondersteund | Context-boom op basis van bestanden; geen embedding pipeline |
| Supermemory | Cloud | Betaald | LLM + PostgreSQL/pgvector (enterprise Cloudflare deploy) | Alleen enterprise plan | Context fencing + session graph ingest |
Gedetailleerde analyse
Honcho
Beste voor: multi-agent systemen, cross-sessie context, uitlijning tussen gebruiker en agent.
Honcho draait naast het bestaande geheugen — USER.md blijft ongewijzigd en Honcho voegt een extra laag context toe. Het modelleert gesprekken als peers die berichten uitwisselen — één gebruikers-peer plus één AI-peer per Hermes-profiel, die allemaal een werkruimte delen.
Externe afhankelijkheden: Honcho vereist een LLM voor sessiesamenvatting, het afleiden van gebruikersrepresentatie en dialectisch redeneren; een embedding-model voor semantisch zoeken door observaties; PostgreSQL met de pgvector-extensie voor vectoropslag; en Redis voor caching. De beheerde cloud op api.honcho.dev regelt dit allemaal voor u. Voor self-hosted implementaties (Docker, K3s of Fly.io) gebruikt u uw eigen gegevens. De LLM-slot accepteert elke OpenAI-compatibele endpoint, inclusief Ollama en vLLM, zodat inferentie on-premises kan blijven. De embedding-slot staat standaard op openai/text-embedding-3-small, maar ondersteunt configureerbare providers via LLM_EMBEDDING_API_KEY en LLM_EMBEDDING_BASE_URL — elke OpenAI-compatibele embedding-server werkt, inclusief lokale opties zoals vLLM met een BGE-model.
Tools: honcho_profile (lezen/bijwerken peer card), honcho_search (semantisch zoeken), honcho_context (sessiecontext — samenvatting, representatie, card, berichten), honcho_reasoning (door LLM gesynthetiseerd), honcho_conclude (conclusies maken/verwijderen).
Belangrijke configuratie-opties:
contextCadence(standaard 1): Minimaal aantal beurten tussen verversing van de basislaagdialecticCadence(standaard 2): Minimaal aantal beurten tussenpeer.chat()LLM-aanroepen (1-5 aanbevolen)dialecticDepth(standaard 1):.chat()passes per aanroep (beperkt tot 1-3)recallMode(standaard ‘hybrid’):hybrid(auto+tools),context(alleen injecteren),tools(alleen tools)writeFrequency(standaard ‘async’): Timing van het wegschrijven:async,turn,session, of geheel getal NobservationMode(standaard ‘directional’):directional(alles aan) ofunified(gedeelde pool)
Architectuur: Tweelaagse context-injectie — basislaag (sessiesamenvatting + representatie + peer card) + dialectische aanvulling (LLM-redenering). Selecteert automatisch tussen cold-start en warm prompts.
Multi-peer mapping: De workspace is een gedeelde omgeving over profielen heen. De gebruikers-peer (peerName) is een globale menselijke identiteit. De AI-peer (aiPeer) is er één per Hermes-profiel (hermes standaard, hermes.<profiel> voor anderen).
Setup:
hermes memory setup # selecteer "honcho"
# of legacy: hermes honcho setup
Configuratie: $HERMES_HOME/honcho.json (profiel-lokaal) of ~/.honcho/config.json (globaal).
Profielbeheer:
hermes profile create coder --clone # Maakt hermes.coder aan met gedeelde workspace
hermes honcho sync # Vult AI-peers aan voor bestaande profielen
OpenViking
Beste voor: self-hosted kennisbeheer met gestructureerd browsen.
OpenViking biedt een filesystem-hiërarchie met gelaagde loading. Het is gratis, self-hosted en geeft u volledige controle over uw geheugenopslag.
Externe afhankelijkheden: OpenViking vereist een VLM (vision-language model) voor semantische verwerking en geheugenextractie, en een embedding-model voor vectorzoekopdrachten — beide zijn verplicht. Ondersteunde VLM-providers zijn onder andere OpenAI, Anthropic, DeepSeek, Gemini, Moonshot en vLLM (voor lokale implementatie). Voor embeddings zijn ondersteunde providers OpenAI, Volcengine (Doubao), Jina, Voyage en — via Ollama — elk lokaal aangeboden embedding-model. De interactieve openviking-server init wizard kan beschikbaar RAM detecteren en geschikte Ollama-modellen aanbevelen (bijv. Qwen3-Embedding 8B voor embeddings, Gemma 4 27B voor VLM) en configureert alles automatisch voor een volledig lokale setup zonder API-sleutels. Er is geen externe database nodig; OpenViking slaat geheugen op in het bestandssysteem.
Tools: viking_search, viking_read (gelaagd), viking_browse, viking_remember, viking_add_resource.
Setup:
pip install openviking
openviking-server init # interactieve wizard (aanbevelingen Ollama-modellen voor lokale setup)
openviking-server
hermes memory setup # selecteer "openviking"
echo "OPENVIKING_ENDPOINT=http://localhost:1933" >> ~/.hermes/.env
Mem0
Beste voor: moeiteloos geheugenbeheer met automatische extractie.
Mem0 regelt geheugenextractie aan de serverzijde via een LLM-aanroep bij elke add operatie — het leest het gesprek, extraheert discrete feiten, verwijdert duplicaten en slaat ze op. De beheerde cloud-API regelt de volledige infrastructuur. De open-source bibliotheek en de self-hosted server geven u volledige controle.
Externe afhankelijkheden: Mem0 vereist een LLM voor geheugenextractie (standaard: OpenAI gpt-4.1-nano; 20 providers ondersteund, inclusief Ollama, vLLM en LM Studio voor lokale modellen) en een embedding-model voor retrieval (standaard: OpenAI text-embedding-3-small; 10 providers ondersteund, inclusief Ollama en HuggingFace voor lokale modellen). Opslag maakt gebruik van Qdrant op /tmp/qdrant in bibliotheekmodus, of PostgreSQL met pgvector in self-hosted servermodus — beide kunnen lokaal draaien. Een volledig lokale Mem0-stack zonder cloud is haalbaar: Ollama voor LLM, Ollama voor embeddings, en een lokale Qdrant-instantie, allemaal geconfigureerd via Memory.from_config.
Tools: mem0_profile, mem0_search, mem0_conclude.
Setup:
pip install mem0ai
hermes memory setup # selecteer "mem0"
echo "MEM0_API_KEY=jouw-sleutel" >> ~/.hermes/.env
Configuratie: $HERMES_HOME/mem0.json (user_id: hermes-user, agent_id: hermes).
Hindsight
Beste voor: kennisgrafiek-gebaseerde recall met entiteitsrelaties.
Hindsight bouwt een kennisgrafiek van uw geheugen door entiteiten en relaties te extraheren. De unieke reflect tool voert cross-memory synthese uit — het combineert meerdere herinneringen tot nieuwe inzichten. Recall voert vier retrieval-strategieën parallel uit (semantisch, keyword/BM25, graafdoorloop, temporeel), en voegt de resultaten vervolgens samen en sorteert ze opnieuw met behulp van reciprocal rank fusion.
Externe afhankelijkheden: Hindsight vereist een LLM voor de extractie van feiten en entiteiten bij retain aanroepen, en voor synthese bij reflect aanroepen (standaard: OpenAI; ondersteunde providers zijn o.a. Anthropic, Gemini, Groq, Ollama, LM Studio en elke OpenAI-compatibele endpoint). Het embedding-model en het cross-encoder reranking-model zijn ingebouwd in Hindsight zelf — deze draaien lokaal binnen het hindsight-all pakket en vereisen geen externe API. PostgreSQL is ook ingebouwd bij de embedded Python-installatie via een beheerde pg0 gegevensmap; u kunt Hindsight ook naar een externe PostgreSQL-instantie verwijzen. Voor een volledig lokale setup zonder cloud stelt u HINDSIGHT_API_LLM_PROVIDER=ollama in en wijst u dit naar een lokaal Ollama-model — retain en recall werken volledig; reflect vereist een model dat tool-calling ondersteunt (bijv. qwen3:8b).
Tools: hindsight_retain, hindsight_recall, hindsight_reflect (unieke cross-memory synthese).
Setup:
hermes memory setup # selecteer "hindsight"
echo "HINDSIGHT_API_KEY=jouw-sleutel" >> ~/.hermes/.env
Installeert automatisch hindsight-client (cloud) of hindsight-all (lokaal). Vereist >= 0.4.22.
Configuratie: $HERMES_HOME/hindsight/config.json
mode:cloudoflocalrecall_budget:low/mid/highmemory_mode:hybrid/context/toolsauto_retain/auto_recall:true(standaard)
Lokale UI: hindsight-embed -p hermes ui start
Holographic
Beste voor: privacy-georiënteerde setups met uitsluitend lokale opslag.
Holographic gebruikt HRR (Holographic Reduced Representation) algebra voor geheugenencodering, met trust scoring voor de betrouwbaarheid van het geheugen. Geen cloud-afhankelijkheid — alles draait lokaal op uw eigen hardware.
Externe afhankelijkheden: Geen. Holographic vereist geen LLM, geen embedding-model, geen database en geen netwerkverbinding. Geheugenencodering gebeurt volledig via HRR-algebra die binnen het proces draait. Dit maakt het uniek tussen alle acht providers — het is de enige die werkt met nul externe aanroepen. Het nadeel is dat de kwaliteit van retrieval lager is dan bij embedding-gebaseerd semantisch zoeken, en er is geen cross-memory synthese zoals de reflect tool van Hindsight. Voor gebruikers voor wie privacy en een werking zonder afhankelijkheden niet onderhandelbaar zijn, is Holographic de enige optie die dit onvoorwaardelijk levert.
Tools: 2 tools voor geheugenbewerkingen via HRR-algebra.
Setup:
hermes memory setup # selecteer "holographic"
RetainDB
Beste voor: updates met een hoge frequentie met delta-compressie.
RetainDB gebruikt delta-compressie om geheugenupdates efficiënt op te slaan en hybride retrieval (vector + BM25 + reranking) om relevante context naar voren te halen. Het is cloud-gebaseerd met een kostenpost van $20 per maand, waarbij alle geheugenverwerking aan de serverzijde wordt afgehandeld.
Externe afhankelijkheden: De LLM-aanroepen, de embedding-pipeline en de reranking van RetainDB draaien allemaal op de eigen cloud-infrastructuur van RetainDB — u levert alleen een RETAINDB_KEY. Geheugenextractie gebruikt Claude Sonnet aan de serverzijde. Er is geen optie voor self-hosting of een lokale modus. Alle gesprekgegevens worden naar de servers van RetainDB gestuurd voor verwerking en opslag. Als gegevenssoevereiniteit of offline gebruik belangrijk is voor uw gebruikssituatie, is deze provider niet geschikt.
Tools: retaindb_profile (gebruikersprofiel), retaindb_search (semantisch zoeken), retaindb_context (taakrelevante context), retaindb_remember (opslaan met type + belangrijkheid), retaindb_forget (geheugen verwijderen).
Setup:
hermes memory setup # selecteer "retaindb"
ByteRover
Beste voor: local-first geheugen met menselijk leesbare, controleerbare opslag.
ByteRover slaat geheugen op als een gestructureerde markdown context-boom — een hiërarchie van domein-, onderwerp- en subonderwerpbestanden — in plaats van embedding-vectoren of een database. Een LLM leest de broninhoud, redeneert erover en plaatst de geëxtraheerde kennis op de juiste plek in de hiërarchie. Retrieval is MiniSearch full-text search met een gelaagde fallback naar LLM-gestuurd zoeken, zonder dat er een vectordatabase nodig is.
Externe afhankelijkheden: ByteRover vereist een LLM voor geheugencuratie en zoeken (18 providers ondersteund, inclusief Anthropic, OpenAI, Google, Ollama en elke OpenAI-compatibele endpoint via de openai-compatible provider-slot). Het vereist geen embedding-model en geen database — de context-boom is een lokale map met gewone markdown-bestanden. Cloud-synchronisatie is optioneel en wordt alleen gebruikt voor team-samenwerking; standaard werkt alles volledig offline. Voor een volledig zelfstandige lokale setup kunt u Ollama als provider verbinden (brv providers connect openai-compatible --base-url http://localhost:11434/v1) en dan verlaat er geen gegevens uw machine.
Tools: 3 tools voor geheugenbewerkingen.
Setup:
hermes memory setup # selecteer "byterover"
Supermemory
Beste voor: enterprise workflows met context fencing en session graph ingest.
Supermemory biedt context fencing (het isoleren van geheugen per context) en session graph ingest (het importeren van volledige gesprekshistorieën). Het extraheert automatisch herinneringen, bouwt gebruikersprofielen en voert hybride retrieval uit die semantisch en keyword-zoeken combineert. De beheerde cloud-API is het primaire implementatiiedoel.
Externe afhankelijkheden: De cloudservice van Supermemory regelt alle LLM-inferentie en embeddings aan de serverzijde — u levert alleen een Supermemory API-sleutel. Self-hosting is uitsluitend beschikbaar als een enterprise plan add-on en wordt geïmplementeerd op Cloudflare Workers; het vereist dat u PostgreSQL met de pgvector-extensie levert (voor vectoropslag) en een OpenAI API-sleutel (verplicht, met Anthropic en Gemini als optionele toevoegingen). Er is geen Docker-gebaseerd of lokaal self-hosting pad — de architectuur is nauw verbonden met Cloudflare Workers edge compute. Voor gebruikers die volledige gegevenssoevereiniteit nodig hebben zonder een enterprise-contract, is deze provider niet de juiste keuze.
Tools: 4 tools voor geheugenbewerkingen.
Setup:
hermes memory setup # selecteer "supermemory"
Hoe te kiezen
- Heeft u multi-agent ondersteuning nodig? Honcho
- Wilt u self-hosted en gratis? OpenViking of Holographic
- Wilt u zero-config? Mem0
- Wilt u kennisgrafieken? Hindsight
- Wilt u delta-compressie? RetainDB
- Wilt u bandbreedte-efficiëntie? ByteRover
- Wilt u enterprise-functies? Supermemory
- Wilt u privacy (alleen lokaal)? Holographic
- Wilt u volledig lokaal met nul externe services? Holographic (helemaal geen afhankelijkheden) of Hindsight/Mem0/ByteRover met Ollama
- Wilt u menselijk leesbaar, controleerbaar geheugen zonder embedding pipeline? ByteRover
Voor volledige providerconfiguraties per profiel en real-world workflow patronen, zie Hermes Agent production setup.
Gerelateerde gidsen
- AI Systems Memory hub — de scope van deze subcluster en links naar Cognee-gidsen
- Hermes Agent Memory System — kerngeheugen met twee bestanden vóór de plugins
- Hermes Agent production setup — profiel-koppeling voor providers in de praktijk