Vergelijking van Agent Memory Providers — Honcho, Mem0, Hindsight en nog vijf andere

Acht pluggable backends voor persistente agent memory.

Inhoud

Moderne assistenten vergeten nog steeds alles zodra je het tabblad sluit, tenzij er iets persisteert buiten het contextvenster. Agent memory providers zijn services of bibliotheken die feiten en samenvattingen vasthouden over verschillende sessies heen — vaak geïntegreerd als plugins, zodat het framework lichtgewicht blijft terwijl het geheugen schaalbaar is.

Deze gids vergelijkt acht backends die worden geleverd als Hermes Agent externe geheugen-plugins — Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover en Supermemory — en legt uit hoe deze passen binnen bredere AI systems stacks. Dezelfde leveranciers verschijnen in OpenClaw en andere agent-tools via community- of officiële integraties. De AI Systems Memory hub vermeldt dit artikel naast Cognee en gerelateerde gidsen.

Voor Hermes-specifiek begrensd kerngeheugen (MEMORY.md en USER.md), bevriezingsgedrag en triggers, zie Hermes Agent Memory System.


Hermes Agent vermeldt acht externe geheugenprovider-plugins voor persistente kennis over verschillende sessies heen. Slechts één externe provider kan tegelijkertijd actief zijn. De ingebouwde MEMORY.md en USER.md blijven naast de provider geladen — ze zijn additief, geen vervanging.

Externe afhankelijkheden. Elke externe provider, behalve Holographic, vereist ten minste één externe service-aanroep — een LLM voor geheugenextractie, een embedding-model voor semantisch zoeken, of een database zoals PostgreSQL voor opslag. Deze afhankelijkheden hebben directe gevolgen voor de privacy, de kosten en de vraag of uw geheugenstack volledig self-hosted kan draaien. Hindsight en ByteRover bundelen of elimineren de meeste afhankelijkheden; Honcho, Mem0 en Supermemory vereisen de meeste onderdelen. Waar een provider Ollama of een andere OpenAI-compatibele endpoint ondersteunt, kunt u LLM- en embedding-aanroepen naar een lokaal model sturen en gegevens volledig buiten externe servers houden.

ai agent memory system providers

Activering met Hermes Agent

hermes memory setup   # Interactieve selector + configuratie
hermes memory status  # Controleren wat actief is
hermes memory off     # Externe provider uitschakelen

Of handmatig in ~/.hermes/config.yaml:

memory:
  provider: openviking  # of honcho, mem0, hindsight, holographic, retaindb, byterover, supermemory

Vergelijking van providers

Provider Opslag Kosten Externe Afhankelijkheden Zelf te hosten Uniek Kenmerk
Honcho Cloud/Self-hosted Betaald/Gratis LLM + Embedding model + PostgreSQL/pgvector + Redis Ja — Docker / K3s / Fly.io Dialectische gebruikersmodellering + sessie-specifieke context
OpenViking Self-hosted Gratis LLM (VLM) + Embedding model Ja — lokale server; Ollama-native installatiewizard Filesystem-hiërarchie + gelaagde loading
Mem0 Cloud/Self-hosted Betaald/Gratis OSS LLM + Embedding model + Vector store (Qdrant of pgvector) Ja — Docker Compose OSS; volledig lokaal mogelijk LLM-extractie aan de serverzijde
Hindsight Cloud/Lokaal Gratis/Betaald LLM + gebundelde PostgreSQL + ingebouwde embedder + ingebouwde reranker Ja — Docker of embedded Python; volledig lokaal met Ollama Knowledge graph + reflect synthese
Holographic Lokaal Gratis Geen Native — geen infrastructuur vereist HRR-algebra + trust scoring
RetainDB Cloud $20/maand Cloud-managed (LLM + retrieval op RetainDB-servers) Nee Delta-compressie
ByteRover Lokaal/Cloud Gratis/Betaald Alleen LLM — geen embedding model, geen DB Ja — standaard local-first; Ollama ondersteund Context-boom op basis van bestanden; geen embedding pipeline
Supermemory Cloud Betaald LLM + PostgreSQL/pgvector (enterprise Cloudflare deploy) Alleen enterprise plan Context fencing + session graph ingest

Gedetailleerde analyse

Honcho

Beste voor: multi-agent systemen, cross-sessie context, uitlijning tussen gebruiker en agent.

Honcho draait naast het bestaande geheugen — USER.md blijft ongewijzigd en Honcho voegt een extra laag context toe. Het modelleert gesprekken als peers die berichten uitwisselen — één gebruikers-peer plus één AI-peer per Hermes-profiel, die allemaal een werkruimte delen.

Externe afhankelijkheden: Honcho vereist een LLM voor sessiesamenvatting, het afleiden van gebruikersrepresentatie en dialectisch redeneren; een embedding-model voor semantisch zoeken door observaties; PostgreSQL met de pgvector-extensie voor vectoropslag; en Redis voor caching. De beheerde cloud op api.honcho.dev regelt dit allemaal voor u. Voor self-hosted implementaties (Docker, K3s of Fly.io) gebruikt u uw eigen gegevens. De LLM-slot accepteert elke OpenAI-compatibele endpoint, inclusief Ollama en vLLM, zodat inferentie on-premises kan blijven. De embedding-slot staat standaard op openai/text-embedding-3-small, maar ondersteunt configureerbare providers via LLM_EMBEDDING_API_KEY en LLM_EMBEDDING_BASE_URL — elke OpenAI-compatibele embedding-server werkt, inclusief lokale opties zoals vLLM met een BGE-model.

Tools: honcho_profile (lezen/bijwerken peer card), honcho_search (semantisch zoeken), honcho_context (sessiecontext — samenvatting, representatie, card, berichten), honcho_reasoning (door LLM gesynthetiseerd), honcho_conclude (conclusies maken/verwijderen).

Belangrijke configuratie-opties:

  • contextCadence (standaard 1): Minimaal aantal beurten tussen verversing van de basislaag
  • dialecticCadence (standaard 2): Minimaal aantal beurten tussen peer.chat() LLM-aanroepen (1-5 aanbevolen)
  • dialecticDepth (standaard 1): .chat() passes per aanroep (beperkt tot 1-3)
  • recallMode (standaard ‘hybrid’): hybrid (auto+tools), context (alleen injecteren), tools (alleen tools)
  • writeFrequency (standaard ‘async’): Timing van het wegschrijven: async, turn, session, of geheel getal N
  • observationMode (standaard ‘directional’): directional (alles aan) of unified (gedeelde pool)

Architectuur: Tweelaagse context-injectie — basislaag (sessiesamenvatting + representatie + peer card) + dialectische aanvulling (LLM-redenering). Selecteert automatisch tussen cold-start en warm prompts.

Multi-peer mapping: De workspace is een gedeelde omgeving over profielen heen. De gebruikers-peer (peerName) is een globale menselijke identiteit. De AI-peer (aiPeer) is er één per Hermes-profiel (hermes standaard, hermes.<profiel> voor anderen).

Setup:

hermes memory setup  # selecteer "honcho"
# of legacy: hermes honcho setup

Configuratie: $HERMES_HOME/honcho.json (profiel-lokaal) of ~/.honcho/config.json (globaal).

Profielbeheer:

hermes profile create coder --clone  # Maakt hermes.coder aan met gedeelde workspace
hermes honcho sync                   # Vult AI-peers aan voor bestaande profielen

OpenViking

Beste voor: self-hosted kennisbeheer met gestructureerd browsen.

OpenViking biedt een filesystem-hiërarchie met gelaagde loading. Het is gratis, self-hosted en geeft u volledige controle over uw geheugenopslag.

Externe afhankelijkheden: OpenViking vereist een VLM (vision-language model) voor semantische verwerking en geheugenextractie, en een embedding-model voor vectorzoekopdrachten — beide zijn verplicht. Ondersteunde VLM-providers zijn onder andere OpenAI, Anthropic, DeepSeek, Gemini, Moonshot en vLLM (voor lokale implementatie). Voor embeddings zijn ondersteunde providers OpenAI, Volcengine (Doubao), Jina, Voyage en — via Ollama — elk lokaal aangeboden embedding-model. De interactieve openviking-server init wizard kan beschikbaar RAM detecteren en geschikte Ollama-modellen aanbevelen (bijv. Qwen3-Embedding 8B voor embeddings, Gemma 4 27B voor VLM) en configureert alles automatisch voor een volledig lokale setup zonder API-sleutels. Er is geen externe database nodig; OpenViking slaat geheugen op in het bestandssysteem.

Tools: viking_search, viking_read (gelaagd), viking_browse, viking_remember, viking_add_resource.

Setup:

pip install openviking
openviking-server init   # interactieve wizard (aanbevelingen Ollama-modellen voor lokale setup)
openviking-server
hermes memory setup  # selecteer "openviking"
echo "OPENVIKING_ENDPOINT=http://localhost:1933" >> ~/.hermes/.env

Mem0

Beste voor: moeiteloos geheugenbeheer met automatische extractie.

Mem0 regelt geheugenextractie aan de serverzijde via een LLM-aanroep bij elke add operatie — het leest het gesprek, extraheert discrete feiten, verwijdert duplicaten en slaat ze op. De beheerde cloud-API regelt de volledige infrastructuur. De open-source bibliotheek en de self-hosted server geven u volledige controle.

Externe afhankelijkheden: Mem0 vereist een LLM voor geheugenextractie (standaard: OpenAI gpt-4.1-nano; 20 providers ondersteund, inclusief Ollama, vLLM en LM Studio voor lokale modellen) en een embedding-model voor retrieval (standaard: OpenAI text-embedding-3-small; 10 providers ondersteund, inclusief Ollama en HuggingFace voor lokale modellen). Opslag maakt gebruik van Qdrant op /tmp/qdrant in bibliotheekmodus, of PostgreSQL met pgvector in self-hosted servermodus — beide kunnen lokaal draaien. Een volledig lokale Mem0-stack zonder cloud is haalbaar: Ollama voor LLM, Ollama voor embeddings, en een lokale Qdrant-instantie, allemaal geconfigureerd via Memory.from_config.

Tools: mem0_profile, mem0_search, mem0_conclude.

Setup:

pip install mem0ai
hermes memory setup  # selecteer "mem0"
echo "MEM0_API_KEY=jouw-sleutel" >> ~/.hermes/.env

Configuratie: $HERMES_HOME/mem0.json (user_id: hermes-user, agent_id: hermes).

Hindsight

Beste voor: kennisgrafiek-gebaseerde recall met entiteitsrelaties.

Hindsight bouwt een kennisgrafiek van uw geheugen door entiteiten en relaties te extraheren. De unieke reflect tool voert cross-memory synthese uit — het combineert meerdere herinneringen tot nieuwe inzichten. Recall voert vier retrieval-strategieën parallel uit (semantisch, keyword/BM25, graafdoorloop, temporeel), en voegt de resultaten vervolgens samen en sorteert ze opnieuw met behulp van reciprocal rank fusion.

Externe afhankelijkheden: Hindsight vereist een LLM voor de extractie van feiten en entiteiten bij retain aanroepen, en voor synthese bij reflect aanroepen (standaard: OpenAI; ondersteunde providers zijn o.a. Anthropic, Gemini, Groq, Ollama, LM Studio en elke OpenAI-compatibele endpoint). Het embedding-model en het cross-encoder reranking-model zijn ingebouwd in Hindsight zelf — deze draaien lokaal binnen het hindsight-all pakket en vereisen geen externe API. PostgreSQL is ook ingebouwd bij de embedded Python-installatie via een beheerde pg0 gegevensmap; u kunt Hindsight ook naar een externe PostgreSQL-instantie verwijzen. Voor een volledig lokale setup zonder cloud stelt u HINDSIGHT_API_LLM_PROVIDER=ollama in en wijst u dit naar een lokaal Ollama-model — retain en recall werken volledig; reflect vereist een model dat tool-calling ondersteunt (bijv. qwen3:8b).

Tools: hindsight_retain, hindsight_recall, hindsight_reflect (unieke cross-memory synthese).

Setup:

hermes memory setup  # selecteer "hindsight"
echo "HINDSIGHT_API_KEY=jouw-sleutel" >> ~/.hermes/.env

Installeert automatisch hindsight-client (cloud) of hindsight-all (lokaal). Vereist >= 0.4.22.

Configuratie: $HERMES_HOME/hindsight/config.json

  • mode: cloud of local
  • recall_budget: low / mid / high
  • memory_mode: hybrid / context / tools
  • auto_retain / auto_recall: true (standaard)

Lokale UI: hindsight-embed -p hermes ui start

Holographic

Beste voor: privacy-georiënteerde setups met uitsluitend lokale opslag.

Holographic gebruikt HRR (Holographic Reduced Representation) algebra voor geheugenencodering, met trust scoring voor de betrouwbaarheid van het geheugen. Geen cloud-afhankelijkheid — alles draait lokaal op uw eigen hardware.

Externe afhankelijkheden: Geen. Holographic vereist geen LLM, geen embedding-model, geen database en geen netwerkverbinding. Geheugenencodering gebeurt volledig via HRR-algebra die binnen het proces draait. Dit maakt het uniek tussen alle acht providers — het is de enige die werkt met nul externe aanroepen. Het nadeel is dat de kwaliteit van retrieval lager is dan bij embedding-gebaseerd semantisch zoeken, en er is geen cross-memory synthese zoals de reflect tool van Hindsight. Voor gebruikers voor wie privacy en een werking zonder afhankelijkheden niet onderhandelbaar zijn, is Holographic de enige optie die dit onvoorwaardelijk levert.

Tools: 2 tools voor geheugenbewerkingen via HRR-algebra.

Setup:

hermes memory setup  # selecteer "holographic"

RetainDB

Beste voor: updates met een hoge frequentie met delta-compressie.

RetainDB gebruikt delta-compressie om geheugenupdates efficiënt op te slaan en hybride retrieval (vector + BM25 + reranking) om relevante context naar voren te halen. Het is cloud-gebaseerd met een kostenpost van $20 per maand, waarbij alle geheugenverwerking aan de serverzijde wordt afgehandeld.

Externe afhankelijkheden: De LLM-aanroepen, de embedding-pipeline en de reranking van RetainDB draaien allemaal op de eigen cloud-infrastructuur van RetainDB — u levert alleen een RETAINDB_KEY. Geheugenextractie gebruikt Claude Sonnet aan de serverzijde. Er is geen optie voor self-hosting of een lokale modus. Alle gesprekgegevens worden naar de servers van RetainDB gestuurd voor verwerking en opslag. Als gegevenssoevereiniteit of offline gebruik belangrijk is voor uw gebruikssituatie, is deze provider niet geschikt.

Tools: retaindb_profile (gebruikersprofiel), retaindb_search (semantisch zoeken), retaindb_context (taakrelevante context), retaindb_remember (opslaan met type + belangrijkheid), retaindb_forget (geheugen verwijderen).

Setup:

hermes memory setup  # selecteer "retaindb"

ByteRover

Beste voor: local-first geheugen met menselijk leesbare, controleerbare opslag.

ByteRover slaat geheugen op als een gestructureerde markdown context-boom — een hiërarchie van domein-, onderwerp- en subonderwerpbestanden — in plaats van embedding-vectoren of een database. Een LLM leest de broninhoud, redeneert erover en plaatst de geëxtraheerde kennis op de juiste plek in de hiërarchie. Retrieval is MiniSearch full-text search met een gelaagde fallback naar LLM-gestuurd zoeken, zonder dat er een vectordatabase nodig is.

Externe afhankelijkheden: ByteRover vereist een LLM voor geheugencuratie en zoeken (18 providers ondersteund, inclusief Anthropic, OpenAI, Google, Ollama en elke OpenAI-compatibele endpoint via de openai-compatible provider-slot). Het vereist geen embedding-model en geen database — de context-boom is een lokale map met gewone markdown-bestanden. Cloud-synchronisatie is optioneel en wordt alleen gebruikt voor team-samenwerking; standaard werkt alles volledig offline. Voor een volledig zelfstandige lokale setup kunt u Ollama als provider verbinden (brv providers connect openai-compatible --base-url http://localhost:11434/v1) en dan verlaat er geen gegevens uw machine.

Tools: 3 tools voor geheugenbewerkingen.

Setup:

hermes memory setup  # selecteer "byterover"

Supermemory

Beste voor: enterprise workflows met context fencing en session graph ingest.

Supermemory biedt context fencing (het isoleren van geheugen per context) en session graph ingest (het importeren van volledige gesprekshistorieën). Het extraheert automatisch herinneringen, bouwt gebruikersprofielen en voert hybride retrieval uit die semantisch en keyword-zoeken combineert. De beheerde cloud-API is het primaire implementatiiedoel.

Externe afhankelijkheden: De cloudservice van Supermemory regelt alle LLM-inferentie en embeddings aan de serverzijde — u levert alleen een Supermemory API-sleutel. Self-hosting is uitsluitend beschikbaar als een enterprise plan add-on en wordt geïmplementeerd op Cloudflare Workers; het vereist dat u PostgreSQL met de pgvector-extensie levert (voor vectoropslag) en een OpenAI API-sleutel (verplicht, met Anthropic en Gemini als optionele toevoegingen). Er is geen Docker-gebaseerd of lokaal self-hosting pad — de architectuur is nauw verbonden met Cloudflare Workers edge compute. Voor gebruikers die volledige gegevenssoevereiniteit nodig hebben zonder een enterprise-contract, is deze provider niet de juiste keuze.

Tools: 4 tools voor geheugenbewerkingen.

Setup:

hermes memory setup  # selecteer "supermemory"

Hoe te kiezen

  • Heeft u multi-agent ondersteuning nodig? Honcho
  • Wilt u self-hosted en gratis? OpenViking of Holographic
  • Wilt u zero-config? Mem0
  • Wilt u kennisgrafieken? Hindsight
  • Wilt u delta-compressie? RetainDB
  • Wilt u bandbreedte-efficiëntie? ByteRover
  • Wilt u enterprise-functies? Supermemory
  • Wilt u privacy (alleen lokaal)? Holographic
  • Wilt u volledig lokaal met nul externe services? Holographic (helemaal geen afhankelijkheden) of Hindsight/Mem0/ByteRover met Ollama
  • Wilt u menselijk leesbaar, controleerbaar geheugen zonder embedding pipeline? ByteRover

Voor volledige providerconfiguraties per profiel en real-world workflow patronen, zie Hermes Agent production setup.


Gerelateerde gidsen

Abonneren

Ontvang nieuwe berichten over systemen, infrastructuur en AI-engineering.