에이전트 메모리 제공업체 비교 — Honcho, Mem0, Hindsight 및 기타 5개
지속적인 에이전트 메모리를 위한 8개의 플러그인 가능한 백엔드
탭을 닫으면 컨텍스트 창을 벗어나는 정보가 없다면 현대적인 어시스턴트는 여전히 모든 내용을 잊어버립니다. **에이전트 메모리 제공자(Agent memory providers)**는 세션 간에 사실과 요약을 유지하는 서비스 또는 라이브러리로, 프레임워크는 가볍게 유지하면서 메모리가 확장되도록 플러그인으로 연결되는 경우가 많습니다.
이 가이드는 Hermes Agent 외부 메모리 플러그인으로 제공되는 여덟 가지 백엔드(Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover, Supermemory)를 비교하고, 이들이 더 넓은 AI 시스템 스택에 어떻게 통합되는지 설명합니다. 동일한 벤더들은 커뮤니티 또는 공식 통합을 통해 OpenClaw 및 다른 에이전트 도구에서도 사용됩니다. **AI 시스템 메모리 허브**에서는 이 기사가 Cognee 및 관련 가이드와 함께 나열되어 있습니다.
Hermes 전용 유한 핵심 메모리(MEMORY.md 및 USER.md), 고정(freezing) 동작, 그리고 트리거에 대해서는 **Hermes Agent 메모리 시스템**을 참조하세요. GitHub 스타 수, OpenRouter 토큰 순위, 생태계 크기 비교를 포함하여 Hermes의 여덟 가지 네이티브 메모리 제공자가 OpenClaw에 비해 어떻게 채택 우위를 점하고 있는지 이해하려면 OpenClaw vs Hermes Agent: Stars, Downloads & Usage 2026을 참조하세요.
Hermes Agent는 지속적이고 세션 간 지식을 위해 여덟 가지 외부 메모리 제공자 플러그인을 지원합니다. 동시에 활성화될 수 있는 외부 제공자는 하나뿐입니다. 내장된 MEMORY.md와 USER.md는 이를 대체하는 것이 아니라 추가적으로 함께 로드됩니다.
외부 종속성. Holographic을 제외한 모든 외부 제공자는 최소 하나의 외부 서비스 호출이 필요합니다. 메모리 추출용 LLM, 의미론적 검색용 임베딩 모델, 또는 PostgreSQL과 같은 저장용 데이터베이스 등이 해당됩니다. 이러한 종속성은 프라이버시, 비용, 그리고 메모리 스택을 완전히 셀프 호스팅으로 실행할 수 있는지 여부에 직접적인 영향을 미칩니다. Hindsight와 ByteRover는 가장 많은 종속성을 번들링하거나 제거하며, Honcho, Mem0, Supermemory는 가장 많은 구성 요소가 필요합니다. 제공자가 Ollama 또는 OpenAI 호환 엔드포인트를 지원하는 경우, LLM 및 임베딩 호출을 로컬 모델로 라우팅하여 데이터를 제3자 서버로 완전히 전송하지 않을 수 있습니다.

Hermes Agent를 통한 활성화
아래 명령줄 단계를 Hermes Agent CLI 치트시트의 테이블과 비교해 보세요.
hermes memory setup # 인터랙티브 선택기 및 구성
hermes memory status # 활성화된 항목 확인
hermes memory off # 외부 제공자 비활성화
또는 ~/.hermes/config.yaml에서 수동으로 설정:
memory:
provider: openviking # 또는 honcho, mem0, hindsight, holographic, retaindb, byterover, supermemory
제공자 비교
| 제공자 | 저장소 | 비용 | 외부 종속성 | 셀프 호스팅 가능 | 고유 기능 |
|---|---|---|---|---|---|
| Honcho | 클라우드/셀프 호스팅 | 유료/무료 | LLM + 임베딩 모델 + PostgreSQL/pgvector + Redis | 예 — Docker / K3s / Fly.io | 변증법적 사용자 모델링 + 세션 범위 컨텍스트 |
| OpenViking | 셀프 호스팅 | 무료 | LLM (VLM) + 임베딩 모델 | 예 — 로컬 서버; Ollama 네이티브 초기화 마법사 | 파일 시스템 계층 구조 + 계층적 로딩 |
| Mem0 | 클라우드/셀프 호스팅 | 유료/무료 OSS | LLM + 임베딩 모델 + 벡터 저장소 (Qdrant 또는 pgvector) | 예 — Docker Compose OSS; 완전 로컬 가능 | 서버 측 LLM 추출 |
| Hindsight | 클라우드/로컬 | 무료/유료 | LLM + 번들 PostgreSQL + 내장 임베더 + 내장 리랭커 | 예 — Docker 또는 임베디드 Python; Ollama로 완전 로컬 | 지식 그래프 + reflect 합성 |
| Holographic | 로컬 | 무료 | 없음 | 네이티브 — 인프라 불필요 | HRR 대수 + 신뢰도 점수 |
| RetainDB | 클라우드 | 월 $20 | 클라우드 관리 (RetainDB 서버에서 LLM + 검색) | 아님 | 델타 압축 |
| ByteRover | 로컬/클라우드 | 무료/유료 | LLM만 필요 — 임베딩 모델 및 DB 불필요 | 예 — 기본 로컬 우선; Ollama 지원 | 파일 기반 컨텍스트 트리; 임베딩 파이프라인 없음 |
| Supermemory | 클라우드 | 유료 | LLM + PostgreSQL/pgvector (엔터프라이즈 Cloudflare 배포) | 엔터프라이즈 플랜만 | 컨텍스트 펜싱 + 세션 그래프 수집 |
상세 분석
Honcho
최적의 사용처: 멀티 에이전트 시스템, 세션 간 컨텍스트, 사용자-에이전트 정렬.
Honcho는 기존 메모리와 함께 작동합니다 — USER.md는 그대로 유지되며 Honcho는 추가적인 컨텍스트 레이어를 제공합니다. 대화는 메시지를 교환하는 동료(peer)로 모델링되며, 각 Hermes 프로필당 하나의 사용자 동료와 하나의 AI 동료가 작업 공간을 공유합니다.
외부 종속성: Honcho는 세션 요약, 사용자 표현 도출, 변증법적 추론을 위해 LLM이 필요하며, 관찰에 대한 의미론적 검색을 위해 임베딩 모델이 필요합니다. 벡터 저장을 위해 pgvector 확장 기능이 있는 PostgreSQL과 캐싱을 위해 Redis가 필요합니다. api.honcho.dev의 관리형 클라우드가 이를 모두 처리해 줍니다. 셀프 호스팅 배포(Docker, K3s, Fly.io)의 경우 사용자는 자체 자격 증명을 제공해야 합니다. LLM 슬롯은 Ollama 및 vLLM을 포함한 모든 OpenAI 호환 엔드포인트를 받아들이므로 추론은 온프레미스에서 유지될 수 있습니다. 임베딩 슬롯은 openai/text-embedding-3-small이 기본값이지만 LLM_EMBEDDING_API_KEY 및 LLM_EMBEDDING_BASE_URL을 통해 구성 가능한 제공자를 지원합니다 — BGE 모델이 적용된 vLLM과 같은 로컬 옵션을 포함한 모든 OpenAI 호환 임베딩 서버가 작동합니다.
도구: honcho_profile(동료 카드 읽기/업데이트), honcho_search(의미론적 검색), honcho_context(세션 컨텍스트 — 요약, 표현, 카드, 메시지), honcho_reasoning(LLM 합성), honcho_conclude(결론 생성/삭제).
주요 구성 설정:
contextCadence(기본값 1): 기본 레이어 새로 고침 사이의 최소 턴 수dialecticCadence(기본값 2):peer.chat()LLM 호출 사이의 최소 턴 수(1-5 권장)dialecticDepth(기본값 1): 호출당.chat()전달 횟수(1-3으로 제한)recallMode(기본값 ‘hybrid’):hybrid(자동+도구),context(주입만),tools(도구만)writeFrequency(기본값 ‘async’): 플러싱 타이밍:async,turn,session, 또는 정수 NobservationMode(기본값 ‘directional’):directional(모든 것 켜짐) 또는unified(공유 풀)
아키텍처: 두 레이어 컨텍스트 주입 — 기본 레이어(세션 요약 + 표현 + 동료 카드) + 변증법적 보충(LLM 추론). 콜드 스타트와 웜 프롬프트를 자동으로 선택합니다.
멀티-피어 매핑: 작업 공간은 프로필 간 공유 환경입니다. 사용자 동료(peerName)는 전역 인간 정체성입니다. AI 동료(aiPeer)는 각 Hermes 프로필당 하나씩 존재합니다(hermes 기본값, 기타는 hermes.<profile>).
설정:
hermes memory setup # "honcho" 선택
# 또는 레거시: hermes honcho setup
구성: $HERMES_HOME/honcho.json(프로필 로컬) 또는 ~/.honcho/config.json(전역).
프로필 관리:
hermes profile create coder --clone # 공유 작업 공간과 함께 hermes.coder 생성
hermes honcho sync # 기존 프로필에 대한 AI 동료 백필
OpenViking
최적의 사용처: 구조화된 브라우징을 갖춘 셀프 호스팅 지식 관리.
OpenViking은 계층적 로딩을 갖춘 파일 시스템 계층 구조를 제공합니다. 무료이며 셀프 호스팅되어 있으며 메모리 저장소에 대한 완전한 제어권을 제공합니다.
외부 종속성: OpenViking은 의미론적 처리 및 메모리 추출을 위해 VLM(비전-언어 모델)과 벡터 검색을 위해 임베딩 모델이 필요하며, 둘 다 필수입니다. 지원되는 VLM 제공자에는 OpenAI, Anthropic, DeepSeek, Gemini, Moonshot, vLLM(로컬 배포용)이 포함됩니다. 임베딩의 경우 지원되는 제공자에는 OpenAI, Volcengine(Doubao), Jina, Voyage, 그리고 Ollama를 통해 로컬에서 제공되는 임베딩 모델이 포함됩니다. openviking-server init 인터랙티브 마법사는 사용 가능한 RAM을 감지하고 적합한 Ollama 모델을 추천(Qwen3-Embedding 8B for embeddings, Gemma 4 27B for VLM)하며, 완전히 로컬이고 API 키가 필요 없는 설정을 자동으로 구성합니다. 외부 데이터베이스는 필요하지 않으며 OpenViking은 메모리를 파일 시스템에 저장합니다.
도구: viking_search, viking_read(계층적), viking_browse, viking_remember, viking_add_resource.
설정:
pip install openviking
openviking-server init # 인터랙티브 마법사 (로컬 설정을 위한 Ollama 모델 권장)
openviking-server
hermes memory setup # "openviking" 선택
echo "OPENVIKING_ENDPOINT=http://localhost:1933" >> ~/.hermes/.env
Mem0
최적의 사용처: 자동 추출을 갖춘 손쉬운 메모리 관리.
Mem0는 모든 add 작업에서 LLM 호출을 통해 서버 측에서 메모리 추출을 처리합니다 — 대화를 읽고, 개별 사실을 추출하며, 중복을 제거하고 저장합니다. 관리형 클라우드 API가 모든 인프라를 처리합니다. 오픈 소스 라이브러리와 셀프 호스팅 서버는 완전한 제어권을 제공합니다.
외부 종속성: Mem0는 메모리 추출을 위해 LLM이 필요하며(기본값: OpenAI gpt-4.1-nano; Ollama, vLLM, LM Studio를 포함한 20개 제공자 지원), 검색을 위해 임베딩 모델이 필요합니다(기본값: OpenAI text-embedding-3-small; Ollama 및 HuggingFace를 포함한 10개 제공자 지원). 저장소는 라이브러리 모드에서 /tmp/qdrant의 Qdrant를 사용하거나 셀프 호스팅 서버 모드에서 pgvector가 있는 PostgreSQL을 사용하며, 둘 다 로컬에서 실행할 수 있습니다. 완전한 로컬 및 클라우드 없는 Mem0 스택은 달성 가능합니다: LLM용 Ollama, 임베딩용 Ollama, 로컬 Qdrant 인스턴스를 Memory.from_config를 통해 구성합니다.
도구: mem0_profile, mem0_search, mem0_conclude.
설정:
pip install mem0ai
hermes memory setup # "mem0" 선택
echo "MEM0_API_KEY=your-key" >> ~/.hermes/.env
구성: $HERMES_HOME/mem0.json(user_id: hermes-user, agent_id: hermes).
Hindsight
최적의 사용처: 엔터티 관계를 갖춘 지식 그래프 기반 검색.
Hindsight는 메모리의 지식 그래프를 구축하여 엔터티와 관계를 추출합니다. 고유한 reflect 도구는 크로스-메모리 합성을 수행합니다 — 여러 메모리를 새로운 통찰력으로 결합합니다. 검색은 병렬로 네 가지 검색 전략(의미론적, 키워드/BM25, 그래프 탐색, 시간적)을 실행한 후 상호 순위 융합을 사용하여 결과를 병합하고 재정렬합니다.
외부 종속성: Hindsight는 retain 호출 시 사실 및 엔터티 추출과 reflect 호출 시 합성을 위해 LLM이 필요합니다(기본값: OpenAI; Anthropic, Gemini, Groq, Ollama, LM Studio 및 모든 OpenAI 호환 엔드포인트 지원). 임베딩 모델과 크로스-엔코더 리랭킹 모델은 Hindsight 자체에 번들링되어 있으며 — hindsight-all 패키지 내에서 로컬로 실행되어 외부 API가 필요하지 않습니다. PostgreSQL도 관리되는 pg0 데이터 디렉토리를 통해 임베디드 Python 설치와 함께 번들링되며, 외부 PostgreSQL 인스턴스를 가리키도록 Hindsight를 구성할 수도 있습니다. 완전한 로컬 및 클라우드 없는 설정을 위해 HINDSIGHT_API_LLM_PROVIDER=ollama를 설정하고 로컬 Ollama 모델을 가리키면 — retain과 recall이 완전히 작동하며, reflect는 도구 호출 기능이 있는 모델(예: qwen3:8b)이 필요합니다.
도구: hindsight_retain, hindsight_recall, hindsight_reflect(고유한 크로스-메모리 합성).
설정:
hermes memory setup # "hindsight" 선택
echo "HINDSIGHT_API_KEY=your-key" >> ~/.hermes/.env
hindsight-client(클라우드) 또는 hindsight-all(로컬) 자동 설치. >= 0.4.22 필요.
구성: $HERMES_HOME/hindsight/config.json
mode:cloud또는localrecall_budget:low/mid/highmemory_mode:hybrid/context/toolsauto_retain/auto_recall:true(기본값)
로컬 UI: hindsight-embed -p hermes ui start
Holographic
최적의 사용처: 로컬 전용 저장소를 갖춘 프라이버시 중심 설정.
Holographic은 메모리 인코딩을 위해 HRR(Holographic Reduced Representation) 대수를 사용하며, 메모리 신뢰도를 위해 신뢰도 점수를 사용합니다. 클라우드 종속성이 없으며 모든 것이 자체 하드웨어에서 로컬로 실행됩니다.
외부 종속성: 없음. Holographic은 LLM, 임베딩 모델, 데이터베이스 또는 네트워크 연결이 필요하지 않습니다. 메모리 인코딩은 프로세스 내에서 실행되는 HRR 대수를 통해 완전히 처리됩니다. 이는 여덟 가지 제공자 중 유일하게 외부 호출이 전혀 없이 작동한다는 점에서 독특합니다. 단점은 검색 품질이 임베딩 기반 의미론적 검색보다 낮고 Hindsight의 reflect와 같은 크로스-메모리 합성이 없다는 것입니다. 프라이버시와 제로-종속성 작동이 절대적인 사용자에게 Holographic은 이를 무조건적으로 제공하는 유일한 옵션입니다.
도구: HRR 대수를 통한 2개의 메모리 작업 도구.
설정:
hermes memory setup # "holographic" 선택
RetainDB
최적의 사용처: 델타 압축을 갖춘 고빈도 업데이트.
RetainDB는 메모리 업데이트를 효율적으로 저장하고 관련 컨텍스트를 표시하기 위해 하이브리드 검색(벡터 + BM25 + 리랭킹)을 사용하는 델타 압축을 사용합니다. 월 $20 비용의 클라우드 기반이며 모든 메모리 처리가 서버 측에서 처리됩니다.
외부 종속성: RetainDB의 LLM 호출, 임베딩 파이프라인 및 리랭킹은 모두 RetainDB의 자체 클라우드 인프라에서 실행되며 — 사용자는 RETAINDB_KEY만 제공하면 됩니다. 메모리 추출은 서버 측에서 Claude Sonnet을 사용합니다. 셀프 호스팅 옵션이나 로컬 모드가 없습니다. 모든 대화 데이터가 처리 및 저장을 위해 RetainDB 서버로 전송됩니다. 데이터 주권이나 오프라인 작동이 사용 사례에 중요한 경우 이 제공자는 적합하지 않습니다.
도구: retaindb_profile(사용자 프로필), retaindb_search(의미론적 검색), retaindb_context(작업 관련 컨텍스트), retaindb_remember(유형 + 중요도로 저장), retaindb_forget(메모리 삭제).
설정:
hermes memory setup # "retaindb" 선택
ByteRover
최적의 사용처: 사람이 읽고 감사할 수 있는 저장소를 갖춘 로컬 우선 메모리.
ByteRover는 임베딩 벡터 또는 데이터베이스 대신 구조화된 마크다운 컨텍스트 트리(도메인, 주제, 하위 주제 파일의 계층 구조)로 메모리를 저장합니다. LLM은 소스 콘텐츠를 읽고 추론하여 추출된 지식을 계층 구조의 올바른 위치에 배치합니다. 검색은 벡터 데이터베이스가 필요 없는 MiniSearch 전체 텍스트 검색이며, LLM 기반 검색으로 계층적 폴백이 있습니다.
외부 종속성: ByteRover는 메모리 큐레이션 및 검색을 위해 LLM이 필요하며(Anthropic, OpenAI, Google, Ollama 및 openai-compatible 제공자 슬롯을 통한 모든 OpenAI 호환 엔드포인트를 포함한 18개 제공자 지원) 임베딩 모델 및 데이터베이스가 필요하지 않습니다 — 컨텍스트 트리는 일반 마크다운 파일의 로컬 디렉토리입니다. 클라우드 동기화는 선택 사항이며 팀 협업에만 사용되며, 기본적으로 모든 것이 오프라인에서 완전히 작동합니다. 완전히 자체 포함된 로컬 설정을 위해 Ollama를 제공자로 연결(brv providers connect openai-compatible --base-url http://localhost:11434/v1)하면 데이터가 기기에서 나가지 않습니다.
도구: 3개의 메모리 작업 도구.
설정:
hermes memory setup # "byterover" 선택
Supermemory
최적의 사용처: 컨텍스트 펜싱 및 세션 그래프 수집을 갖춘 엔터프라이즈 워크플로우.
Supermemory는 컨텍스트 펜싱(컨텍스트별 메모리 격리)과 세션 그래프 수집(전체 대화 기록 가져오기)을 제공합니다. 자동으로 메모리를 추출하고 사용자 프로필을 구축하며, 의미론적 검색과 키워드 검색을 결합한 하이브리드 검색을 실행합니다. 관리형 클라우드 API가 주요 배포 대상입니다.
외부 종속성: Supermemory의 클라우드 서비스는 모든 LLM 추론과 임베딩을 서버 측에서 처리하며 — 사용자는 Supermemory API 키만 제공하면 됩니다. 셀프 호스팅은 엔터프라이즈 플랜 추가 기능으로만 사용 가능하며 Cloudflare Workers에 배포됩니다; 벡터 저장을 위한 pgvector 확장 기능이 있는 PostgreSQL과 OpenAI API 키(필수, Anthropic 및 Gemini는 선택적 추가)를 제공해야 합니다. Docker 기반 또는 로컬 셀프 호스팅 경로는 없으며 — 아키텍처는 Cloudflare Workers 엣지 컴퓨팅과 긴밀하게 결합되어 있습니다. 엔터프라이즈 계약 없이 완전한 데이터 주권이 필요한 사용자에게 이 제공자는 적합한 선택이 아닙니다.
도구: 4개의 메모리 작업 도구.
설정:
hermes memory setup # "supermemory" 선택
###如何选择
- 멀티 에이전트 지원이 필요합니까? Honcho
- 셀프 호스팅과 무료가 필요합니까? OpenViking 또는 Holographic
- 제로-구성이 필요합니까? Mem0
- 지식 그래프가 필요합니까? Hindsight
- 델타 압축이 필요합니까? RetainDB
- 대역폭 효율성이 필요합니까? ByteRover
- 엔터프라이즈 기능이 필요합니까? Supermemory
- 프라이버시(로컬 전용)가 필요합니까? Holographic
- 외부 서비스가 전혀 없는 완전 로컬이 필요합니까? Holographic(종속성 없음) 또는 Ollama와 함께 Hindsight/Mem0/ByteRover
- 임베딩 파이프라인 없이 사람이 읽고 감사할 수 있는 메모리가 필요합니까? ByteRover
프로필별 제공자 구성과 실제 워크플로우 패턴에 대해서는 Hermes Agent 프로덕션 설정을 참조하세요.
관련 가이드
- AI 시스템 메모리 허브 — 이 서브클러스터의 범위 및 Cognee 가이드 링크
- Hermes Agent 메모리 시스템 — 플러그인 전의 핵심 두 파일 메모리
- Hermes Agent 프로덕션 설정 — 실제 제공자별 프로필 와이어링