Cognee에 적합한 LLM 선택: 로컬 Ollama 설정

자체 호스팅된 Cognee를 위한 LLM에 대한 고찰

Page content

Best LLM for Cognee을 선택할 때는 그래프 생성 품질, 환상 발생 비율, 하드웨어 제약 조건 사이에서 균형을 유지해야 합니다.
Cognee는 Ollama를 통해 32B 이상의 저환상 모델을 사용하여 우수한 성능을 보입니다. 그러나 중간 규모의 모델도 가벼운 설정에 적합합니다.

Ollama와 vLLM, Docker Model Runner, LocalAI, 클라우드 제공업체 간의 비교, 비용 및 인프라 트레이드오프에 대한 더 넓은 분석은 LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared를 참조하세요.

lecture-in-the-library

Cognee의 주요 요구 사항

Cognee는 엔티티 추출, 관계 추론 및 메타데이터 생성에 LLM을 의존합니다. 32B 미만의 모델은 종종 노이즈가 많은 그래프를 생성하며, 높은 환상 비율(예: 90% 이상)은 노드/엣지에 오염을 일으켜 검색 성능을 저하시킵니다. 공식 문서에서는 deepseek-r1:32b 또는 llama3.3-70b-instruct-q3_K_M과 Mistral 임베딩을 함께 사용하는 것을 권장합니다.

모델 비교 표

모델 파라미터 수 환상 비율 (SimpleQA/추정) VRAM (정규화) Cognee의 강점 약점
gpt-oss:20b 20B 91.4% ~16GB 빠른 추론, 도구 호출 심각한 그래프 노이즈
Qwen3:14b 14B ~40-45% ~12-14GB 중소규모 하드웨어에서 효율적 그래프 깊이 제한
Devstral Small 2 24B ~8-10% ~18-20GB 코딩 중심, 깨끗한 엔티티 Qwen3보다 VRAM 요구량 높음
Llama3.3-70b 70B ~30-40% ~40GB+ 최적의 그래프 품질 높은 자원 요구량
Deepseek-r1:32b 32B 낮음 (추천) ~24-32GB 추론/그래프에 최적 소비자 GPU에서 느림

Cognee 문서, 모델 카드 및 벤치마크에서 합성된 데이터이며, 환상 수준 데이터는 비정상적으로 보일 수 있지만 실제 수치와 멀지 않을 수 있습니다.

하드웨어에 따른 추천

  • 고사양 (32GB 이상 VRAM): Deepseek-r1:32b 또는 Llama3.3-70b. Cognee의 지침에 따르면 가장 깨끗한 그래프를 생성합니다.
  • 중간 사양 (16-24GB VRAM): Devstral Small 2. 낮은 환상 비율과 코딩 능력이 구조화된 메모리 작업에 적합합니다.
  • 예산 (12-16GB VRAM): Qwen3:14b가 gpt-oss:20b보다 우수합니다. 91% 환상 비율의 함정을 피하세요.
  • Cognee를 위해 gpt-oss:20b를 사용하는 것을 피하는 것이 좋습니다. 필터링되지 않은 그래프 생성 시 오류가 증폭될 수 있다는 주석이 있습니다. 그러나 제 GPU에서 추론 속도는 2배 이상 빠릅니다….

Ollama + Cognee 빠른 설정

# 1. 모델 끌어오기 (예: Devstral)
ollama pull devstral-small-2:24b  # 또는 qwen3:14b 등

# 2. Cognee 설치
pip install "cognee[ollama]"

# 3. 환경 변수 설정
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 차원
export EMBEDDING_DIMENSIONS=768

# 4. 그래프 테스트
cognee-cli add your_data_file.txt --dataset-name "test_graph"

구성과 벡터 저장소에서 임베딩 차원(예: 768, 1024)을 일치시켜야 합니다. Qwen3 임베딩 (Cognee에서 검증되지 않음)는 Ollama가 지원하는 경우 1024-4096 차원에서 작동할 수 있습니다.

생산용 Cognee 파이프라인에서는 낮은 환상 비율의 모델을 우선 고려하세요. 그래프는 당신에게 감사할 것입니다.
하드웨어에서 테스트하고 그래프의 일관성을 모니터링하세요.
Ollama가 다른 로컬 및 클라우드 LLM 옵션과 어떻게 어울리는지 확인하려면 LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared 가이드를 참조하세요.

임베딩 모델

이 부분에 대해 깊이 생각하지 않았지만, 향후 참고를 위해 아래 표를 정리했습니다.

Ollama 모델 크기, GB 임베딩 차원 컨텍스트 길이
nomic-embed-text:latest 0.274 768 2k
jina-embeddings-v2-base-en:latest 0.274 768 8k
nomic-embed-text-v2-moe 0.958 768 512
qwen3-embedding:0.6b 0.639 1024 32K
qwen3-embedding:4b 2.5 2560 32K
qwen3-embedding:8b 4.7 4096 32K
avr/sfr-embedding-mistral:latest 4.4 4096 32K

유용한 링크