LLM이 Cognee에 적합한 이유는 무엇인가요?

Cognee는 품질 있는 엔티티 추출, 관계 추론 및 메타데이터 생성을 위해 환상률이 낮은 LLM(최적으로 40% 미만)과 충분한 파라미터 수(32B 이상 권장)가 필요합니다. 높은 환상률(90% 이상)을 가진 모델은 검색 품질을 저하시키는 노이즈가 많은 그래프를 생성합니다.

내 하드웨어 설정에 적합한 LLM은 어떤 것이 있을까요?

고사양 설정(32GB 이상 VRAM)의 경우 Deepseek-r1:32b 또는 Llama3.3-70b를 사용하세요. 중간 수준(16 24GB VRAM)의 경우 Devstral Small 2가 환상률이 낮고 코딩에 집중하는 특성을 갖추고 있습니다. 예산 제한 설정(12 16GB VRAM)의 경우 Qwen3:14b가 gpt-oss:20b보다 훨씬 낮은 환상률을 보이기 때문에 선호됩니다.

왜 Cognee에서 gpt-oss:20b를 피해야 하는가?

빠른 추론 속도에도 불구하고 gpt-oss:20b는 그래프 노드와 엣지에 심각한 오염을 일으키는 91.4%의 환상률을 가지고 있어, 그래프 품질이 중요한 프로덕션 Cognee 파이프라인에서는 적합하지 않습니다.

Cognee에서 Ollama와 함께 작동하는 임베딩 모델은 무엇인가요?

인기 있는 옵션으로는 nomic-embed-text(768 차원, 2k 컨텍스트), jina-embeddings-v2-base-en(768 차원, 8k 컨텍스트), qwen3-embedding 모델(1024-4096 차원, 32K 컨텍스트)이 있습니다. 임베딩 차원이 벡터 스토어 구성과 일치하도록 확인하세요.

Cognee를 위한 Ollama는 LLM 호스팅 생태계에서 어떤 위치에 자리 잡고 있나요?

Ollama는 하나의 로컬 옵션입니다. 우리의 주요 LLM 호스팅 가이드는 비용과 인프라의 장단점을 고려하여 Ollama를 vLLM, Docker Model Runner, LocalAI 및 클라우드 제공업체와 비교합니다.

Ollama 외부의 백엔드와 함께 Cognee를 실행할 수 있나요?

Cognee는 Ollama 및 기타 공급업체를 지원합니다. 로컬과 클라우드 백엔드를 비교하려면 LLM 호스팅 가이드를 참조하세요.

Cognee에 적합한 LLM 선택: 로컬 Ollama 설정

자체 호스팅된 Cognee를 위한 LLM에 대한 고찰

Page content

Best LLM for Cognee을 선택할 때는 그래프 생성 품질, 환상 발생 비율, 하드웨어 제약 조건 사이에서 균형을 유지해야 합니다.
Cognee는 Ollama를 통해 32B 이상의 저환상 모델을 사용하여 우수한 성능을 보입니다. 그러나 중간 규모의 모델도 가벼운 설정에 적합합니다.

Ollama와 vLLM, Docker Model Runner, LocalAI, 클라우드 제공업체 간의 비교, 비용 및 인프라 트레이드오프에 대한 더 넓은 분석은 LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared를 참조하세요.

lecture-in-the-library

Cognee의 주요 요구 사항

Cognee는 엔티티 추출, 관계 추론 및 메타데이터 생성에 LLM을 의존합니다. 32B 미만의 모델은 종종 노이즈가 많은 그래프를 생성하며, 높은 환상 비율(예: 90% 이상)은 노드/엣지에 오염을 일으켜 검색 성능을 저하시킵니다. 공식 문서에서는 deepseek-r1:32b 또는 llama3.3-70b-instruct-q3_K_M과 Mistral 임베딩을 함께 사용하는 것을 권장합니다.

모델 비교 표

모델	파라미터 수	환상 비율 (SimpleQA/추정)	VRAM (정규화)	Cognee의 강점	약점
gpt-oss:20b	20B	91.4%	~16GB	빠른 추론, 도구 호출	심각한 그래프 노이즈
Qwen3:14b	14B	~40-45%	~12-14GB	중소규모 하드웨어에서 효율적	그래프 깊이 제한
Devstral Small 2	24B	~8-10%	~18-20GB	코딩 중심, 깨끗한 엔티티	Qwen3보다 VRAM 요구량 높음
Llama3.3-70b	70B	~30-40%	~40GB+	최적의 그래프 품질	높은 자원 요구량
Deepseek-r1:32b	32B	낮음 (추천)	~24-32GB	추론/그래프에 최적	소비자 GPU에서 느림

Cognee 문서, 모델 카드 및 벤치마크에서 합성된 데이터이며, 환상 수준 데이터는 비정상적으로 보일 수 있지만 실제 수치와 멀지 않을 수 있습니다.

하드웨어에 따른 추천

고사양 (32GB 이상 VRAM): Deepseek-r1:32b 또는 Llama3.3-70b. Cognee의 지침에 따르면 가장 깨끗한 그래프를 생성합니다.
중간 사양 (16-24GB VRAM): Devstral Small 2. 낮은 환상 비율과 코딩 능력이 구조화된 메모리 작업에 적합합니다.
예산 (12-16GB VRAM): Qwen3:14b가 gpt-oss:20b보다 우수합니다. 91% 환상 비율의 함정을 피하세요.
Cognee를 위해 gpt-oss:20b를 사용하는 것을 피하는 것이 좋습니다. 필터링되지 않은 그래프 생성 시 오류가 증폭될 수 있다는 주석이 있습니다. 그러나 제 GPU에서 추론 속도는 2배 이상 빠릅니다….

Ollama + Cognee 빠른 설정

# 1. 모델 끌어오기 (예: Devstral)
ollama pull devstral-small-2:24b  # 또는 qwen3:14b 등

# 2. Cognee 설치
pip install "cognee[ollama]"

# 3. 환경 변수 설정
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 차원
export EMBEDDING_DIMENSIONS=768

# 4. 그래프 테스트
cognee-cli add your_data_file.txt --dataset-name "test_graph"

구성과 벡터 저장소에서 임베딩 차원(예: 768, 1024)을 일치시켜야 합니다. Qwen3 임베딩 (Cognee에서 검증되지 않음)는 Ollama가 지원하는 경우 1024-4096 차원에서 작동할 수 있습니다.

생산용 Cognee 파이프라인에서는 낮은 환상 비율의 모델을 우선 고려하세요. 그래프는 당신에게 감사할 것입니다.
하드웨어에서 테스트하고 그래프의 일관성을 모니터링하세요.
Ollama가 다른 로컬 및 클라우드 LLM 옵션과 어떻게 어울리는지 확인하려면 LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared 가이드를 참조하세요.

임베딩 모델

이 부분에 대해 깊이 생각하지 않았지만, 향후 참고를 위해 아래 표를 정리했습니다.

Ollama 모델	크기, GB	임베딩 차원	컨텍스트 길이
nomic-embed-text:latest	0.274	768	2k
jina-embeddings-v2-base-en:latest	0.274	768	8k
nomic-embed-text-v2-moe	0.958	768	512
qwen3-embedding:0.6b	0.639	1024	32K
qwen3-embedding:4b	2.5	2560	32K
qwen3-embedding:8b	4.7	4096	32K
avr/sfr-embedding-mistral:latest	4.4	4096	32K

Cognee의 주요 요구 사항

모델 비교 표

하드웨어에 따른 추천

Ollama + Cognee 빠른 설정

임베딩 모델

유용한 링크