Escolhendo o LLM certo para o Cognee: Configuração local do Ollama

Reflexões sobre LLMs para Cognee auto-hospedado

Conteúdo da página

Escolher o Melhor LLM para Cognee exige equilibrar a qualidade da construção de gráficos, as taxas de alucinação e as restrições de hardware.
Cognee destaca-se com modelos maiores e com baixa alucinação (32B+) via Ollama, mas opções de tamanho médio funcionam para configurações mais leves.

Para uma comparação mais ampla entre Ollama, vLLM, Docker Model Runner, LocalAI e provedores de nuvem — incluindo trade-offs de custo e infraestrutura — veja LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

lecture-in-the-library

Principais Requisitos do Cognee

O Cognee depende do LLM para extração de entidades, inferência de relações e geração de metadados. Modelos com menos de 32B frequentemente produzem gráficos ruidosos, enquanto uma alta alucinação (por exemplo, 90%+) polui os nós/arestas, prejudicando a recuperação. Os documentos oficiais recomendam deepseek-r1:32b ou llama3.3-70b-instruct-q3_K_M combinados com embeddings do Mistral.

Tabela de Comparação de Modelos

Modelo Parâmetros Alucinação (SimpleQA/est.) VRAM (quantizado) Pontos Fortes do Cognee Fraquezas
gpt-oss:20b 20B 91,4% ~16GB Inferência rápida, chamada de ferramentas Ruído grave nos gráficos
Qwen3:14b 14B ~40-45% ~12-14GB Eficiente em hardware modesto Profundidade limitada para gráficos
Devstral Small 2 24B ~8-10% ~18-20GB Foco em programação, entidades limpas Maior VRAM do que Qwen3
Llama3.3-70b 70B ~30-40% ~40GB+ Qualidade ideal dos gráficos Necessidades pesadas de recursos
Deepseek-r1:32b 32B Baixa (recomendado) ~24-32GB Melhor para raciocínio/gráficos Mais lento em GPUs de consumo

Dados sintetizados a partir dos documentos do Cognee, cartões de modelos e benchmarks, os níveis de alucinação, embora pareçam estar fora de sintonia, podem não estar muito longe da realidade…

Recomendações por Hardware

  • Alto rendimento (VRAM de 32GB+): Deepseek-r1:32b ou Llama3.3-70b. Esses modelos produzem os gráficos mais limpos conforme orientação do Cognee.
  • Médio (VRAM de 16-24GB): Devstral Small 2. Baixa alucinação e habilidade em programação são adequadas para tarefas de memória estruturada.
  • Orçamento (VRAM de 12-16GB): Qwen3:14b em vez de gpt-oss:20b — evite os perigos de 91% de alucinação.
  • Pensando em evitar gpt-oss:20b para Cognee; há anotações de que seus erros se amplificam na construção de gráficos não filtrados. Mas a velocidade de inferência em minha GPU é 2+ vezes mais rápida….

Configuração Rápida de Ollama + Cognee

# 1. Puxar o modelo (por exemplo, Devstral)
ollama pull devstral-small-2:24b  # ou qwen3:14b, etc.

# 2. Instalar Cognee
pip install "cognee[ollama]"

# 3. Variáveis de ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensões
export EMBEDDING_DIMENSIONS=768

# 4. Testar o gráfico
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Corresponda as dimensões de embedding (por exemplo, 768, 1024) entre a configuração e o armazenamento vetorial. Embedding Qwen3 (não testados no Cognee) poderiam funcionar em dimensões de 1024-4096 se suportados pelo Ollama.

Priorize modelos com baixa alucinação para pipelines de produção do Cognee — seus gráficos agradecerão.
Teste no seu hardware e monitore a coerência do gráfico.
Para ver como o Ollama se encaixa com outras opções locais e de nuvem de LLM, consulte nosso guia LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Modelos de embedding

Não pensei muito nisso, mas aqui está uma tabela que juntei, para referência futura

Modelo do Ollama Tamanho, GB Dimensões de Embedding Comprimento do Contexto
nomic-embed-text:latest 0,274 768 2k
jina-embeddings-v2-base-en:latest 0,274 768 8k
nomic-embed-text-v2-moe 0,958 768 512
qwen3-embedding:0.6b 0,639 1024 32K
qwen3-embedding:4b 2,5 2560 32K
qwen3-embedding:8b 4,7 4096 32K
avr/sfr-embedding-mistral:latest 4,4 4096 32K