Escolhendo o LLM certo para o Cognee: Configuração local do Ollama
Reflexões sobre LLMs para Cognee auto-hospedado
Escolher o Melhor LLM para Cognee exige equilibrar a qualidade da construção de gráficos, as taxas de alucinação e as restrições de hardware.
Cognee destaca-se com modelos maiores e com baixa alucinação (32B+) via Ollama, mas opções de tamanho médio funcionam para configurações mais leves.
Para uma comparação mais ampla entre Ollama, vLLM, Docker Model Runner, LocalAI e provedores de nuvem — incluindo trade-offs de custo e infraestrutura — veja LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Principais Requisitos do Cognee
O Cognee depende do LLM para extração de entidades, inferência de relações e geração de metadados. Modelos com menos de 32B frequentemente produzem gráficos ruidosos, enquanto uma alta alucinação (por exemplo, 90%+) polui os nós/arestas, prejudicando a recuperação. Os documentos oficiais recomendam deepseek-r1:32b ou llama3.3-70b-instruct-q3_K_M combinados com embeddings do Mistral.
Tabela de Comparação de Modelos
| Modelo | Parâmetros | Alucinação (SimpleQA/est.) | VRAM (quantizado) | Pontos Fortes do Cognee | Fraquezas |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16GB | Inferência rápida, chamada de ferramentas | Ruído grave nos gráficos |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Eficiente em hardware modesto | Profundidade limitada para gráficos |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Foco em programação, entidades limpas | Maior VRAM do que Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Qualidade ideal dos gráficos | Necessidades pesadas de recursos |
| Deepseek-r1:32b | 32B | Baixa (recomendado) | ~24-32GB | Melhor para raciocínio/gráficos | Mais lento em GPUs de consumo |
Dados sintetizados a partir dos documentos do Cognee, cartões de modelos e benchmarks, os níveis de alucinação, embora pareçam estar fora de sintonia, podem não estar muito longe da realidade…
Recomendações por Hardware
- Alto rendimento (VRAM de 32GB+): Deepseek-r1:32b ou Llama3.3-70b. Esses modelos produzem os gráficos mais limpos conforme orientação do Cognee.
- Médio (VRAM de 16-24GB): Devstral Small 2. Baixa alucinação e habilidade em programação são adequadas para tarefas de memória estruturada.
- Orçamento (VRAM de 12-16GB): Qwen3:14b em vez de gpt-oss:20b — evite os perigos de 91% de alucinação.
- Pensando em evitar gpt-oss:20b para Cognee; há anotações de que seus erros se amplificam na construção de gráficos não filtrados. Mas a velocidade de inferência em minha GPU é 2+ vezes mais rápida….
Configuração Rápida de Ollama + Cognee
# 1. Puxar o modelo (por exemplo, Devstral)
ollama pull devstral-small-2:24b # ou qwen3:14b, etc.
# 2. Instalar Cognee
pip install "cognee[ollama]"
# 3. Variáveis de ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dimensões
export EMBEDDING_DIMENSIONS=768
# 4. Testar o gráfico
cognee-cli add your_data_file.txt --dataset-name "test_graph"
Corresponda as dimensões de embedding (por exemplo, 768, 1024) entre a configuração e o armazenamento vetorial. Embedding Qwen3 (não testados no Cognee) poderiam funcionar em dimensões de 1024-4096 se suportados pelo Ollama.
Priorize modelos com baixa alucinação para pipelines de produção do Cognee — seus gráficos agradecerão.
Teste no seu hardware e monitore a coerência do gráfico.
Para ver como o Ollama se encaixa com outras opções locais e de nuvem de LLM, consulte nosso guia LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.
Modelos de embedding
Não pensei muito nisso, mas aqui está uma tabela que juntei, para referência futura
| Modelo do Ollama | Tamanho, GB | Dimensões de Embedding | Comprimento do Contexto |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Links Úteis
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Embedding Qwen3
- Configurar Pasta de Modelos do Ollama
- Ollama cheatsheet