O que torna um LLM adequado para o Cognee?

A Cognee requer LLMs com taxas baixas de alucinação (idealmente abaixo de 40%) e contagem suficiente de parâmetros (recomendado 32B+) para extração de entidades de qualidade, inferência de relações e geração de metadados. Modelos com altas taxas de alucinação (90%+) produzem grafos ruidosos que prejudicam a qualidade da recuperação.

Qual LLM devo escolher para minha configuração de hardware?

Para configurações de alta gama (32 GB+ de VRAM), use Deepseek-r1:32b ou Llama3.3-70b. Para configurações intermediárias (16-24 GB de VRAM), o Devstral Small 2 oferece baixa geração de informações não solicitadas e foco em programação. Para configurações de orçamento (12-16 GB de VRAM), o Qwen3:14b é preferível ao gpt-oss:20b devido a taxas muito menores de geração de informações não solicitadas.

Por que evitar gpt-oss:20b para Cognee?

Apesar das velocidades rápidas de inferência, o gpt-oss:20b possui uma taxa de 91,4% de alucinações que contaminam severamente os nós e arestas do grafo, tornando-o inadequado para pipelines de produção do Cognee, onde a qualidade do grafo é crítica.

Quais modelos de embedding funcionam com o Cognee no Ollama?

Opções populares incluem nomic-embed-text (768 dimensões, contexto de 2k), jina-embeddings-v2-base-en (768 dimensões, contexto de 8k) e modelos qwen3-embedding (1024-4096 dimensões, contexto de 32K). Certifique-se de que as dimensões dos embeddings correspondam à configuração do seu armazenamento de vetores.

Onde o Ollama para Cognee se encaixa no cenário de hospedagem de LLM?

Ollama é uma opção local. Nosso guia principal sobre hospedagem de LLM compara-o com vLLM, Docker Model Runner, LocalAI e provedores de nuvem, incluindo trade-offs de custo e infraestrutura.

Posso executar o Cognee com um backend diferente do Ollama?

Cognee suporta o Ollama e outros provedores. Para comparar backends locais e em nuvem, consulte o guia de Hospedagem de LLM.

Escolhendo o LLM certo para o Cognee: Configuração local do Ollama

Reflexões sobre LLMs para Cognee auto-hospedado

Conteúdo da página

Escolher o Melhor LLM para Cognee exige equilibrar a qualidade da construção de gráficos, as taxas de alucinação e as restrições de hardware.
Cognee destaca-se com modelos maiores e com baixa alucinação (32B+) via Ollama, mas opções de tamanho médio funcionam para configurações mais leves.

Para uma comparação mais ampla entre Ollama, vLLM, Docker Model Runner, LocalAI e provedores de nuvem — incluindo trade-offs de custo e infraestrutura — veja LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

lecture-in-the-library

Principais Requisitos do Cognee

O Cognee depende do LLM para extração de entidades, inferência de relações e geração de metadados. Modelos com menos de 32B frequentemente produzem gráficos ruidosos, enquanto uma alta alucinação (por exemplo, 90%+) polui os nós/arestas, prejudicando a recuperação. Os documentos oficiais recomendam deepseek-r1:32b ou llama3.3-70b-instruct-q3_K_M combinados com embeddings do Mistral.

Tabela de Comparação de Modelos

Modelo	Parâmetros	Alucinação (SimpleQA/est.)	VRAM (quantizado)	Pontos Fortes do Cognee	Fraquezas
gpt-oss:20b	20B	91,4%	~16GB	Inferência rápida, chamada de ferramentas	Ruído grave nos gráficos
Qwen3:14b	14B	~40-45%	~12-14GB	Eficiente em hardware modesto	Profundidade limitada para gráficos
Devstral Small 2	24B	~8-10%	~18-20GB	Foco em programação, entidades limpas	Maior VRAM do que Qwen3
Llama3.3-70b	70B	~30-40%	~40GB+	Qualidade ideal dos gráficos	Necessidades pesadas de recursos
Deepseek-r1:32b	32B	Baixa (recomendado)	~24-32GB	Melhor para raciocínio/gráficos	Mais lento em GPUs de consumo

Dados sintetizados a partir dos documentos do Cognee, cartões de modelos e benchmarks, os níveis de alucinação, embora pareçam estar fora de sintonia, podem não estar muito longe da realidade…

Recomendações por Hardware

Alto rendimento (VRAM de 32GB+): Deepseek-r1:32b ou Llama3.3-70b. Esses modelos produzem os gráficos mais limpos conforme orientação do Cognee.
Médio (VRAM de 16-24GB): Devstral Small 2. Baixa alucinação e habilidade em programação são adequadas para tarefas de memória estruturada.
Orçamento (VRAM de 12-16GB): Qwen3:14b em vez de gpt-oss:20b — evite os perigos de 91% de alucinação.
Pensando em evitar gpt-oss:20b para Cognee; há anotações de que seus erros se amplificam na construção de gráficos não filtrados. Mas a velocidade de inferência em minha GPU é 2+ vezes mais rápida….

Configuração Rápida de Ollama + Cognee

# 1. Puxar o modelo (por exemplo, Devstral)
ollama pull devstral-small-2:24b  # ou qwen3:14b, etc.

# 2. Instalar Cognee
pip install "cognee[ollama]"

# 3. Variáveis de ambiente
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensões
export EMBEDDING_DIMENSIONS=768

# 4. Testar o gráfico
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Corresponda as dimensões de embedding (por exemplo, 768, 1024) entre a configuração e o armazenamento vetorial. Embedding Qwen3 (não testados no Cognee) poderiam funcionar em dimensões de 1024-4096 se suportados pelo Ollama.

Priorize modelos com baixa alucinação para pipelines de produção do Cognee — seus gráficos agradecerão.
Teste no seu hardware e monitore a coerência do gráfico.
Para ver como o Ollama se encaixa com outras opções locais e de nuvem de LLM, consulte nosso guia LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Modelos de embedding

Não pensei muito nisso, mas aqui está uma tabela que juntei, para referência futura

Modelo do Ollama	Tamanho, GB	Dimensões de Embedding	Comprimento do Contexto
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Principais Requisitos do Cognee

Tabela de Comparação de Modelos

Recomendações por Hardware

Configuração Rápida de Ollama + Cognee

Modelos de embedding

Links Úteis