¿Qué hace que un LLM sea adecuado para Cognee?

Cognee requiere LLMs con tasas bajas de alucinaciones (idealmente inferiores al 40%) y un número suficiente de parámetros (se recomienda 32B o más) para una extracción de entidades de calidad, inferencia de relaciones y generación de metadatos. Los modelos con altas tasas de alucinación (90% o más) producen grafos ruidosos que degradan la calidad de recuperación.

¿Cuál LLM debo elegir para mi configuración de hardware?

Para configuraciones de alta gama (32 GB o más de VRAM), utilice Deepseek-r1:32b o Llama3.3-70b. Para configuraciones intermedias (16-24 GB de VRAM), Devstral Small 2 ofrece menor tendencia a la fabricación de información y enfoque en programación. Para configuraciones de presupuesto (12-16 GB de VRAM), Qwen3:14b es preferible frente a gpt-oss:20b debido a tasas de fabricación de información mucho más bajas.

¿Por qué evitar gpt-oss:20b para Cognee?

A pesar de las velocidades de inferencia rápidas, gpt-oss:20b tiene una tasa de alucinaciones del 91,4% que contaminan gravemente los nodos y aristas del grafo, lo que lo hace inadecuado para pipelines de Cognee en producción donde la calidad del grafo es crítica.

¿Qué modelos de embedding funcionan con Cognee en Ollama?

Opciones populares incluyen nomic-embed-text (768 dimensiones, contexto de 2k), jina-embeddings-v2-base-en (768 dimensiones, contexto de 8k) y modelos qwen3-embedding (1024-4096 dimensiones, contexto de 32K). Asegúrese de que las dimensiones de los embeddings coincidan con la configuración de su almacén de vectores.

¿Dónde encaja Ollama para Cognee en el panorama de alojamiento de LLM?

Ollama es una opción local. Nuestra guía principal sobre alojamiento de modelos de lenguaje grande lo compara con vLLM, Docker Model Runner, LocalAI y proveedores en la nube, incluyendo consideraciones de costo e infraestructura.

¿Puedo ejecutar Cognee con un backend diferente al de Ollama?

Cognee admite Ollama y otros proveedores. Para comparar backends locales y en la nube, consulte la guía de alojamiento de LLM.

Elegir el LLM adecuado para Cognee: Configuración local de Ollama

Reflexiones sobre LLMs para Cognee autohospedado

Índice

Elegir el Mejor LLM para Cognee requiere equilibrar la calidad de construcción de gráficos, las tasas de alucinación y las restricciones de hardware. Cognee destaca con modelos grandes de baja alucinación (32B+) a través de Ollama pero las opciones de tamaño medio funcionan para configuraciones más ligeras.

Para una comparación más amplia de Ollama con vLLM, Docker Model Runner, LocalAI y proveedores en la nube —incluyendo consideraciones de costo e infraestructura— consulta LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

lecture-in-the-library

Requisitos clave de Cognee

Cognee depende del LLM para la extracción de entidades, la inferencia de relaciones y la generación de metadatos. Los modelos por debajo de 32B suelen producir gráficos ruidosos, mientras que una alta tasa de alucinación (por ejemplo, 90%+) contamina los nodos/arcos, degradando la recuperación. Los documentos oficiales recomiendan deepseek-r1:32b o llama3.3-70b-instruct-q3_K_M combinados con incrustaciones de Mistral.

Tabla de comparación de modelos

Modelo	Parámetros	Alucinación (SimpleQA/est.)	VRAM (cuantizado)	Fortalezas de Cognee	Debilidades
gpt-oss:20b	20B	91,4%	~16GB	Inferencia rápida, llamada de herramientas	Ruido grave en gráficos
Qwen3:14b	14B	~40-45%	~12-14GB	Eficiente en hardware modesto	Profundidad limitada para gráficos
Devstral Small 2	24B	~8-10%	~18-20GB	Enfoque en codificación, entidades limpias	Mayor VRAM que Qwen3
Llama3.3-70b	70B	~30-40%	~40GB+	Calidad óptima de gráficos	Necesidades pesadas de recursos
Deepseek-r1:32b	32B	Baja (recomendado)	~24-32GB	Mejor para razonamiento/gráficos	Más lento en GPUs de consumo

Datos sintetizados de documentos de Cognee, tarjetas de modelos y benchmarks, los niveles de alucinación, aunque parecen estar fuera de lugar, podrían no estar muy lejos…

Recomendaciones según hardware

Alto rendimiento (32GB+ de VRAM): Deepseek-r1:32b o Llama3.3-70b. Estos producen los gráficos más limpios según las directrices de Cognee.
Mediano (16-24GB de VRAM): Devstral Small 2. Baja alucinación y habilidades de codificación se adaptan a tareas de memoria estructurada.
Presupuesto (12-16GB de VRAM): Qwen3:14b en lugar de gpt-oss:20b — evite los problemas de alucinación del 91%.
Pensando en evitar gpt-oss:20b para Cognee; hay notas que indican que sus errores se amplifican en la construcción de gráficos no filtrados. Pero la velocidad de inferencia en mi GPU es 2+ veces más rápida….

Configuración rápida de Ollama + Cognee

# 1. Descargar el modelo (por ejemplo, Devstral)
ollama pull devstral-small-2:24b  # o qwen3:14b, etc.

# 2. Instalar Cognee
pip install "cognee[ollama]"

# 3. Variables de entorno
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensiones
export EMBEDDING_DIMENSIONS=768

# 4. Probar el gráfico
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Asegúrate de que las dimensiones de incrustación (por ejemplo, 768, 1024) coincidan entre la configuración y el almacén de vectores. Qwen3 Embeddings (no probados en Cognee) podrían funcionar en dimensiones de 1024-4096 si están soportados por Ollama.

Prioriza modelos con baja alucinación para pipelines de producción de Cognee — tus gráficos lo agradecerán. Prueba en tu hardware y monitorea la coherencia del gráfico. Para ver cómo se ajusta Ollama con otras opciones locales y en la nube de LLM, consulta nuestra LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Modelos de incrustación

No pensé mucho en esto, pero aquí hay una tabla que junté, para referencia futura

Modelo de Ollama	Tamaño, GB	Dimensiones de Incrustación	Longitud de contexto
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Requisitos clave de Cognee

Tabla de comparación de modelos

Recomendaciones según hardware

Configuración rápida de Ollama + Cognee

Modelos de incrustación

Enlaces útiles