Elegir el LLM adecuado para Cognee: Configuración local de Ollama
Reflexiones sobre LLMs para Cognee autohospedado
Elegir el Mejor LLM para Cognee requiere equilibrar la calidad de construcción de gráficos, las tasas de alucinación y las restricciones de hardware. Cognee destaca con modelos grandes de baja alucinación (32B+) a través de Ollama pero las opciones de tamaño medio funcionan para configuraciones más ligeras.
Para una comparación más amplia de Ollama con vLLM, Docker Model Runner, LocalAI y proveedores en la nube —incluyendo consideraciones de costo e infraestructura— consulta LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Requisitos clave de Cognee
Cognee depende del LLM para la extracción de entidades, la inferencia de relaciones y la generación de metadatos. Los modelos por debajo de 32B suelen producir gráficos ruidosos, mientras que una alta tasa de alucinación (por ejemplo, 90%+) contamina los nodos/arcos, degradando la recuperación. Los documentos oficiales recomiendan deepseek-r1:32b o llama3.3-70b-instruct-q3_K_M combinados con incrustaciones de Mistral.
Tabla de comparación de modelos
| Modelo | Parámetros | Alucinación (SimpleQA/est.) | VRAM (cuantizado) | Fortalezas de Cognee | Debilidades |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16GB | Inferencia rápida, llamada de herramientas | Ruido grave en gráficos |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Eficiente en hardware modesto | Profundidad limitada para gráficos |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Enfoque en codificación, entidades limpias | Mayor VRAM que Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Calidad óptima de gráficos | Necesidades pesadas de recursos |
| Deepseek-r1:32b | 32B | Baja (recomendado) | ~24-32GB | Mejor para razonamiento/gráficos | Más lento en GPUs de consumo |
Datos sintetizados de documentos de Cognee, tarjetas de modelos y benchmarks, los niveles de alucinación, aunque parecen estar fuera de lugar, podrían no estar muy lejos…
Recomendaciones según hardware
- Alto rendimiento (32GB+ de VRAM): Deepseek-r1:32b o Llama3.3-70b. Estos producen los gráficos más limpios según las directrices de Cognee.
- Mediano (16-24GB de VRAM): Devstral Small 2. Baja alucinación y habilidades de codificación se adaptan a tareas de memoria estructurada.
- Presupuesto (12-16GB de VRAM): Qwen3:14b en lugar de gpt-oss:20b — evite los problemas de alucinación del 91%.
- Pensando en evitar gpt-oss:20b para Cognee; hay notas que indican que sus errores se amplifican en la construcción de gráficos no filtrados. Pero la velocidad de inferencia en mi GPU es 2+ veces más rápida….
Configuración rápida de Ollama + Cognee
# 1. Descargar el modelo (por ejemplo, Devstral)
ollama pull devstral-small-2:24b # o qwen3:14b, etc.
# 2. Instalar Cognee
pip install "cognee[ollama]"
# 3. Variables de entorno
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dimensiones
export EMBEDDING_DIMENSIONS=768
# 4. Probar el gráfico
cognee-cli add your_data_file.txt --dataset-name "test_graph"
Asegúrate de que las dimensiones de incrustación (por ejemplo, 768, 1024) coincidan entre la configuración y el almacén de vectores. Qwen3 Embeddings (no probados en Cognee) podrían funcionar en dimensiones de 1024-4096 si están soportados por Ollama.
Prioriza modelos con baja alucinación para pipelines de producción de Cognee — tus gráficos lo agradecerán. Prueba en tu hardware y monitorea la coherencia del gráfico. Para ver cómo se ajusta Ollama con otras opciones locales y en la nube de LLM, consulta nuestra LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.
Modelos de incrustación
No pensé mucho en esto, pero aquí hay una tabla que junté, para referencia futura
| Modelo de Ollama | Tamaño, GB | Dimensiones de Incrustación | Longitud de contexto |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Enlaces útiles
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Configurar la carpeta de modelos de Ollama
- Ollama cheatsheet