Qu’est-ce qui rend un LLM adapté à Cognee ?

Cognee nécessite des LLM avec des taux de hallucination faibles (idéalement inférieurs à 40 %) et un nombre suffisant de paramètres (32 milliards au minimum recommandé) pour une extraction d’entités, une inférence de relations et une génération de métadonnées de qualité. Les modèles présentant des taux de hallucination élevés (90 % et plus) produisent des graphes bruyants qui détériorent la qualité de la récupération.

Quel LLM devrais-je choisir pour mon configuration matérielle ?

Pour les configurations haut de gamme (32 Go de VRAM et plus), utilisez Deepseek-r1:32b ou Llama3.3-70b. Pour les configurations intermédiaires (16 à 24 Go de VRAM), Devstral Small 2 offre une faible hallucination et une focalisation sur le codage. Pour les configurations à petit budget (12 à 16 Go de VRAM), Qwen3:14b est préférable à gpt-oss:20b en raison de taux de hallucination nettement plus faibles.

Pourquoi éviter gpt-oss:20b pour Cognee ?

Malgré des vitesses d’inférence rapides, gpt-oss:20b présente un taux de hallucination de 91,4 % qui pollue gravement les nœuds et les arêtes du graphe, le rendant inadapté aux pipelines Cognee en production où la qualité du graphe est cruciale.

Quels modèles d’embedding fonctionnent avec Cognee sur Ollama ?

Les options populaires incluent nomic-embed-text (768 dimensions, 2k contexte), jina-embeddings-v2-base-en (768 dimensions, 8k contexte) et les modèles qwen3-embedding (1024-4096 dimensions, 32K contexte). Assurez-vous que les dimensions des embeddings correspondent à la configuration de votre magasin de vecteurs.

Où se situe Ollama pour Cognee dans le paysage de l’hébergement des LLM ?

Ollama est l’une des options locales. Notre guide principal sur l’hébergement des LLM le compare à vLLM, Docker Model Runner, LocalAI et aux fournisseurs de cloud, y compris les compromis en termes de coûts et d’infrastructure.

Puis-je exécuter Cognee avec un backend autre qu’Ollama ?

Cognee prend en charge Ollama et d’autres fournisseurs. Pour comparer les backends locaux et en nuage, consultez le guide de l’hébergement des modèles LLM.

Choisir le bon LLM pour Cognee : configuration locale d'Ollama

Réflexions sur les LLM pour Cognee auto-hébergé

Sommaire

Choisir le meilleur LLM pour Cognee exige de trouver un équilibre entre la qualité de construction des graphes, les taux de hallucination et les contraintes matérielles. Cognee excelle avec des modèles plus grands et peu hallucinants (32B+) via Ollama mais des options de taille moyenne conviennent pour des configurations plus légères.

Pour une comparaison plus large entre Ollama et vLLM, Docker Model Runner, LocalAI et les fournisseurs de cloud, y compris les compromis en matière de coût et d’infrastructure, consultez LLM Hosting : Local, Self-Hosted & Cloud Infrastructure Compared.

lecture-in-the-library

Exigences clés de Cognee

Cognee dépend du LLM pour l’extraction d’entités, l’inférence de relations et la génération de métadonnées. Les modèles inférieurs à 32B produisent souvent des graphes bruyants, tandis qu’une forte taux de hallucination (par exemple, 90 %+) pollue les nœuds/les arêtes, réduisant la récupération. Les documents officiels recommandent deepseek-r1:32b ou llama3.3-70b-instruct-q3_K_M associés aux embeddings de Mistral.

Tableau de comparaison des modèles

Modèle	Paramètres	Hallucination (SimpleQA/est.)	VRAM (quantifié)	Forces de Cognee	Faiblesses
gpt-oss:20b	20B	91,4 %	~16 GB	Inférence rapide, appel d’outils	Bruit important dans les graphes
Qwen3:14b	14B	~40-45 %	~12-14 GB	Efficace sur le matériel modeste	Profondeur limitée pour les graphes
Devstral Small 2	24B	~8-10 %	~18-20 GB	Focus sur le codage, entités propres	VRAM plus élevée que Qwen3
Llama3.3-70b	70B	~30-40 %	~40 GB+	Qualité optimale des graphes	Besoins lourds en ressources
Deepseek-r1:32b	32B	Faible (recommandé)	~24-32 GB	Meilleur pour le raisonnement/graphes	Plus lent sur les GPU grand public

Les données sont synthétisées à partir des documents Cognee, des fiches modèles et des benchmarks. Les données sur le niveau de hallucination, même si elles semblent déroutantes, pourraient être assez proches de la réalité…

Recommandations par matériel

Haute gamme (VRAM 32 GB+) : Deepseek-r1:32b ou Llama3.3-70b. Ces modèles produisent les graphes les plus propres selon les recommandations de Cognee.
Gamme moyenne (VRAM 16-24 GB) : Devstral Small 2. Une faible hallucination et une expertise en codage conviennent aux tâches de mémoire structurée.
Budget (VRAM 12-16 GB) : Qwen3:14b plutôt que gpt-oss:20b - éviter les pièges de hallucination à 91 %.
Penser à éviter gpt-oss:20b pour Cognee ; il y a des notes indiquant que ses erreurs s’aggravent lors de la construction non filtrée des graphes. Mais la vitesse d’inférence sur mon GPU est 2 fois plus rapide…

Configuration rapide Ollama + Cognee

# 1. Télécharger le modèle (par exemple, Devstral)
ollama pull devstral-small-2:24b  # ou qwen3:14b, etc.

# 2. Installer Cognee
pip install "cognee[ollama]"

# 3. Variables d'environnement
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensions
export EMBEDDING_DIMENSIONS=768

# 4. Tester le graphe
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Assurez-vous que les dimensions d’embedding (par exemple, 768, 1024) correspondent à la configuration et au magasin vectoriel. Embeddings Qwen3 (non testés dans Cognee) pourraient fonctionner avec 1024-4096 dimensions si Ollama le prend en charge.

Priorisez les modèles à faible hallucination pour les pipelines de production Cognee — vos graphes vous remercieront. Testez sur votre matériel et surveillez la cohérence des graphes. Pour voir comment Ollama s’intègre avec d’autres options locales et en cloud de LLM, consultez notre guide LLM Hosting : Local, Self-Hosted & Cloud Infrastructure Compared.

Modèles d’embedding

Je n’ai pas beaucoup réfléchi à ce point, mais voici un tableau que j’ai rassemblé, pour référence future

Modèle Ollama	Taille, GB	Dimensions d’embedding	Longueur de contexte
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Exigences clés de Cognee

Tableau de comparaison des modèles

Recommandations par matériel

Configuration rapide Ollama + Cognee

Modèles d’embedding

Liens utiles