De juiste LLM kiezen voor Cognee: lokale Ollama-installatie
Overdenkingen over LLMs voor self-hosted Cognee
Kiezen voor de Beste LLM voor Cognee vereist het balanceren van de kwaliteit van het bouwen van grafieken, hallucinatiepercentages en hardwarebeperkingen. Cognee excelleert met grotere modellen met lage hallucinatiepercentages (32B+) via Ollama, maar middelgrote opties werken voor lichtere opstellingen.
Voor een breder overzicht van Ollama met vLLM, Docker Model Runner, LocalAI en cloudproviders — inclusief kosten- en infrastructuuroverwegingen — zie LLM Hosting: Lokale, zelfgehoste en cloudinfrastructuur vergeleken.

Belangrijke Cognee-eisen
Cognee vertrouwt op de LLM voor entiteitsuitvoer, relatie-inferentie en metadata-generatie. Modellen onder de 32B produceren vaak storende grafieken, terwijl hoge hallucinatie (bijvoorbeeld 90%+) de knopen/lijnen verontreinigt, wat de ophaling verslechtert. De officiële documentatie adviseert deepseek-r1:32b of llama3.3-70b-instruct-q3_K_M met Mistral-embeddings.
Modelvergelijkings tabel
| Model | Parameters | Hallucinatie (SimpleQA/est.) | VRAM (gequantiseerd) | Cognee-sterktes | Zwaktes |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16 GB | Snelle inferentie, tool-aanroep | Zware grafiekstorendheid |
| Qwen3:14b | 14B | ~40-45% | ~12-14 GB | Efficiënt op bescheiden hardware | Beperkte diepte voor grafieken |
| Devstral Small 2 | 24B | ~8-10% | ~18-20 GB | Codingsfocus, schone entiteiten | Hogere VRAM dan Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40 GB+ | Optimaal grafiekkwaliteit | Zware resourcebehoeften |
| Deepseek-r1:32b | 32B | Laag (aanbevolen) | ~24-32 GB | Beste voor redenering/grafieken | Langzamer op consumentengpu’s |
Gegevens gesynthetiseerd uit Cognee-documentatie, modelkaarten en benchmarks. De hallucinatiepercentages lijken een beetje gek, maar kunnen niet zo ver van de waarheid zijn…
Aanbevelingen per hardware
- High-end (32 GB+ VRAM): Deepseek-r1:32b of Llama3.3-70b. Deze leveren de schonerste grafieken volgens Cognee-richtlijnen.
- Middelgroot (16-24 GB VRAM): Devstral Small 2. Lage hallucinatie en codingvaardigheden passen bij gestructureerde geheugentaken.
- Budget (12-16 GB VRAM): Qwen3:14b in plaats van gpt-oss:20b — vermijd de valkuilen van 91% hallucinatie.
- Denk na over het vermijden van gpt-oss:20b voor Cognee; er zijn aantekeningen dat zijn fouten versterkt worden bij ongefilterde grafiekconstructie. Maar de inferentiesnelheid op mijn GPU is 2+ keer sneller….
Snel Ollama + Cognee setup
# 1. Model ophalen (bijvoorbeeld Devstral)
ollama pull devstral-small-2:24b # of qwen3:14b, enz.
# 2. Cognee installeren
pip install "cognee[ollama]"
# 3. Omgevingsvariabelen
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dimensies
export EMBEDDING_DIMENSIONS=768
# 4. Grafiek testen
cognee-cli add your_data_file.txt --dataset-name "test_graph"
Zorg dat de embeddingdimensies (bijvoorbeeld 768, 1024) overeenkomen tussen configuratie en vectoropslag. Qwen3 Embeddings (niet getest in Cognee) kunnen werken bij 1024-4096 dimensies als Ollama-ondersteund.
Prioriteer modellen met lage hallucinatie voor productie-Cognee-pijplijnen — je grafieken zullen het je danken. Test op je hardware en controleer de coherente grafieken. Om te zien hoe Ollama past bij andere lokale en cloud-LLM-opties, raadpleeg onze LLM Hosting: Lokale, zelfgehoste en cloudinfrastructuur vergeleken gids.
Embeddingmodellen
Ik dacht er niet veel over na, maar hier is een tabel die ik samen heb gesteld, voor toekomstige referentie
| Ollama Model | Grootte, GB | Embeddingdimensies | Contextlengte |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Nuttige links
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Configureer Ollama Modellenmap
- Ollama cheatsheet