Wat maakt een LLM geschikt voor Cognee?

Cognee vereist LLMs met een lage hallucinatiegraad (ideaal onder 40%) en voldoende aantal parameters (32B+ aanbevolen) voor kwalitatieve entiteitextrahering, relatieinferentie en metadatageneratie. Modellen met een hoge hallucinatiegraad (90%+) produceren ruisende grafen die de kwaliteit van de opvraagverzameling verlagen.

Welk LLM moet ik kiezen voor mijn hardwareconfiguratie?

Voor hoge-klasseconfiguraties (32GB+ VRAM) gebruik dan Deepseek-r1:32b of Llama3.3-70b. Voor middelmatige configuraties (16-24GB VRAM) biedt Devstral Small 2 een lage hallucinatiegraad en een focus op programmeren. Voor budgetconfiguraties (12-16GB VRAM) is Qwen3:14b voorkeurswaarder dan gpt-oss:20b vanwege de aanzienlijk lagere hallucinatiepercentages.

Waarom vermijden we gpt-oss:20b voor Cognee?

Hoewel de gpt-oss:20b snelle inferentiesnelheden heeft, heeft het een hallucinatiepercentage van 91,4% dat de grafiekknooppunten en -randen ernstig verontreinigt, waardoor het ongeschikt is voor productie-Cognee-pijplijnen waarin de kwaliteit van de grafiek van vitaal belang is.

Welke embeddingmodellen werken met Cognee op Ollama?

Populaire opties zijn nomic-embed-text (768 dimensies, 2k context), jina-embeddings-v2-base-en (768 dimensies, 8k context) en qwen3-embedding modellen (1024-4096 dimensies, 32K context). Zorg ervoor dat de dimensies van de embedding overeenkomen met de configuratie van uw vectoropslag.

Waarin past Ollama voor Cognee binnen het LLM-hosting-landschap?

Ollama is een lokaal alternatief. Onze hoofdgids over LLM-hosting vergelijkt het met vLLM, Docker Model Runner, LocalAI en cloudproviders, inclusief kosten- en infrastructuuroverwegingen.

Mag ik Cognee uitvoeren met een backend anders dan Ollama?

Cognee ondersteunt Ollama en andere aanbieders. Voor het vergelijken van lokale en cloud-gebaseerde backends, zie de gids over LLM-hosting.

De juiste LLM kiezen voor Cognee: lokale Ollama-installatie

Overdenkingen over LLMs voor self-hosted Cognee

Inhoud

Kiezen voor de Beste LLM voor Cognee vereist het balanceren van de kwaliteit van het bouwen van grafieken, hallucinatiepercentages en hardwarebeperkingen. Cognee excelleert met grotere modellen met lage hallucinatiepercentages (32B+) via Ollama, maar middelgrote opties werken voor lichtere opstellingen.

Voor een breder overzicht van Ollama met vLLM, Docker Model Runner, LocalAI en cloudproviders — inclusief kosten- en infrastructuuroverwegingen — zie LLM Hosting: Lokale, zelfgehoste en cloudinfrastructuur vergeleken.

lecture-in-the-library

Belangrijke Cognee-eisen

Cognee vertrouwt op de LLM voor entiteitsuitvoer, relatie-inferentie en metadata-generatie. Modellen onder de 32B produceren vaak storende grafieken, terwijl hoge hallucinatie (bijvoorbeeld 90%+) de knopen/lijnen verontreinigt, wat de ophaling verslechtert. De officiële documentatie adviseert deepseek-r1:32b of llama3.3-70b-instruct-q3_K_M met Mistral-embeddings.

Modelvergelijkings tabel

Model	Parameters	Hallucinatie (SimpleQA/est.)	VRAM (gequantiseerd)	Cognee-sterktes	Zwaktes
gpt-oss:20b	20B	91,4%	~16 GB	Snelle inferentie, tool-aanroep	Zware grafiekstorendheid
Qwen3:14b	14B	~40-45%	~12-14 GB	Efficiënt op bescheiden hardware	Beperkte diepte voor grafieken
Devstral Small 2	24B	~8-10%	~18-20 GB	Codingsfocus, schone entiteiten	Hogere VRAM dan Qwen3
Llama3.3-70b	70B	~30-40%	~40 GB+	Optimaal grafiekkwaliteit	Zware resourcebehoeften
Deepseek-r1:32b	32B	Laag (aanbevolen)	~24-32 GB	Beste voor redenering/grafieken	Langzamer op consumentengpu’s

Gegevens gesynthetiseerd uit Cognee-documentatie, modelkaarten en benchmarks. De hallucinatiepercentages lijken een beetje gek, maar kunnen niet zo ver van de waarheid zijn…

Aanbevelingen per hardware

High-end (32 GB+ VRAM): Deepseek-r1:32b of Llama3.3-70b. Deze leveren de schonerste grafieken volgens Cognee-richtlijnen.
Middelgroot (16-24 GB VRAM): Devstral Small 2. Lage hallucinatie en codingvaardigheden passen bij gestructureerde geheugentaken.
Budget (12-16 GB VRAM): Qwen3:14b in plaats van gpt-oss:20b — vermijd de valkuilen van 91% hallucinatie.
Denk na over het vermijden van gpt-oss:20b voor Cognee; er zijn aantekeningen dat zijn fouten versterkt worden bij ongefilterde grafiekconstructie. Maar de inferentiesnelheid op mijn GPU is 2+ keer sneller….

Snel Ollama + Cognee setup

# 1. Model ophalen (bijvoorbeeld Devstral)
ollama pull devstral-small-2:24b  # of qwen3:14b, enz.

# 2. Cognee installeren
pip install "cognee[ollama]"

# 3. Omgevingsvariabelen
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensies
export EMBEDDING_DIMENSIONS=768

# 4. Grafiek testen
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Zorg dat de embeddingdimensies (bijvoorbeeld 768, 1024) overeenkomen tussen configuratie en vectoropslag. Qwen3 Embeddings (niet getest in Cognee) kunnen werken bij 1024-4096 dimensies als Ollama-ondersteund.

Prioriteer modellen met lage hallucinatie voor productie-Cognee-pijplijnen — je grafieken zullen het je danken. Test op je hardware en controleer de coherente grafieken. Om te zien hoe Ollama past bij andere lokale en cloud-LLM-opties, raadpleeg onze LLM Hosting: Lokale, zelfgehoste en cloudinfrastructuur vergeleken gids.

Embeddingmodellen

Ik dacht er niet veel over na, maar hier is een tabel die ik samen heb gesteld, voor toekomstige referentie

Ollama Model	Grootte, GB	Embeddingdimensies	Contextlengte
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Belangrijke Cognee-eisen

Modelvergelijkings tabel

Aanbevelingen per hardware

Snel Ollama + Cognee setup

Embeddingmodellen

Nuttige links