Välj rätt LLM för Cognee: Lokal Ollama-konfiguration
Reflektioner kring LLM:er för självvärdd Cognee
Välj den Bästa LLM för Cognee kräver att balansera kvaliteten på grafbygge, hallucinationsfrekvens och hårdvarukonster. Cognee presterar bäst med större, låg-hallucination modeller (32B+) via Ollama men medelstorleksalternativ fungerar för lättare konfigurationer.
För en bredare jämförelse mellan Ollama och vLLM, Docker Model Runner, LocalAI och molntjänstleverantörer – inklusive kostnads- och infrastrukturväxel – se LLM Hosting: Lokal, självvärdd och molninfrastruktur jämförd.

Viktiga krav för Cognee
Cognee bygger på LLM för entitetsextraktion, relationinferens och metadatagenerering. Modeller under 32B tenderar att producera brusiga grafer, medan hög hallucination (t.ex. 90%+) förorenar noderna/kanterna och minskar återhämtning. Officiella dokument rekommenderar deepseek-r1:32b eller llama3.3-70b-instruct-q3_K_M parat med Mistral-embeddings.
Modelljämförelsetabell
| Modell | Parametrar | Hallucination (SimpleQA/est.) | VRAM (kvantifierad) | Cognee Styrkor | Svagheter |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16GB | Snabb inferens, verktygskallning | Svår grafbrus |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Effektiv på mindre hårdvara | Begränsad djup för grafer |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Kodfokus, rena entiteter | Högre VRAM än Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Optimal grafkvalitet | Tyngre resurser krävs |
| Deepseek-r1:32b | 32B | Låg (rekommenderas) | ~24-32GB | Bästa för resonemang/grafer | Saktare på konsument-GPU:er |
Data syntetiserad från Cognee-dokument, modellkort och benchmarkar, hallucinationnivådata som verkar konstig, kan vara nära sanningen…
Rekommendationer efter hårdvara
- Högprestanda (32 GB+ VRAM): Deepseek-r1:32b eller Llama3.3-70b. Dessa ger renaste grafer enligt Cognee-rekommendationer.
- Mellan (16-24 GB VRAM): Devstral Small 2. Låg hallucination och kodkunnighet passar strukturerade minnesuppgifter.
- Budget (12-16 GB VRAM): Qwen3:14b över gpt-oss:20b – undvik 91% hallucination risker.
- Tänk på att undvika gpt-oss:20b för Cognee; det finns anteckningar om att dess fel förstärks i ofiltrerad grafkonstruktion. Men inferenshastigheten på min GPU är 2+ gånger snabbare….
Snabb Ollama + Cognee-konfiguration
# 1. Hämta modell (t.ex. Devstral)
ollama pull devstral-small-2:24b # eller qwen3:14b, etc.
# 2. Installera Cognee
pip install "cognee[ollama]"
# 3. Miljövariabler
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dimensioner
export EMBEDDING_DIMENSIONS=768
# 4. Testa graf
cognee-cli add your_data_file.txt --dataset-name "test_graph"
Matcha embeddingdimensioner (t.ex. 768, 1024) över konfiguration och vektorlager. Qwen3 Embeddings (inte beprövade i Cognee) kan fungera vid 1024-4096 dimensioner om Ollama-stöd.
Prioritera låghallucinationmodeller för produktions-Cognee-pipelines – dina grafer kommer att tacka dig. Testa på din hårdvara och övervaka grafkohärens. För att se hur Ollama passar med andra lokala och molna LLM-alternativ, se vår LLM Hosting: Lokal, självvärdd och molninfrastruktur jämförd guide.
Embeddingmodeller
Tyckte inte mycket om detta, men här är en tabell jag samlade in för framtida referens
| Ollama Modell | Storlek, GB | Embeddingdimensioner | Kontextlängd |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Några användbara länkar
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Konfigurera Ollama Modellmapp
- Ollama cheatsheet