Välj rätt LLM för Cognee: Lokal Ollama-konfiguration

Reflektioner kring LLM:er för självvärdd Cognee

Sidinnehåll

Välj den Bästa LLM för Cognee kräver att balansera kvaliteten på grafbygge, hallucinationsfrekvens och hårdvarukonster. Cognee presterar bäst med större, låg-hallucination modeller (32B+) via Ollama men medelstorleksalternativ fungerar för lättare konfigurationer.

För en bredare jämförelse mellan Ollama och vLLM, Docker Model Runner, LocalAI och molntjänstleverantörer – inklusive kostnads- och infrastrukturväxel – se LLM Hosting: Lokal, självvärdd och molninfrastruktur jämförd.

lecture-in-the-library

Viktiga krav för Cognee

Cognee bygger på LLM för entitetsextraktion, relationinferens och metadatagenerering. Modeller under 32B tenderar att producera brusiga grafer, medan hög hallucination (t.ex. 90%+) förorenar noderna/kanterna och minskar återhämtning. Officiella dokument rekommenderar deepseek-r1:32b eller llama3.3-70b-instruct-q3_K_M parat med Mistral-embeddings.

Modelljämförelsetabell

Modell Parametrar Hallucination (SimpleQA/est.) VRAM (kvantifierad) Cognee Styrkor Svagheter
gpt-oss:20b 20B 91,4% ~16GB Snabb inferens, verktygskallning Svår grafbrus
Qwen3:14b 14B ~40-45% ~12-14GB Effektiv på mindre hårdvara Begränsad djup för grafer
Devstral Small 2 24B ~8-10% ~18-20GB Kodfokus, rena entiteter Högre VRAM än Qwen3
Llama3.3-70b 70B ~30-40% ~40GB+ Optimal grafkvalitet Tyngre resurser krävs
Deepseek-r1:32b 32B Låg (rekommenderas) ~24-32GB Bästa för resonemang/grafer Saktare på konsument-GPU:er

Data syntetiserad från Cognee-dokument, modellkort och benchmarkar, hallucinationnivådata som verkar konstig, kan vara nära sanningen…

Rekommendationer efter hårdvara

  • Högprestanda (32 GB+ VRAM): Deepseek-r1:32b eller Llama3.3-70b. Dessa ger renaste grafer enligt Cognee-rekommendationer.
  • Mellan (16-24 GB VRAM): Devstral Small 2. Låg hallucination och kodkunnighet passar strukturerade minnesuppgifter.
  • Budget (12-16 GB VRAM): Qwen3:14b över gpt-oss:20b – undvik 91% hallucination risker.
  • Tänk på att undvika gpt-oss:20b för Cognee; det finns anteckningar om att dess fel förstärks i ofiltrerad grafkonstruktion. Men inferenshastigheten på min GPU är 2+ gånger snabbare….

Snabb Ollama + Cognee-konfiguration

# 1. Hämta modell (t.ex. Devstral)
ollama pull devstral-small-2:24b  # eller qwen3:14b, etc.

# 2. Installera Cognee
pip install "cognee[ollama]"

# 3. Miljövariabler
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensioner
export EMBEDDING_DIMENSIONS=768

# 4. Testa graf
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Matcha embeddingdimensioner (t.ex. 768, 1024) över konfiguration och vektorlager. Qwen3 Embeddings (inte beprövade i Cognee) kan fungera vid 1024-4096 dimensioner om Ollama-stöd.

Prioritera låghallucinationmodeller för produktions-Cognee-pipelines – dina grafer kommer att tacka dig. Testa på din hårdvara och övervaka grafkohärens. För att se hur Ollama passar med andra lokala och molna LLM-alternativ, se vår LLM Hosting: Lokal, självvärdd och molninfrastruktur jämförd guide.

Embeddingmodeller

Tyckte inte mycket om detta, men här är en tabell jag samlade in för framtida referens

Ollama Modell Storlek, GB Embeddingdimensioner Kontextlängd
nomic-embed-text:latest 0,274 768 2k
jina-embeddings-v2-base-en:latest 0,274 768 8k
nomic-embed-text-v2-moe 0,958 768 512
qwen3-embedding:0.6b 0,639 1024 32K
qwen3-embedding:4b 2,5 2560 32K
qwen3-embedding:8b 4,7 4096 32K
avr/sfr-embedding-mistral:latest 4,4 4096 32K

Några användbara länkar