Vad gör en LLM lämplig för Cognee?

Cognee kräver LLM:er med låga hallucinationsnivåer (helst under 40 %) och tillräckligt stort antal parametrar (32B+ rekommenderas) för att säkerställa kvalitetsextraktion av entiteter, relationer och metadata. Modeller med höga hallucinationsnivåer (90%+) genererar brusiga grafer som minskar hämtningskvaliteten.

Vilken LLM bör jag välja för min hårdvarukonfiguration?

För högpresterande konfigurationer (32 GB+ VRAM) använd Deepseek-r1:32b eller Llama3.3-70b. För medelstora konfigurationer (16–24 GB VRAM) erbjuder Devstral Small 2 låg hallucination och fokus på kodning. För kostnadsbegränsade konfigurationer (12–16 GB VRAM) är Qwen3:14b föredelaktig jämfört med gpt-oss:20b på grund av mycket lägre hallucinationstakter.

Varför undvika gpt-oss:20b för Cognee?

Även om den snabba inferenshastigheten är bra har gpt-oss:20b en hallucinationsfrekvens på 91,4 % som allvarligt försämrar kvaliteten på grafnoderna och -kanterna, vilket gör den olämplig för produktionsanvändning i Cognee-pipelines där grafkvalitet är avgörande.

Vilka inbäddningsmodeller fungerar med Cognee på Ollama?

Populära alternativ inkluderar nomic-embed-text (768 dim, 2k kontext), jina-embeddings-v2-base-en (768 dim, 8k kontext) och qwen3-embedding-modeller (1024-4096 dim, 32K kontext). Se till att inbäddningsdimensionerna matchar din vektorlagerkonfiguration.

Var placeras Ollama för Cognee i landskapet för LLM-värdtjänster?

Ollama är en lokal lösning. Vår huvudsakliga guide om LLM-värdtjänster jämför den med vLLM, Docker Model Runner, LocalAI och molntjänstleverantörer, inklusive kostnads- och infrastrukturväxelverkan.

Kan jag köra Cognee med en backend annan än Ollama?

Cognee stöder Ollama och andra leverantörer. För att jämföra lokala och molnbaserade bakändar, se guiden LLM Hosting.

Välj rätt LLM för Cognee: Lokal Ollama-konfiguration

Reflektioner kring LLM:er för självvärdd Cognee

Sidinnehåll

Välj den Bästa LLM för Cognee kräver att balansera kvaliteten på grafbygge, hallucinationsfrekvens och hårdvarukonster. Cognee presterar bäst med större, låg-hallucination modeller (32B+) via Ollama men medelstorleksalternativ fungerar för lättare konfigurationer.

För en bredare jämförelse mellan Ollama och vLLM, Docker Model Runner, LocalAI och molntjänstleverantörer – inklusive kostnads- och infrastrukturväxel – se LLM Hosting: Lokal, självvärdd och molninfrastruktur jämförd.

lecture-in-the-library

Viktiga krav för Cognee

Cognee bygger på LLM för entitetsextraktion, relationinferens och metadatagenerering. Modeller under 32B tenderar att producera brusiga grafer, medan hög hallucination (t.ex. 90%+) förorenar noderna/kanterna och minskar återhämtning. Officiella dokument rekommenderar deepseek-r1:32b eller llama3.3-70b-instruct-q3_K_M parat med Mistral-embeddings.

Modelljämförelsetabell

Modell	Parametrar	Hallucination (SimpleQA/est.)	VRAM (kvantifierad)	Cognee Styrkor	Svagheter
gpt-oss:20b	20B	91,4%	~16GB	Snabb inferens, verktygskallning	Svår grafbrus
Qwen3:14b	14B	~40-45%	~12-14GB	Effektiv på mindre hårdvara	Begränsad djup för grafer
Devstral Small 2	24B	~8-10%	~18-20GB	Kodfokus, rena entiteter	Högre VRAM än Qwen3
Llama3.3-70b	70B	~30-40%	~40GB+	Optimal grafkvalitet	Tyngre resurser krävs
Deepseek-r1:32b	32B	Låg (rekommenderas)	~24-32GB	Bästa för resonemang/grafer	Saktare på konsument-GPU:er

Data syntetiserad från Cognee-dokument, modellkort och benchmarkar, hallucinationnivådata som verkar konstig, kan vara nära sanningen…

Rekommendationer efter hårdvara

Högprestanda (32 GB+ VRAM): Deepseek-r1:32b eller Llama3.3-70b. Dessa ger renaste grafer enligt Cognee-rekommendationer.
Mellan (16-24 GB VRAM): Devstral Small 2. Låg hallucination och kodkunnighet passar strukturerade minnesuppgifter.
Budget (12-16 GB VRAM): Qwen3:14b över gpt-oss:20b – undvik 91% hallucination risker.
Tänk på att undvika gpt-oss:20b för Cognee; det finns anteckningar om att dess fel förstärks i ofiltrerad grafkonstruktion. Men inferenshastigheten på min GPU är 2+ gånger snabbare….

Snabb Ollama + Cognee-konfiguration

# 1. Hämta modell (t.ex. Devstral)
ollama pull devstral-small-2:24b  # eller qwen3:14b, etc.

# 2. Installera Cognee
pip install "cognee[ollama]"

# 3. Miljövariabler
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 dimensioner
export EMBEDDING_DIMENSIONS=768

# 4. Testa graf
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Matcha embeddingdimensioner (t.ex. 768, 1024) över konfiguration och vektorlager. Qwen3 Embeddings (inte beprövade i Cognee) kan fungera vid 1024-4096 dimensioner om Ollama-stöd.

Prioritera låghallucinationmodeller för produktions-Cognee-pipelines – dina grafer kommer att tacka dig. Testa på din hårdvara och övervaka grafkohärens. För att se hur Ollama passar med andra lokala och molna LLM-alternativ, se vår LLM Hosting: Lokal, självvärdd och molninfrastruktur jämförd guide.

Embeddingmodeller

Tyckte inte mycket om detta, men här är en tabell jag samlade in för framtida referens

Ollama Modell	Storlek, GB	Embeddingdimensioner	Kontextlängd
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Viktiga krav för Cognee

Modelljämförelsetabell

Rekommendationer efter hårdvara

Snabb Ollama + Cognee-konfiguration

Embeddingmodeller

Några användbara länkar