Was macht ein LLM für Cognee geeignet?

Cognee benötigt LLMs mit niedrigen Halluzinationsraten (idealerweise unter 40 %) und ausreichender Parameteranzahl (32B+ empfohlen), um eine qualitativ hochwertige Entitätsextraktion, Relationserkennung und Metadatengenerierung zu gewährleisten. Modelle mit hohen Halluzinationsraten (90 %+) erzeugen störende Graphen, die die Qualität der Abfragen beeinträchtigen.

Welchen LLM sollte ich für meine Hardware-Setup wählen?

Für hochwertige Anwendungen (32 GB+ VRAM) verwenden Sie Deepseek-r1:32b oder Llama3.3-70b. Für mittelgroße Anwendungen (16–24 GB VRAM) bietet Devstral Small 2 eine geringe Halluzinationsrate und einen Fokus auf Codierung. Für kostengünstige Anwendungen (12–16 GB VRAM) ist Qwen3:14b gegenüber gpt-oss:20b vorzuziehen, da die Halluzinationsrate deutlich niedriger ist.

Warum gpt-oss:20b bei Cognee vermeiden?

Trotz schneller Inferenzgeschwindigkeiten hat gpt-oss:20b eine Halluzinationsrate von 91,4 %, die die Graphen-Knoten und -Kanten stark verfälscht und sie damit für Produktions-Cognee-Pipelines ungeeignet macht, bei denen die Graphenqualität von entscheidender Bedeutung ist.

Welche Embedding-Modelle funktionieren mit Cognee auf Ollama?

Beliebte Optionen sind nomic-embed-text (768 Dimensionen, 2k Kontext), jina-embeddings-v2-base-en (768 Dimensionen, 8k Kontext) und qwen3-embedding-Modelle (1024–4096 Dimensionen, 32K Kontext). Stellen Sie sicher, dass die Embedding-Dimensionen mit der Konfiguration Ihres Vektor-Speichers übereinstimmen.

Wo positioniert sich Ollama für Cognee im LLM-Hosting-Landschaft?

Ollama ist eine lokale Option. Unser Hauptleitfaden zur LLM-Hosting-Vergleichung stellt ihn mit vLLM, Docker Model Runner, LocalAI und Cloud-Anbietern sowie Kosten- und Infrastrukturkompromissen gegenüber.

Kann ich Cognee mit einem Backend andere als Ollama verwenden?

Cognee unterstützt Ollama und andere Anbieter. Für den Vergleich lokaler und cloudbasierter Backends siehe den LLM-Hosting-Leitfaden.

Die Wahl des richtigen LLM für Cognee: Lokale Ollama-Installation

Gedanken zu LLMs für selbstgehostete Cognee

Inhaltsverzeichnis

Die Wahl des Besten LLM für Cognee erfordert das Ausbalancieren von Graph-Qualität, Halluzinationsraten und Hardware-Beschränkungen.
Cognee leistet sich besonders gut mit größeren, niedrig-halluzinierenden Modellen (32B+) über Ollama, doch mittelgroße Optionen sind für leichtere Systeme geeignet.

Für eine umfassendere Vergleichsanalyse von Ollama mit vLLM, Docker Model Runner, LocalAI und Cloud-Anbietern – einschließlich Kosten- und Infrastruktur-Kompromisse – siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur Verglichen.

lecture-in-the-library

Wichtige Cognee-Anforderungen

Cognee nutzt das LLM für Entitäten-Extraktion, Beziehungs-Interferenz und Metadaten-Generierung. Modelle unter 32B erzeugen oft laute Graphen, während hohe Halluzination (z. B. 90%+) Knoten/Kanten verunreinigt und die Retrieval-Qualität mindert. Die offiziellen Dokumente empfehlen deepseek-r1:32b oder llama3.3-70b-instruct-q3_K_M in Kombination mit Mistral-Embeddings.

Modellvergleichstabelle

Modell	Parameter	Halluzination (SimpleQA/schätzung)	VRAM (quantisiert)	Cognee-Stärken	Schwächen
gpt-oss:20b	20B	91,4%	~16 GB	Schnelle Inferenz, Tool-Aufruf	Schwerer Graph-Rausch
Qwen3:14b	14B	~40-45%	~12-14 GB	Effizient auf geringer Hardware	Begrenzte Tiefe für Graphen
Devstral Small 2	24B	~8-10%	~18-20 GB	Fokus auf Codierung, saubere Entitäten	Höherer VRAM-Bedarf als Qwen3
Llama3.3-70b	70B	~30-40%	~40 GB+	Optimaler Graph-Qualität	Schwerer Ressourcenbedarf
Deepseek-r1:32b	32B	Niedrig (empfohlen)	~24-32 GB	Bestes für Schlussfolgerungen/Graphen	Langsam auf Consumer-GPUs

Die Daten wurden aus Cognee-Dokumenten, Modellkarten und Benchmarks synthetisiert. Die Halluzinationsdaten, obwohl sie aussehen, als wären sie falsch, könnten nicht so weit weg sein…

Empfehlungen nach Hardware

High-End (32 GB+ VRAM): Deepseek-r1:32b oder Llama3.3-70b. Diese erzeugen laut Cognee-Richtlinien die saubersten Graphen.
Mittelklasse (16-24 GB VRAM): Devstral Small 2. Niedrige Halluzination und Codierungsfokus sind für strukturierte Gedächtnis-Aufgaben geeignet.
Budget (12-16 GB VRAM): Qwen3:14b anstelle von gpt-oss:20b – vermeiden Sie die 91% Halluzination-Fallen.
Überlegen Sie, gpt-oss:20b für Cognee zu vermeiden; es gibt Hinweise, dass seine Fehler in der unkontrollierten Graphen-Generierung verstärkt werden. Aber die Inferenzgeschwindigkeit auf meiner GPU ist 2+ mal schneller….

Schnelle Ollama + Cognee-Installation

# 1. Modell herunterladen (z. B. Devstral)
ollama pull devstral-small-2:24b  # oder qwen3:14b, usw.

# 2. Cognee installieren
pip install "cognee[ollama]"

# 3. Umgebungsvariablen
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 Dimensionen
export EMBEDDING_DIMENSIONS=768

# 4. Graph testen
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Passen Sie die Embedding-Dimensionen (z. B. 768, 1024) überall im Konfigurations- und Vektor-Speicher an. Qwen3 Embeddings (nicht in Cognee getestet) könnten bei 1024–4096 Dimensionen funktionieren, wenn Ollama dies unterstützt.

Priorisieren Sie Modelle mit geringer Halluzination für Produktions-Cognee-Pipelines – Ihre Graphen werden es Ihnen danken.
Testen Sie auf Ihrer Hardware und überwachen Sie die Graph-Kohärenz.
Um zu sehen, wie Ollama mit anderen lokalen und Cloud-LLM-Optionen zusammenpasst, prüfen Sie unseren Leitfaden LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur Verglichen.

Embedding-Modelle

Ich habe nicht viel darüber nachgedacht, aber hier ist eine Tabelle, die ich für die Zukunft zusammengestellt habe.

Ollama-Modell	Größe, GB	Embedding-Dimensionen	Kontextlänge
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Wichtige Cognee-Anforderungen

Modellvergleichstabelle

Empfehlungen nach Hardware

Schnelle Ollama + Cognee-Installation

Embedding-Modelle

Nützliche Links