Die Wahl des richtigen LLM für Cognee: Lokale Ollama-Installation

Gedanken zu LLMs für selbstgehostete Cognee

Inhaltsverzeichnis

Die Wahl des Besten LLM für Cognee erfordert das Ausbalancieren von Graph-Qualität, Halluzinationsraten und Hardware-Beschränkungen.
Cognee leistet sich besonders gut mit größeren, niedrig-halluzinierenden Modellen (32B+) über Ollama, doch mittelgroße Optionen sind für leichtere Systeme geeignet.

Für eine umfassendere Vergleichsanalyse von Ollama mit vLLM, Docker Model Runner, LocalAI und Cloud-Anbietern – einschließlich Kosten- und Infrastruktur-Kompromisse – siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur Verglichen.

lecture-in-the-library

Wichtige Cognee-Anforderungen

Cognee nutzt das LLM für Entitäten-Extraktion, Beziehungs-Interferenz und Metadaten-Generierung. Modelle unter 32B erzeugen oft laute Graphen, während hohe Halluzination (z. B. 90%+) Knoten/Kanten verunreinigt und die Retrieval-Qualität mindert. Die offiziellen Dokumente empfehlen deepseek-r1:32b oder llama3.3-70b-instruct-q3_K_M in Kombination mit Mistral-Embeddings.

Modellvergleichstabelle

Modell Parameter Halluzination (SimpleQA/schätzung) VRAM (quantisiert) Cognee-Stärken Schwächen
gpt-oss:20b 20B 91,4% ~16 GB Schnelle Inferenz, Tool-Aufruf Schwerer Graph-Rausch
Qwen3:14b 14B ~40-45% ~12-14 GB Effizient auf geringer Hardware Begrenzte Tiefe für Graphen
Devstral Small 2 24B ~8-10% ~18-20 GB Fokus auf Codierung, saubere Entitäten Höherer VRAM-Bedarf als Qwen3
Llama3.3-70b 70B ~30-40% ~40 GB+ Optimaler Graph-Qualität Schwerer Ressourcenbedarf
Deepseek-r1:32b 32B Niedrig (empfohlen) ~24-32 GB Bestes für Schlussfolgerungen/Graphen Langsam auf Consumer-GPUs

Die Daten wurden aus Cognee-Dokumenten, Modellkarten und Benchmarks synthetisiert. Die Halluzinationsdaten, obwohl sie aussehen, als wären sie falsch, könnten nicht so weit weg sein…

Empfehlungen nach Hardware

  • High-End (32 GB+ VRAM): Deepseek-r1:32b oder Llama3.3-70b. Diese erzeugen laut Cognee-Richtlinien die saubersten Graphen.
  • Mittelklasse (16-24 GB VRAM): Devstral Small 2. Niedrige Halluzination und Codierungsfokus sind für strukturierte Gedächtnis-Aufgaben geeignet.
  • Budget (12-16 GB VRAM): Qwen3:14b anstelle von gpt-oss:20b – vermeiden Sie die 91% Halluzination-Fallen.
  • Überlegen Sie, gpt-oss:20b für Cognee zu vermeiden; es gibt Hinweise, dass seine Fehler in der unkontrollierten Graphen-Generierung verstärkt werden. Aber die Inferenzgeschwindigkeit auf meiner GPU ist 2+ mal schneller….

Schnelle Ollama + Cognee-Installation

# 1. Modell herunterladen (z. B. Devstral)
ollama pull devstral-small-2:24b  # oder qwen3:14b, usw.

# 2. Cognee installieren
pip install "cognee[ollama]"

# 3. Umgebungsvariablen
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 Dimensionen
export EMBEDDING_DIMENSIONS=768

# 4. Graph testen
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Passen Sie die Embedding-Dimensionen (z. B. 768, 1024) überall im Konfigurations- und Vektor-Speicher an. Qwen3 Embeddings (nicht in Cognee getestet) könnten bei 1024–4096 Dimensionen funktionieren, wenn Ollama dies unterstützt.

Priorisieren Sie Modelle mit geringer Halluzination für Produktions-Cognee-Pipelines – Ihre Graphen werden es Ihnen danken.
Testen Sie auf Ihrer Hardware und überwachen Sie die Graph-Kohärenz.
Um zu sehen, wie Ollama mit anderen lokalen und Cloud-LLM-Optionen zusammenpasst, prüfen Sie unseren Leitfaden LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur Verglichen.

Embedding-Modelle

Ich habe nicht viel darüber nachgedacht, aber hier ist eine Tabelle, die ich für die Zukunft zusammengestellt habe.

Ollama-Modell Größe, GB Embedding-Dimensionen Kontextlänge
nomic-embed-text:latest 0,274 768 2k
jina-embeddings-v2-base-en:latest 0,274 768 8k
nomic-embed-text-v2-moe 0,958 768 512
qwen3-embedding:0.6b 0,639 1024 32K
qwen3-embedding:4b 2,5 2560 32K
qwen3-embedding:8b 4,7 4096 32K
avr/sfr-embedding-mistral:latest 4,4 4096 32K