Die Wahl des richtigen LLM für Cognee: Lokale Ollama-Installation
Gedanken zu LLMs für selbstgehostete Cognee
Die Wahl des Besten LLM für Cognee erfordert das Ausbalancieren von Graph-Qualität, Halluzinationsraten und Hardware-Beschränkungen.
Cognee leistet sich besonders gut mit größeren, niedrig-halluzinierenden Modellen (32B+) über Ollama, doch mittelgroße Optionen sind für leichtere Systeme geeignet.
Für eine umfassendere Vergleichsanalyse von Ollama mit vLLM, Docker Model Runner, LocalAI und Cloud-Anbietern – einschließlich Kosten- und Infrastruktur-Kompromisse – siehe LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur Verglichen.

Wichtige Cognee-Anforderungen
Cognee nutzt das LLM für Entitäten-Extraktion, Beziehungs-Interferenz und Metadaten-Generierung. Modelle unter 32B erzeugen oft laute Graphen, während hohe Halluzination (z. B. 90%+) Knoten/Kanten verunreinigt und die Retrieval-Qualität mindert. Die offiziellen Dokumente empfehlen deepseek-r1:32b oder llama3.3-70b-instruct-q3_K_M in Kombination mit Mistral-Embeddings.
Modellvergleichstabelle
| Modell | Parameter | Halluzination (SimpleQA/schätzung) | VRAM (quantisiert) | Cognee-Stärken | Schwächen |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16 GB | Schnelle Inferenz, Tool-Aufruf | Schwerer Graph-Rausch |
| Qwen3:14b | 14B | ~40-45% | ~12-14 GB | Effizient auf geringer Hardware | Begrenzte Tiefe für Graphen |
| Devstral Small 2 | 24B | ~8-10% | ~18-20 GB | Fokus auf Codierung, saubere Entitäten | Höherer VRAM-Bedarf als Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40 GB+ | Optimaler Graph-Qualität | Schwerer Ressourcenbedarf |
| Deepseek-r1:32b | 32B | Niedrig (empfohlen) | ~24-32 GB | Bestes für Schlussfolgerungen/Graphen | Langsam auf Consumer-GPUs |
Die Daten wurden aus Cognee-Dokumenten, Modellkarten und Benchmarks synthetisiert. Die Halluzinationsdaten, obwohl sie aussehen, als wären sie falsch, könnten nicht so weit weg sein…
Empfehlungen nach Hardware
- High-End (32 GB+ VRAM): Deepseek-r1:32b oder Llama3.3-70b. Diese erzeugen laut Cognee-Richtlinien die saubersten Graphen.
- Mittelklasse (16-24 GB VRAM): Devstral Small 2. Niedrige Halluzination und Codierungsfokus sind für strukturierte Gedächtnis-Aufgaben geeignet.
- Budget (12-16 GB VRAM): Qwen3:14b anstelle von gpt-oss:20b – vermeiden Sie die 91% Halluzination-Fallen.
- Überlegen Sie, gpt-oss:20b für Cognee zu vermeiden; es gibt Hinweise, dass seine Fehler in der unkontrollierten Graphen-Generierung verstärkt werden. Aber die Inferenzgeschwindigkeit auf meiner GPU ist 2+ mal schneller….
Schnelle Ollama + Cognee-Installation
# 1. Modell herunterladen (z. B. Devstral)
ollama pull devstral-small-2:24b # oder qwen3:14b, usw.
# 2. Cognee installieren
pip install "cognee[ollama]"
# 3. Umgebungsvariablen
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 Dimensionen
export EMBEDDING_DIMENSIONS=768
# 4. Graph testen
cognee-cli add your_data_file.txt --dataset-name "test_graph"
Passen Sie die Embedding-Dimensionen (z. B. 768, 1024) überall im Konfigurations- und Vektor-Speicher an. Qwen3 Embeddings (nicht in Cognee getestet) könnten bei 1024–4096 Dimensionen funktionieren, wenn Ollama dies unterstützt.
Priorisieren Sie Modelle mit geringer Halluzination für Produktions-Cognee-Pipelines – Ihre Graphen werden es Ihnen danken.
Testen Sie auf Ihrer Hardware und überwachen Sie die Graph-Kohärenz.
Um zu sehen, wie Ollama mit anderen lokalen und Cloud-LLM-Optionen zusammenpasst, prüfen Sie unseren Leitfaden LLM-Hosting: Lokal, Selbstgehostet & Cloud-Infrastruktur Verglichen.
Embedding-Modelle
Ich habe nicht viel darüber nachgedacht, aber hier ist eine Tabelle, die ich für die Zukunft zusammengestellt habe.
| Ollama-Modell | Größe, GB | Embedding-Dimensionen | Kontextlänge |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Nützliche Links
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Konfigurieren Sie den Ollama-Modellordner
- Ollama cheatsheet