Wybór odpowiedniego LLM dla Cognee: lokalna konfiguracja Ollama
Refleksje nad LLM dla samowystarczalnego Cognee
Wybór najlepszego LLM dla Cognee wymaga zrównoważenia jakości budowania grafów, poziomu halucynacji i ograniczeń sprzętowych.
Cognee wyróżnia się w przypadku większych modeli o niskim poziomie halucynacji (32B+) poprzez Ollama, jednak opcje o średnich parametrach są odpowiednie dla prostszych konfiguracji.
Aby uzyskać szersze porównanie Ollama z vLLM, Docker Model Runner, LocalAI i dostawcami chmurowymi – w tym analizę kosztów i wykorzystania infrastruktury – zobacz Porównanie infrastruktury lokalnej, samowystarczalnej i chmurowej dla hostingu LLM.

Kluczowe wymagania Cognee
Cognee opiera się na LLM do ekstrakcji encji, wnioskowania relacji i generowania metadanych. Modele poniżej 32B często generują szumowe grafy, a wysoki poziom halucynacji (np. 90%+) zanieczyszcza węzły i krawędzie, pogarszając odzyskiwanie danych. Dokumentacja oficjalna zaleca deepseek-r1:32b lub llama3.3-70b-instruct-q3_K_M w parze z embeddingami Mistral.
Tabela porównania modeli
| Model | Parametry | Poziom halucynacji (SimpleQA/est.) | VRAM (skwantowany) | Zalety Cognee | Wady |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91,4% | ~16 GB | Szybka inferencja, wywoływanie narzędzi | Wysoki poziom szumu w grafach |
| Qwen3:14b | 14B | ~40-45% | ~12-14 GB | Efektywne na sprzęcie o średniej mocy | Ograniczona głębia grafów |
| Devstral Small 2 | 24B | ~8-10% | ~18-20 GB | Skupienie na kodowaniu, czyste encje | Wysoki poziom VRAM w porównaniu do Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40 GB+ | Optymalna jakość grafów | Wysokie wymagania sprzętowe |
| Deepseek-r1:32b | 32B | Niski (rekomendowany) | ~24-32 GB | Najlepszy do rozumowania i grafów | Wolniejszy na konsumenckich GPU |
Dane syntezyzowane z dokumentacji Cognee, kart modeli i benchmarków. Poziom halucynacji, mimo że wydaje się niezgodny, może być nieco zbliżony do rzeczywistości…
Rekomendacje według sprzętu
- Wysokiej klasy (32 GB+ VRAM): Deepseek-r1:32b lub Llama3.3-70b. Te modele dają najczystsze grafy zgodnie z wskazówkami Cognee.
- Średniego zakresu (16-24 GB VRAM): Devstral Small 2. Niski poziom halucynacji i zaawansowane umiejętności kodowania są odpowiednie do zadań pamięci strukturalnej.
- Dużego zakresu (12-16 GB VRAM): Qwen3:14b zamiast gpt-oss:20b – unikaj pułapek 91% halucynacji.
- Rozważanie unikania gpt-oss:20b dla Cognee; są notatki, że jego błędy nasilają się przy niefiltrowanej konstrukcji grafów. Jednak prędkość inferencji na moim GPU jest 2+ razy większa….
Szybki setup Ollama + Cognee
# 1. Pobierz model (np. Devstral)
ollama pull devstral-small-2:24b # albo qwen3:14b, itd.
# 2. Zainstaluj Cognee
pip install "cognee[ollama]"
# 3. Zmienne środowiskowe
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 wymiarów
export EMBEDDING_DIMENSIONS=768
# 4. Test grafu
cognee-cli add your_data_file.txt --dataset-name "test_graph"
Zgodność wymiarów embeddingów (np. 768, 1024) powinna być zapewniona w konfiguracji i magazynie wektorowym. Qwen3 Embeddings (niezbadane w Cognee) mogą działać przy wymiarach 1024-4096, jeśli są obsługiwane przez Ollama.
Zadbaj o modele o niskim poziomie halucynacji w produkcji Cognee – Twoje grafy będą Ci za to wdzięczne. Przetestuj na swoim sprzęcie i monitoruj spójność grafów. Aby zobaczyć, jak Ollama pasuje do innych lokalnych i chmurowych opcji LLM, sprawdź nasz przewodnik Porównanie infrastruktury lokalnej, samowystarczalnej i chmurowej dla hostingu LLM.
Modele embeddingów
Nie zastanawiałem się nad tym zbyt długo, ale oto tabela, którą przygotowałem, dla przyszłej referencji.
| Model Ollama | Rozmiar, GB | Wymiar embeddingu | Długość kontekstu |
|---|---|---|---|
| nomic-embed-text:latest | 0,274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0,274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0,958 | 768 | 512 |
| qwen3-embedding:0.6b | 0,639 | 1024 | 32K |
| qwen3-embedding:4b | 2,5 | 2560 | 32K |
| qwen3-embedding:8b | 4,7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4,4 | 4096 | 32K |
Przydatne linki
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Konfiguracja folderu modeli Ollama
- Ollama cheatsheet