Wybór odpowiedniego LLM dla Cognee: lokalna konfiguracja Ollama

Refleksje nad LLM dla samowystarczalnego Cognee

Page content

Wybór najlepszego LLM dla Cognee wymaga zrównoważenia jakości budowania grafów, poziomu halucynacji i ograniczeń sprzętowych.
Cognee wyróżnia się w przypadku większych modeli o niskim poziomie halucynacji (32B+) poprzez Ollama, jednak opcje o średnich parametrach są odpowiednie dla prostszych konfiguracji.

Aby uzyskać szersze porównanie Ollama z vLLM, Docker Model Runner, LocalAI i dostawcami chmurowymi – w tym analizę kosztów i wykorzystania infrastruktury – zobacz Porównanie infrastruktury lokalnej, samowystarczalnej i chmurowej dla hostingu LLM.

lecture-in-the-library

Kluczowe wymagania Cognee

Cognee opiera się na LLM do ekstrakcji encji, wnioskowania relacji i generowania metadanych. Modele poniżej 32B często generują szumowe grafy, a wysoki poziom halucynacji (np. 90%+) zanieczyszcza węzły i krawędzie, pogarszając odzyskiwanie danych. Dokumentacja oficjalna zaleca deepseek-r1:32b lub llama3.3-70b-instruct-q3_K_M w parze z embeddingami Mistral.

Tabela porównania modeli

Model Parametry Poziom halucynacji (SimpleQA/est.) VRAM (skwantowany) Zalety Cognee Wady
gpt-oss:20b 20B 91,4% ~16 GB Szybka inferencja, wywoływanie narzędzi Wysoki poziom szumu w grafach
Qwen3:14b 14B ~40-45% ~12-14 GB Efektywne na sprzęcie o średniej mocy Ograniczona głębia grafów
Devstral Small 2 24B ~8-10% ~18-20 GB Skupienie na kodowaniu, czyste encje Wysoki poziom VRAM w porównaniu do Qwen3
Llama3.3-70b 70B ~30-40% ~40 GB+ Optymalna jakość grafów Wysokie wymagania sprzętowe
Deepseek-r1:32b 32B Niski (rekomendowany) ~24-32 GB Najlepszy do rozumowania i grafów Wolniejszy na konsumenckich GPU

Dane syntezyzowane z dokumentacji Cognee, kart modeli i benchmarków. Poziom halucynacji, mimo że wydaje się niezgodny, może być nieco zbliżony do rzeczywistości…

Rekomendacje według sprzętu

  • Wysokiej klasy (32 GB+ VRAM): Deepseek-r1:32b lub Llama3.3-70b. Te modele dają najczystsze grafy zgodnie z wskazówkami Cognee.
  • Średniego zakresu (16-24 GB VRAM): Devstral Small 2. Niski poziom halucynacji i zaawansowane umiejętności kodowania są odpowiednie do zadań pamięci strukturalnej.
  • Dużego zakresu (12-16 GB VRAM): Qwen3:14b zamiast gpt-oss:20b – unikaj pułapek 91% halucynacji.
  • Rozważanie unikania gpt-oss:20b dla Cognee; są notatki, że jego błędy nasilają się przy niefiltrowanej konstrukcji grafów. Jednak prędkość inferencji na moim GPU jest 2+ razy większa….

Szybki setup Ollama + Cognee

# 1. Pobierz model (np. Devstral)
ollama pull devstral-small-2:24b  # albo qwen3:14b, itd.

# 2. Zainstaluj Cognee
pip install "cognee[ollama]"

# 3. Zmienne środowiskowe
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 wymiarów
export EMBEDDING_DIMENSIONS=768

# 4. Test grafu
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Zgodność wymiarów embeddingów (np. 768, 1024) powinna być zapewniona w konfiguracji i magazynie wektorowym. Qwen3 Embeddings (niezbadane w Cognee) mogą działać przy wymiarach 1024-4096, jeśli są obsługiwane przez Ollama.

Zadbaj o modele o niskim poziomie halucynacji w produkcji Cognee – Twoje grafy będą Ci za to wdzięczne. Przetestuj na swoim sprzęcie i monitoruj spójność grafów. Aby zobaczyć, jak Ollama pasuje do innych lokalnych i chmurowych opcji LLM, sprawdź nasz przewodnik Porównanie infrastruktury lokalnej, samowystarczalnej i chmurowej dla hostingu LLM.

Modele embeddingów

Nie zastanawiałem się nad tym zbyt długo, ale oto tabela, którą przygotowałem, dla przyszłej referencji.

Model Ollama Rozmiar, GB Wymiar embeddingu Długość kontekstu
nomic-embed-text:latest 0,274 768 2k
jina-embeddings-v2-base-en:latest 0,274 768 8k
nomic-embed-text-v2-moe 0,958 768 512
qwen3-embedding:0.6b 0,639 1024 32K
qwen3-embedding:4b 2,5 2560 32K
qwen3-embedding:8b 4,7 4096 32K
avr/sfr-embedding-mistral:latest 4,4 4096 32K

Przydatne linki