Co czyni LLM odpowiednim do użycia w Cognee?

Cognee wymaga modeli LLM z niskim poziomem halucynacji (ideally under 40%) i wystarczającą liczbą parametrów (32B+ recommended) do wysokiej jakości ekstrakcji jednostek, wnioskowania relacji oraz generowania metadanych. Modele z wysokim poziomem halucynacji (90%+) generują szumowe grafy, które pogarszają jakość odzyskiwania.

Który model LLM powinienem wybrać dla swojej konfiguracji sprzętowej?

Dla zaawansowanych konfiguracji (32 GB+ VRAM) zaleca się użycie Deepseek-r1:32b lub Llama3.3-70b. Dla średnich konfiguracji (16–24 GB VRAM) Devstral Small 2 oferuje niski poziom halucynacji i skupienie na kodowaniu. Dla konfiguracji o niskim budżecie (12–16 GB VRAM) Qwen3:14b jest w wyższości nad gpt-oss:20b ze względu na znacznie niższe stopy halucynacji.

Dlaczego unikać gpt-oss:20b w Cognee?

Mimo szybkiego przetwarzania, model gpt-oss:20b ma poziom halucynacji wynoszący 91,4%, co znacząco zanieczyszcza węzły i krawędzie grafu, czyniąc go niewłaściwym do użytku w produkcyjnych potokach Cognee, gdzie jakość grafu jest kluczowa.

Które modele osadzania współpracują z Cognee na Ollama?

Popularne opcje to nomic-embed-text (768 wymiarów, 2k kontekst), jina-embeddings-v2-base-en (768 wymiarów, 8k kontekst) oraz modele qwen3-embedding (1024–4096 wymiarów, 32K kontekst). Upewnij się, że wymiary embeddingów są zgodne z konfiguracją swojego magazynu wektorów.

Gdzie Ollama dla Cognee zajmuje miejsce na rynku hostingu modeli językowych?

Ollama to jedna z lokalnych opcji. Nasz główny przewodnik po hostowaniu LLM porównuje ją z vLLM, Docker Model Runner, LocalAI oraz dostawcami chmurowymi, w tym kosztami i kompromisami infrastrukturalnymi.

Czy mogę uruchomić Cognee z backendem innym niż Ollama?

Cognee obsługuje Ollama i inne dostawcy. Aby porównać lokalne i chmurowe backendy, zobacz przewodnik po hostowaniu modeli LLM.

Wybór odpowiedniego LLM dla Cognee: lokalna konfiguracja Ollama

Refleksje nad LLM dla samowystarczalnego Cognee

Page content

Wybór najlepszego LLM dla Cognee wymaga zrównoważenia jakości budowania grafów, poziomu halucynacji i ograniczeń sprzętowych.
Cognee wyróżnia się w przypadku większych modeli o niskim poziomie halucynacji (32B+) poprzez Ollama, jednak opcje o średnich parametrach są odpowiednie dla prostszych konfiguracji.

Aby uzyskać szersze porównanie Ollama z vLLM, Docker Model Runner, LocalAI i dostawcami chmurowymi – w tym analizę kosztów i wykorzystania infrastruktury – zobacz Porównanie infrastruktury lokalnej, samowystarczalnej i chmurowej dla hostingu LLM.

lecture-in-the-library

Kluczowe wymagania Cognee

Cognee opiera się na LLM do ekstrakcji encji, wnioskowania relacji i generowania metadanych. Modele poniżej 32B często generują szumowe grafy, a wysoki poziom halucynacji (np. 90%+) zanieczyszcza węzły i krawędzie, pogarszając odzyskiwanie danych. Dokumentacja oficjalna zaleca deepseek-r1:32b lub llama3.3-70b-instruct-q3_K_M w parze z embeddingami Mistral.

Tabela porównania modeli

Model	Parametry	Poziom halucynacji (SimpleQA/est.)	VRAM (skwantowany)	Zalety Cognee	Wady
gpt-oss:20b	20B	91,4%	~16 GB	Szybka inferencja, wywoływanie narzędzi	Wysoki poziom szumu w grafach
Qwen3:14b	14B	~40-45%	~12-14 GB	Efektywne na sprzęcie o średniej mocy	Ograniczona głębia grafów
Devstral Small 2	24B	~8-10%	~18-20 GB	Skupienie na kodowaniu, czyste encje	Wysoki poziom VRAM w porównaniu do Qwen3
Llama3.3-70b	70B	~30-40%	~40 GB+	Optymalna jakość grafów	Wysokie wymagania sprzętowe
Deepseek-r1:32b	32B	Niski (rekomendowany)	~24-32 GB	Najlepszy do rozumowania i grafów	Wolniejszy na konsumenckich GPU

Dane syntezyzowane z dokumentacji Cognee, kart modeli i benchmarków. Poziom halucynacji, mimo że wydaje się niezgodny, może być nieco zbliżony do rzeczywistości…

Rekomendacje według sprzętu

Wysokiej klasy (32 GB+ VRAM): Deepseek-r1:32b lub Llama3.3-70b. Te modele dają najczystsze grafy zgodnie z wskazówkami Cognee.
Średniego zakresu (16-24 GB VRAM): Devstral Small 2. Niski poziom halucynacji i zaawansowane umiejętności kodowania są odpowiednie do zadań pamięci strukturalnej.
Dużego zakresu (12-16 GB VRAM): Qwen3:14b zamiast gpt-oss:20b – unikaj pułapek 91% halucynacji.
Rozważanie unikania gpt-oss:20b dla Cognee; są notatki, że jego błędy nasilają się przy niefiltrowanej konstrukcji grafów. Jednak prędkość inferencji na moim GPU jest 2+ razy większa….

Szybki setup Ollama + Cognee

# 1. Pobierz model (np. Devstral)
ollama pull devstral-small-2:24b  # albo qwen3:14b, itd.

# 2. Zainstaluj Cognee
pip install "cognee[ollama]"

# 3. Zmienne środowiskowe
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 wymiarów
export EMBEDDING_DIMENSIONS=768

# 4. Test grafu
cognee-cli add your_data_file.txt --dataset-name "test_graph"

Zgodność wymiarów embeddingów (np. 768, 1024) powinna być zapewniona w konfiguracji i magazynie wektorowym. Qwen3 Embeddings (niezbadane w Cognee) mogą działać przy wymiarach 1024-4096, jeśli są obsługiwane przez Ollama.

Zadbaj o modele o niskim poziomie halucynacji w produkcji Cognee – Twoje grafy będą Ci za to wdzięczne. Przetestuj na swoim sprzęcie i monitoruj spójność grafów. Aby zobaczyć, jak Ollama pasuje do innych lokalnych i chmurowych opcji LLM, sprawdź nasz przewodnik Porównanie infrastruktury lokalnej, samowystarczalnej i chmurowej dla hostingu LLM.

Modele embeddingów

Nie zastanawiałem się nad tym zbyt długo, ale oto tabela, którą przygotowałem, dla przyszłej referencji.

Model Ollama	Rozmiar, GB	Wymiar embeddingu	Długość kontekstu
nomic-embed-text:latest	0,274	768	2k
jina-embeddings-v2-base-en:latest	0,274	768	8k
nomic-embed-text-v2-moe	0,958	768	512
qwen3-embedding:0.6b	0,639	1024	32K
qwen3-embedding:4b	2,5	2560	32K
qwen3-embedding:8b	4,7	4096	32K
avr/sfr-embedding-mistral:latest	4,4	4096	32K

Kluczowe wymagania Cognee

Tabela porównania modeli

Rekomendacje według sprzętu

Szybki setup Ollama + Cognee

Modele embeddingów

Przydatne linki