LLMがCogneeに適している理由は何か？

Cogneeでは、品質の高いエンティティ抽出、関係推論、メタデータ生成のために、幻覚率が低く（理想的には40％未満）、十分なパラメータ数（32B以上が推奨）を持つLLMが必要です。高幻覚率（90％以上）のモデルは、ノイズの多いグラフを生成し、検索の品質を低下させます。

私のハードウェア構成に適したLLMはどれを選べばよいでしょうか？

高級な構成（32GB以上のVRAM）では、Deepseek-r1:32bまたはLlama3.3-70bを使用してください。中級（16〜24GB VRAM）では、Devstral Small 2が幻覚の少なさとコーディングに特化しています。予算が限られている構成（12〜16GB VRAM）では、gpt-oss:20bよりも幻覚率がはるかに低いQwen3:14bがおすすめです。

なぜCogneeではgpt-oss:20bを避けるべきなのか？

高い推論速度にもかかわらず、gpt-oss:20bはグラフのノードやエッジを深刻に汚染する91.4%のフェイク情報生成率を有しており、グラフの品質が重要な生産用Cogneeパイプラインには不適切です。

Ollama上でCogneeと互換性がある埋め込みモデルはどれですか？

人気のあるオプションには、nomic-embed-text（768次元、2kコンテキスト）、jina-embeddings-v2-base-en（768次元、8kコンテキスト）、およびqwen3-embeddingモデル（1024〜4096次元、32Kコンテキスト）があります。埋め込み次元がベクトルストレージの設定と一致していることを確認してください。

Ollama for Cogneeは、LLMホスティングの分野においてどのような位置付けにあるのでしょうか。

Ollama は、ローカルで利用できるオプションの 1 つです。主な LLM ホスティングガイドでは、vLLM、Docker Model Runner、LocalAI およびクラウドプロバイダーと比較し、コストやインフラストラクチャのトレードオフについても説明しています。

Ollama以外のバックエンドでCogneeを実行できますか？

CogneeはOllamaおよびその他のプロバイダをサポートしています。ローカルとクラウドのバックエンドを比較するには、LLMホスティングガイドをご覧ください。

正しいLLMの選択：Cognee用のローカルOllama設定

LLMを自社でホストするCogneeについての考察

Best LLM for Cognee を選ぶ際には、グラフ構築の質、幻覚率、ハードウェアの制約のバランスが求められます。
Cognee は、Ollama を介して 32B 以上の低幻覚モデルで優れた性能を発揮しますが、軽量な設定では中規模のオプションも使用可能です。

Ollama と vLLM、Docker Model Runner、LocalAI、クラウドプロバイダーとの比較を含め、コストとインフラストラクチャのトレードオフについても見たい場合は、LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared をご参照ください。

lecture-in-the-library

Cognee の主な要件

Cognee は、エンティティ抽出、関係推論、メタデータ生成に LLM を依存しています。32B 未満のモデルは、ノイズの多いグラフを生成する傾向があります。また、高幻覚（例：90％以上）はノードやエッジを汚染し、検索性能を低下させます。公式ドキュメントでは、deepseek-r1:32b または llama3.3-70b-instruct-q3_K_M と Mistral の埋め込みを組み合わせることを推奨しています。

モデル比較表

モデル	パラメータ	幻覚 (SimpleQA/推定)	VRAM (量子化済み)	Cognee の強み	弱点
gpt-oss:20b	20B	91.4%	~16GB	ファストな推論、ツール呼び出し	グラフノイズが深刻
Qwen3:14b	14B	~40-45%	~12-14GB	ある程度のハードウェアでも効率的	グラフの深さが限られている
Devstral Small 2	24B	~8-10%	~18-20GB	コーディングに特化、エンティティがクリーン	Qwen3 よりも VRAM が高め
Llama3.3-70b	70B	~30-40%	~40GB+	グラフ品質が最適	重いリソース要件
Deepseek-r1:32b	32B	低 (推奨)	~24-32GB	推論/グラフに最適	消費者向けGPUでは遅い

データは Cognee ドキュメント、モデルカード、ベンチマークから合成されたものです。幻覚レベルのデータは見た目が異常ですが、実際の値に近いかもしれません。

ハードウェア別推奨

高スペック (32GB+ VRAM): Deepseek-r1:32b または Llama3.3-70b。Cognee のガイドラインによれば、最もクリーンなグラフを生成します。
中規模 (16-24GB VRAM): Devstral Small 2。低幻覚とコーディング能力により構造化されたメモリタスクに適しています。
予算 (12-16GB VRAM): Qwen3:14b が gpt-oss:20b よりも好ましく、91％の幻覚リスクを回避できます。
gpt-oss:20b を Cognee で使用する際には注意が必要です。フィルタリングされていないグラフ構築においてその誤差が拡大するというノートがあります。ただし、私のGPUでは推論速度が2倍以上速いです。

Ollama + Cognee の簡単なセットアップ

# 1. モデルを引き抜く（例：Devstral）
ollama pull devstral-small-2:24b  # または qwen3:14b など

# 2. Cognee をインストール
pip install "cognee[ollama]"

# 3. 環境変数
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 次元
export EMBEDDING_DIMENSIONS=768

# 4. グラフのテスト
cognee-cli add your_data_file.txt --dataset-name "test_graph"

構成とベクトルストアの埋め込み次元（例：768、1024）を一致させる必要があります。Qwen3 Embeddings（Cognee での実証はされていません）は、Ollama がサポートしている場合、1024～4096 次元で動作する可能性があります。

生産環境の Cognee パイプラインでは幻覚率が低いモデルを優先してください。あなたのグラフに感謝されます。
自分のハードウェアでテストし、グラフの整合性を監視してください。Ollama が他のローカルおよびクラウド LLM オプションとどのように適合するかについては、LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared ガイドをご参照ください。

埋め込みモデル

この点についてはあまり考えていませんでしたが、今後のためにまとめた表を以下に示します。

Ollama モデル	サイズ (GB)	埋め込み次元	コンテキスト長さ
nomic-embed-text:latest	0.274	768	2k
jina-embeddings-v2-base-en:latest	0.274	768	8k
nomic-embed-text-v2-moe	0.958	768	512
qwen3-embedding:0.6b	0.639	1024	32K
qwen3-embedding:4b	2.5	2560	32K
qwen3-embedding:8b	4.7	4096	32K
avr/sfr-embedding-mistral:latest	4.4	4096	32K

Cognee の主な要件

モデル比較表

ハードウェア別推奨

Ollama + Cognee の簡単なセットアップ

埋め込みモデル

有用なリンク