正しいLLMの選択:Cognee用のローカルOllama設定
LLMを自社でホストするCogneeについての考察
Best LLM for Cognee を選ぶ際には、グラフ構築の質、幻覚率、ハードウェアの制約のバランスが求められます。
Cognee は、Ollama を介して 32B 以上の低幻覚モデルで優れた性能を発揮しますが、軽量な設定では中規模のオプションも使用可能です。
Ollama と vLLM、Docker Model Runner、LocalAI、クラウドプロバイダーとの比較を含め、コストとインフラストラクチャのトレードオフについても見たい場合は、LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared をご参照ください。

Cognee の主な要件
Cognee は、エンティティ抽出、関係推論、メタデータ生成に LLM を依存しています。32B 未満のモデルは、ノイズの多いグラフを生成する傾向があります。また、高幻覚(例:90%以上)はノードやエッジを汚染し、検索性能を低下させます。公式ドキュメントでは、deepseek-r1:32b または llama3.3-70b-instruct-q3_K_M と Mistral の埋め込みを組み合わせることを推奨しています。
モデル比較表
| モデル | パラメータ | 幻覚 (SimpleQA/推定) | VRAM (量子化済み) | Cognee の強み | 弱点 |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91.4% | ~16GB | ファストな推論、ツール呼び出し | グラフノイズが深刻 |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | ある程度のハードウェアでも効率的 | グラフの深さが限られている |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | コーディングに特化、エンティティがクリーン | Qwen3 よりも VRAM が高め |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | グラフ品質が最適 | 重いリソース要件 |
| Deepseek-r1:32b | 32B | 低 (推奨) | ~24-32GB | 推論/グラフに最適 | 消費者向けGPUでは遅い |
データは Cognee ドキュメント、モデルカード、ベンチマークから合成されたものです。幻覚レベルのデータは見た目が異常ですが、実際の値に近いかもしれません。
ハードウェア別推奨
- 高スペック (32GB+ VRAM): Deepseek-r1:32b または Llama3.3-70b。Cognee のガイドラインによれば、最もクリーンなグラフを生成します。
- 中規模 (16-24GB VRAM): Devstral Small 2。低幻覚とコーディング能力により構造化されたメモリタスクに適しています。
- 予算 (12-16GB VRAM): Qwen3:14b が gpt-oss:20b よりも好ましく、91%の幻覚リスクを回避できます。
- gpt-oss:20b を Cognee で使用する際には注意が必要です。フィルタリングされていないグラフ構築においてその誤差が拡大するというノートがあります。ただし、私のGPUでは推論速度が2倍以上速いです。
Ollama + Cognee の簡単なセットアップ
# 1. モデルを引き抜く(例:Devstral)
ollama pull devstral-small-2:24b # または qwen3:14b など
# 2. Cognee をインストール
pip install "cognee[ollama]"
# 3. 環境変数
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 次元
export EMBEDDING_DIMENSIONS=768
# 4. グラフのテスト
cognee-cli add your_data_file.txt --dataset-name "test_graph"
構成とベクトルストアの埋め込み次元(例:768、1024)を一致させる必要があります。Qwen3 Embeddings(Cognee での実証はされていません)は、Ollama がサポートしている場合、1024~4096 次元で動作する可能性があります。
生産環境の Cognee パイプラインでは幻覚率が低いモデルを優先してください。あなたのグラフに感謝されます。
自分のハードウェアでテストし、グラフの整合性を監視してください。Ollama が他のローカルおよびクラウド LLM オプションとどのように適合するかについては、LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared ガイドをご参照ください。
埋め込みモデル
この点についてはあまり考えていませんでしたが、今後のためにまとめた表を以下に示します。
| Ollama モデル | サイズ (GB) | 埋め込み次元 | コンテキスト長さ |
|---|---|---|---|
| nomic-embed-text:latest | 0.274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0.274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0.958 | 768 | 512 |
| qwen3-embedding:0.6b | 0.639 | 1024 | 32K |
| qwen3-embedding:4b | 2.5 | 2560 | 32K |
| qwen3-embedding:8b | 4.7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4.4 | 4096 | 32K |
有用なリンク
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Ollama モデルフォルダの設定
- Ollama チートシート