正しいLLMの選択:Cognee用のローカルOllama設定

LLMを自社でホストするCogneeについての考察

目次

Best LLM for Cognee を選ぶ際には、グラフ構築の質、幻覚率、ハードウェアの制約のバランスが求められます。
Cognee は、Ollama を介して 32B 以上の低幻覚モデルで優れた性能を発揮しますが、軽量な設定では中規模のオプションも使用可能です。

Ollama と vLLM、Docker Model Runner、LocalAI、クラウドプロバイダーとの比較を含め、コストとインフラストラクチャのトレードオフについても見たい場合は、LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared をご参照ください。

lecture-in-the-library

Cognee の主な要件

Cognee は、エンティティ抽出、関係推論、メタデータ生成に LLM を依存しています。32B 未満のモデルは、ノイズの多いグラフを生成する傾向があります。また、高幻覚(例:90%以上)はノードやエッジを汚染し、検索性能を低下させます。公式ドキュメントでは、deepseek-r1:32b または llama3.3-70b-instruct-q3_K_M と Mistral の埋め込みを組み合わせることを推奨しています。

モデル比較表

モデル パラメータ 幻覚 (SimpleQA/推定) VRAM (量子化済み) Cognee の強み 弱点
gpt-oss:20b 20B 91.4% ~16GB ファストな推論、ツール呼び出し グラフノイズが深刻
Qwen3:14b 14B ~40-45% ~12-14GB ある程度のハードウェアでも効率的 グラフの深さが限られている
Devstral Small 2 24B ~8-10% ~18-20GB コーディングに特化、エンティティがクリーン Qwen3 よりも VRAM が高め
Llama3.3-70b 70B ~30-40% ~40GB+ グラフ品質が最適 重いリソース要件
Deepseek-r1:32b 32B 低 (推奨) ~24-32GB 推論/グラフに最適 消費者向けGPUでは遅い

データは Cognee ドキュメント、モデルカード、ベンチマークから合成されたものです。幻覚レベルのデータは見た目が異常ですが、実際の値に近いかもしれません。

ハードウェア別推奨

  • 高スペック (32GB+ VRAM): Deepseek-r1:32b または Llama3.3-70b。Cognee のガイドラインによれば、最もクリーンなグラフを生成します。
  • 中規模 (16-24GB VRAM): Devstral Small 2。低幻覚とコーディング能力により構造化されたメモリタスクに適しています。
  • 予算 (12-16GB VRAM): Qwen3:14b が gpt-oss:20b よりも好ましく、91%の幻覚リスクを回避できます。
  • gpt-oss:20b を Cognee で使用する際には注意が必要です。フィルタリングされていないグラフ構築においてその誤差が拡大するというノートがあります。ただし、私のGPUでは推論速度が2倍以上速いです。

Ollama + Cognee の簡単なセットアップ

# 1. モデルを引き抜く(例:Devstral)
ollama pull devstral-small-2:24b  # または qwen3:14b など

# 2. Cognee をインストール
pip install "cognee[ollama]"

# 3. 環境変数
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text"  # 768 次元
export EMBEDDING_DIMENSIONS=768

# 4. グラフのテスト
cognee-cli add your_data_file.txt --dataset-name "test_graph"

構成とベクトルストアの埋め込み次元(例:768、1024)を一致させる必要があります。Qwen3 Embeddings(Cognee での実証はされていません)は、Ollama がサポートしている場合、1024~4096 次元で動作する可能性があります。

生産環境の Cognee パイプラインでは幻覚率が低いモデルを優先してください。あなたのグラフに感謝されます。
自分のハードウェアでテストし、グラフの整合性を監視してください。Ollama が他のローカルおよびクラウド LLM オプションとどのように適合するかについては、LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared ガイドをご参照ください。

埋め込みモデル

この点についてはあまり考えていませんでしたが、今後のためにまとめた表を以下に示します。

Ollama モデル サイズ (GB) 埋め込み次元 コンテキスト長さ
nomic-embed-text:latest 0.274 768 2k
jina-embeddings-v2-base-en:latest 0.274 768 8k
nomic-embed-text-v2-moe 0.958 768 512
qwen3-embedding:0.6b 0.639 1024 32K
qwen3-embedding:4b 2.5 2560 32K
qwen3-embedding:8b 4.7 4096 32K
avr/sfr-embedding-mistral:latest 4.4 4096 32K

有用なリンク