Выбор правильного LLM для Cognee: локальная установка Ollama
Размышления об использовании больших языковых моделей для саморазмещаемого Cognee
Выбор лучшей LLM для Cognee требует баланса между качеством построения графов, уровнями галлюцинаций и ограничениями оборудования. Cognee лучше всего работает с крупными моделями с низким уровнем галлюцинаций (32B+) через Ollama, но средние варианты подходят для более легких настроек.
Для более широкого сравнения Ollama с vLLM, Docker Model Runner, LocalAI и облачными провайдерами — включая затраты и компромиссы инфраструктуры — см. LLM Hosting: Локальные, самоуправляемые и облачные инфраструктуры сравнены.

Ключевые требования Cognee
Cognee полагается на LLM для извлечения сущностей, вывода отношений и генерации метаданных. Модели меньше 32B часто производят шумные графы, а высокий уровень галлюцинаций (например, 90%+) загрязняет узлы и ребра, ухудшая извлечение. Официальная документация рекомендует deepseek-r1:32b или llama3.3-70b-instruct-q3_K_M в сочетании с вложениями Mistral.
Таблица сравнения моделей
| Модель | Параметры | Уровень галлюцинаций (SimpleQA/оц.) | VRAM (квантованная) | Сильные стороны Cognee | Слабые стороны |
|---|---|---|---|---|---|
| gpt-oss:20b | 20B | 91.4% | ~16GB | Быстрое выведение, вызов инструментов | Сильный шум в графах |
| Qwen3:14b | 14B | ~40-45% | ~12-14GB | Эффективность на скромном оборудовании | Ограниченная глубина для графов |
| Devstral Small 2 | 24B | ~8-10% | ~18-20GB | Фокус на кодировании, чистые сущности | Более высокая VRAM, чем у Qwen3 |
| Llama3.3-70b | 70B | ~30-40% | ~40GB+ | Оптимальное качество графов | Высокие требования к ресурсам |
| Deepseek-r1:32b | 32B | Низкий (рекомендуется) | ~24-32GB | Лучший для рассуждений/графов | Медленнее на потребительских GPU |
Данные синтезированы из документации Cognee, карточек моделей и бенчмарков. Данные об уровне галлюцинаций, хотя и кажутся странными, могут быть не так уж и далеки от истины…
Рекомендации по оборудованию
- Высокопроизводительное (32GB+ VRAM): Deepseek-r1:32b или Llama3.3-70b. Эти модели дают самые чистые графы по рекомендациям Cognee.
- Средний уровень (16-24GB VRAM): Devstral Small 2. Низкий уровень галлюцинаций и кодировочные возможности подходят для структурированных задач памяти.
- Бюджетный (12-16GB VRAM): Qwen3:14b вместо gpt-oss:20b — избегайте ловушек с 91% галлюцинаций.
- Думаю, стоит избегать gpt-oss:20b для Cognee; есть заметки о том, что его ошибки усиливаются при нефильтрованном построении графов. Но скорость вывода на моем GPU в 2+ раза выше….
Быстрая настройка Ollama + Cognee
# 1. Загрузка модели (например, Devstral)
ollama pull devstral-small-2:24b # или qwen3:14b и т.д.
# 2. Установка Cognee
pip install "cognee[ollama]"
# 3. Переменные окружения
export LLM_PROVIDER="ollama"
export LLM_MODEL="devstral-small-2:24b"
export EMBEDDING_PROVIDER="ollama"
export EMBEDDING_MODEL="nomic-embed-text" # 768 dims
export EMBEDDING_DIMENSIONS=768
# 4. Тестовый граф
cognee-cli add your_data_file.txt --dataset-name "test_graph"
Совместите размеры вложений (например, 768, 1024) в конфигурации и хранилище векторов. Qwen3 Embeddings (не проверены в Cognee) могут работать при 1024-4096 размерах, если поддерживаются Ollama.
Приоритизируйте модели с низким уровнем галлюцинаций для производственных конвейеров Cognee — ваши графы будут вам благодарны. Тестируйте на своем оборудовании и следите за согласованностью графов. Чтобы увидеть, как Ollama сочетается с другими локальными и облачными вариантами LLM, ознакомьтесь с нашим руководством LLM Hosting: Локальные, самоуправляемые и облачные инфраструктуры сравнены.
Модели вложений
Не особо задумывался об этом, но вот таблица, которую я собрал для будущих ссылок
| Модель Ollama | Размер, ГБ | Размерность вложений | Длина контекста |
|---|---|---|---|
| nomic-embed-text:latest | 0.274 | 768 | 2k |
| jina-embeddings-v2-base-en:latest | 0.274 | 768 | 8k |
| nomic-embed-text-v2-moe | 0.958 | 768 | 512 |
| qwen3-embedding:0.6b | 0.639 | 1024 | 32K |
| qwen3-embedding:4b | 2.5 | 2560 | 32K |
| qwen3-embedding:8b | 4.7 | 4096 | 32K |
| avr/sfr-embedding-mistral:latest | 4.4 | 4096 | 32K |
Полезные ссылки
- https://docs.cognee.ai/how_to_guides/local_models
- https://docs.cognee.ai/setup-configuration/embedding-providers
- https://arxiv.org/html/2508.10925v1
- https://github.com/vectara/hallucination-leaderboard
- https://ollama.com/library/nomic-embed-text-v2-moe
- Qwen3 Embedding
- Настройка папки моделей Ollama
- Шпаргалка по Ollama