Question 1

Что делает LLM подходящим для Cognee?

Accepted Answer

Cognee требует языковых моделей с низким уровнем галлюцинаций (идеально менее 40%) и достаточным количеством параметров (рекомендуется 32B+) для качественного извлечения сущностей, вывода отношений и генерации метаданных. Модели с высоким уровнем галлюцинаций (90%+) создают шумные графы, которые ухудшают качество извлечения.

Question 2

Какой LLM мне выбрать для моего аппаратного обеспечения?

Accepted Answer

Для высокопроизводительных конфигураций (32 ГБ+ VRAM) используйте Deepseek-r1:32b или Llama3.3-70b. Для среднебюджетных (16-24 ГБ VRAM) Devstral Small 2 предлагает низкий уровень галлюцинаций и фокусировку на кодировании. Для бюджетных конфигураций (12-16 ГБ VRAM) предпочтительнее Qwen3:14b по сравнению с gpt-oss:20b из-за значительно более низких показателей галлюцинаций.

Question 3

Почему избегать gpt-oss:20b для Cognee?

Accepted Answer

Несмотря на высокую скорость инференса, gpt-oss:20b имеет уровень галлюцинаций 91,4%, что сильно загрязняет узлы и рёбра графа, делая его непригодным для производственных пайплайнов Cognee, где качество графа критично.

Question 4

Какие модели встраивания работают с Cognee на Ollama?

Accepted Answer

Популярные варианты включают nomic-embed-text (768 измерений, 2K контекст), jina-embeddings-v2-base-en (768 измерений, 8K контекст) и модели qwen3-embedding (1024-4096 измерений, 32K контекст). Убедитесь, что размерность вложений соответствует конфигурации вашего векторного хранилища.

Question 5

Где Ollama для Cognee вписывается в ландшафт хостинга LLM?

Accepted Answer

Ollama — это один из локальных вариантов. Наше основное руководство по хостингу LLM сравнивает его с vLLM, Docker Model Runner, LocalAI и облачными провайдерами, включая анализ затрат и компромиссов инфраструктуры.

Question 6

Можно ли запускать Cognee с бэкендом, отличным от Ollama?

Accepted Answer

Cognee поддерживает Ollama и других поставщиков. Для сравнения локальных и облачных бэкендов см. руководство по хостингу LLM.

Модель	Параметры	Уровень галлюцинаций (SimpleQA/оц.)	VRAM (квантованная)	Сильные стороны Cognee	Слабые стороны
gpt-oss:20b	20B	91.4%	~16GB	Быстрое выведение, вызов инструментов	Сильный шум в графах
Qwen3:14b	14B	~40-45%	~12-14GB	Эффективность на скромном оборудовании	Ограниченная глубина для графов
Devstral Small 2	24B	~8-10%	~18-20GB	Фокус на кодировании, чистые сущности	Более высокая VRAM, чем у Qwen3
Llama3.3-70b	70B	~30-40%	~40GB+	Оптимальное качество графов	Высокие требования к ресурсам
Deepseek-r1:32b	32B	Низкий (рекомендуется)	~24-32GB	Лучший для рассуждений/графов	Медленнее на потребительских GPU

Модель Ollama	Размер, ГБ	Размерность вложений	Длина контекста
nomic-embed-text:latest	0.274	768	2k
jina-embeddings-v2-base-en:latest	0.274	768	8k
nomic-embed-text-v2-moe	0.958	768	512
qwen3-embedding:0.6b	0.639	1024	32K
qwen3-embedding:4b	2.5	2560	32K
qwen3-embedding:8b	4.7	4096	32K
avr/sfr-embedding-mistral:latest	4.4	4096	32K

Выбор правильного LLM для Cognee: локальная установка Ollama

Ключевые требования Cognee

Таблица сравнения моделей

Рекомендации по оборудованию

Быстрая настройка Ollama + Cognee

Модели вложений

Полезные ссылки