RAG - Рост Глухов | Персональный сайт и технический блог

Векторные представления текста для RAG и поиска — Python, Ollama, совместимые с API OpenAI

Если вы работаете с генерацией с расширением поиска (RAG), этот раздел объясняет векторные представления текста (эмбеддинги) простым языком: что это такое, как они работают в поиске и извлечении данных, и как вызывать два распространенных локальных режима из Python с помощью Ollama или OpenAI-совместимого HTTP API (так как многие серверы на базе llama.cpp поддерживают такой интерфейс).

Стратегии разбиения на части в сравнении RAG: альтернативы, компромиссы и примеры

Чанкинг — это наиболее недооцененный гиперпараметр в Retrieval-Augmented Generation (RAG): он определяет, что видит ваша LLM, насколько дорогостоящим становится индексирование, и сколько контекстного окна LLM тратится на каждый ответ.

Руководство по генерации с расширенным поиском (RAG): архитектура, реализация и внедрение в производство

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

Выбор правильного векторного хранилища может стать решающим фактором для производительности, стоимости и масштабируемости вашего приложения RAG. Это комплексное сравнение охватывает самые популярные варианты на 2024–2025 годы.

Кросс-модальные вложения: объединение модулей ИИ

Кросc-модальные вложения представляют собой прорыв в искусственном интеллекте, позволяя понимать и анализировать различные типы данных в едином пространстве представления.

Продвинутый RAG: объяснение LongRAG, Self-RAG и GraphRAG

Генерация с дополнением извлечения (RAG) развилась далеко за пределы простого поиска по векторной схожести. LongRAG, Self-RAG и GraphRAG представляют собой передовой край этих возможностей.

Переранжирование документов с помощью Ollama и модели Qwen3 Reranker на языке Go

Поскольку стандартный Ollama не имеет прямого API для пересчета рангов (rerank), вам потребуется реализовать пересчет рангов с использованием Qwen3 Reranker на GO путем генерации эмбеддингов для пар «запрос-документ» и их оценки.

Переранжирование текстов с помощью Ollama и модели встраивания Qwen3 LLM на языке Go

Этот небольшой пример кода на Go для пересортировки вызывает Ollama для генерации эмбеддингов для запроса и для каждого кандидата-документа, затем сортирует их по убыванию косинусного сходства.

Модели встраивания и переупорядочивания Qwen3 на Ollama: передовые показатели производительности

Модели встраивания и переупорядочивания Qwen3 являются новейшими релизами в семействе Qwen, специально разработанными для продвинутых задач встраивания текста (embedding), поиска и переупорядочивания результатов (reranking).

Поиск против Глубокого поиска против Глубокого исследования в 2026 году

Поиск лучше всего подходит для быстрого получения простой информации с использованием ключевых слов.
Глубокий поиск превосходит в понимании контекста и намерений, предоставляя более релевантные и полные результаты для сложных запросов.

Пересортировка — это второй этап в системах генерации с расширением поиска (RAG) системы, расположенный между этапом извлечения и генерации.