RAG - Rost Glukhov | Sitio personal y blog técnico

Incrustaciones de texto para RAG y búsqueda: Python, Ollama, APIs compatibles con OpenAI

Si estás trabajando en generación aumentada con recuperación (RAG), esta sección explica los incrustados de texto (text embeddings) en términos sencillos: qué son, cómo se integran en la búsqueda y la recuperación, y cómo llamar a dos configuraciones locales comunes desde Python usando Ollama o una API HTTP compatible con OpenAI (como la que exponen muchos servidores basados en llama.cpp).

Estrategias de segmentación en comparación de RAG: Alternativas, concesiones y ejemplos

Chunking es el hiperparámetro más subestimado en Generación Aumentada por Recuperación (RAG): silenciosamente determina lo que ve tu LLM, cuán costosa se vuelve la ingesta, y cuánto del contexto de la LLM consumes por respuesta.

Tutorial de Generación Aumentada con Recuperación (RAG): Arquitectura, Implementación y Guía para Producción

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

Comparación de almacenes vectoriales para RAG

Elegir el almacén de vectores adecuado puede hacer o deshacer el rendimiento, el costo y la escalabilidad de tu aplicación RAG. Esta comparación integral cubre las opciones más populares en 2024-2025.

Incrustaciones Multimodales: Conectando Modalidades de IA

Embeddings cruzales representan un avance significativo en inteligencia artificial, permitiendo entender y razonar entre diferentes tipos de datos dentro de un espacio de representación unificado.

RAG Avanzado: Explicación de LongRAG, Self-RAG y GraphRAG

Generación Aumentada con Recuperación (RAG) ha evolucionado mucho más allá de la simple búsqueda de similitud vectorial. LongRAG, Self-RAG y GraphRAG representan la vanguardia de estas capacidades.

Reordenamiento de documentos con Ollama y el modelo Qwen3 Reranker - en Go

Dado que Ollama estándar no tiene una API de reranking directa, necesitará implementar reranking usando Qwen3 Reranker en GO generando embeddings para pares de consulta-documento y puntuándolos.

Reordenamiento de textos con Ollama y el LLM de incrustaciones Qwen3 - en Go

Este pequeño ejemplo de código Go para reranking que llama a Ollama para generar embeddings se utiliza para la consulta y para cada documento candidato, y luego ordena de forma descendente por similitud coseno.

Modelos de Embedding y Reranker de Qwen3 en Ollama: Rendimiento de vanguardia

Los modelos Qwen3 Embedding y Reranker son los últimos lanzamientos de la familia Qwen, diseñados específicamente para tareas avanzadas de incrustación de texto, recuperación y reordenamiento.

Búsqueda, Búsqueda Profunda e Investigación Profunda en 2026

Search es lo mejor para recuperar información rápida y directa utilizando palabras clave.
Deep Search destaca por comprender el contexto y la intención, ofreciendo resultados más relevantes y completos para consultas complejas.

Reranking es un segundo paso en la Generación Aumentada por Recuperación (RAG) sistemas, situado justo entre la Recuperación y la Generación.