Incrustaciones RAG: Python, Ollama y las APIs de OpenAI.
Si estás trabajando en generación aumentada con recuperación (RAG), esta sección explica los incrustados de texto (text embeddings) en términos sencillos: qué son, cómo se integran en la búsqueda y la recuperación, y cómo llamar a dos configuraciones locales comunes desde Python usando Ollama o una API HTTP compatible con OpenAI (como la que exponen muchos servidores basados en llama.cpp).
Chunking es el hiperparámetro más subestimado en Generación Aumentada por Recuperación (RAG):
silenciosamente determina lo que ve tu LLM,
cuán costosa se vuelve la ingesta,
y cuánto del contexto de la LLM consumes por respuesta.
De RAG básico a producción: fragmentación, búsqueda vectorial, reranking y evaluación en una sola guía.
Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.
Elija la base de datos vectorial adecuada para su pila RAG.
Elegir el almacén de vectores adecuado puede hacer o deshacer el rendimiento, el costo y la escalabilidad de tu aplicación RAG. Esta comparación integral cubre las opciones más populares en 2024-2025.
Unifique texto, imágenes y audio en espacios de incrustación compartidos
Embeddings cruzales representan un avance significativo en inteligencia artificial, permitiendo entender y razonar entre diferentes tipos de datos dentro de un espacio de representación unificado.
LongRAG, Self-RAG, GraphRAG: técnicas de la próxima generación
Generación Aumentada con Recuperación (RAG)
ha evolucionado mucho más allá de la simple búsqueda de similitud vectorial.
LongRAG, Self-RAG y GraphRAG representan la vanguardia de estas capacidades.
¿Implementando RAG? Aquí tienes algunos fragmentos de código en Go - 2...
Dado que Ollama estándar no tiene una API de reranking directa, necesitará implementar reranking usando Qwen3 Reranker en GO generando embeddings para pares de consulta-documento y puntuándolos.
Nuevos modelos de LLM impresionantes disponibles en Ollama
Los modelos Qwen3 Embedding y Reranker son los últimos lanzamientos de la familia Qwen, diseñados específicamente para tareas avanzadas de incrustación de texto, recuperación y reordenamiento.