RAG - Rost Glukhov | Sitio personal y blog técnico

Incrustaciones de texto para RAG y búsqueda: Python, Ollama, APIs compatibles con OpenAI

Si estás trabajando en generación aumentada con recuperación (RAG), esta sección explica los incrustados de texto (text embeddings) en términos sencillos: qué son, cómo se integran en la búsqueda y la recuperación, y cómo llamar a dos configuraciones locales comunes desde Python usando Ollama o una API HTTP compatible con OpenAI (como la que exponen muchos servidores basados en llama.cpp).

Base de datos gráfica Neo4j para GraphRAG, instalación, Cypher, vectores y operaciones.

Neo4j es a lo que recurres cuando las relaciones son los datos. Si tu dominio parece un pizarrón lleno de círculos y flechas, forzarlo en tablas es doloroso.

Sistemas de IA: Asistentes autoalojados, RAG e infraestructura local

La mayoría de las configuraciones locales de IA comienzan con un modelo y un entorno de ejecución.

OpenClaw Inicio Rápido: Instalación con Docker (Ollama GPU o Claude + CPU)

OpenClaw es un asistente de IA autoalojado diseñado para ejecutarse con entornos locales de LLM como Ollama o con modelos basados en la nube como Claude Sonnet.

OpenClaw: Examinando un Asistente de IA Autoalojado como Sistema Real

La mayoría de las configuraciones locales de IA comienzan de la misma manera: un modelo, un entorno de ejecución y una interfaz de chat.

Estrategias de segmentación en comparación de RAG: Alternativas, concesiones y ejemplos

Chunking es el hiperparámetro más subestimado en Generación Aumentada por Recuperación (RAG): silenciosamente determina lo que ve tu LLM, cuán costosa se vuelve la ingesta, y cuánto del contexto de la LLM consumes por respuesta.

Tutorial de Generación Aumentada con Recuperación (RAG): Arquitectura, Implementación y Guía de Producción

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

Autoalojamiento de LLM y soberanía de la IA

El autoalojamiento de modelos de lenguaje grandes (LLM) mantiene los datos, los modelos y la inferencia bajo su control: una vía práctica hacia la soberanía de la IA para equipos, empresas y naciones.

Los 17 proyectos de Python más populares en GitHub

El ecosistema de Python de este mes está dominado por las habilidades de Claude y las herramientas para agentes de IA. Este análisis analiza los repositorios de Python más populares en GitHub.

Top 19 proyectos de Go trending en GitHub - Enero 2026

El ecosistema de Go continúa prosperando con proyectos innovadores que abarcan herramientas de IA, aplicaciones autohospedadas y infraestructura para desarrolladores. Este análisis examina los repositorios de Go más trending en GitHub de este mes.

Autohospedaje de Cognee: Elegir LLM en Ollama

Cognee es un marco de Python para construir grafos de conocimiento a partir de documentos utilizando LLMs. ¿Pero funciona con modelos autohospedados?

Elegir el LLM adecuado para Cognee: Configuración local de Ollama

Elegir el Mejor LLM para Cognee requiere equilibrar la calidad de construcción de gráficos, las tasas de alucinación y las restricciones de hardware. Cognee destaca con modelos grandes de baja alucinación (32B+) a través de Ollama pero las opciones de tamaño medio funcionan para configuraciones más ligeras.

Usar la API de búsqueda web de Ollama en Python

La biblioteca de Python de Ollama ahora incluye capacidades nativas de búsqueda web de OLLama. Con solo unas pocas líneas de código, puedes mejorar tus LLMs locales con información en tiempo real desde la web, reduciendo las alucinaciones e incrementando la precisión.

Comparación de almacenes vectoriales para RAG

Elegir el almacén de vectores adecuado puede hacer o deshacer el rendimiento, el costo y la escalabilidad de tu aplicación RAG. Esta comparación integral cubre las opciones más populares en 2024-2025.

Usando la API de búsqueda web de Ollama en Go

La API de búsqueda web de Ollama le permite mejorar los LLM locales con información en tiempo real de la web. Esta guía le muestra cómo implementar capacidades de búsqueda web en Go, desde llamadas simples a la API hasta agentes de búsqueda completos.

Ollama vs vLLM vs LM Studio: ¿La mejor forma de ejecutar LLMs localmente en 2026?

Ejecutar LLMs (Modelos de Lenguaje Grandes) de forma local es ahora práctico para desarrolladores, startups e incluso equipos empresariales.
Pero elegir la herramienta correcta — Ollama, vLLM, LM Studio, LocalAI u otras — depende de tus objetivos: