RAG - Rost Glukhov | Sitio personal y blog técnico

OpenClaw Quickstart: Instalación con Docker (GPU de Ollama o CPU de Claude)

OpenClaw es un asistente de IA autohospedado diseñado para ejecutarse con entornos locales de LLM como Ollama o con modelos basados en la nube como Claude Sonnet.

OpenClaw: Examinando un asistente de IA autohospedado como un sistema real

La mayoría de las configuraciones locales de IA comienzan de la misma manera: un modelo, un entorno de ejecución y una interfaz de chat.

Estrategias de segmentación en comparación de RAG: Alternativas, concesiones y ejemplos

Chunking es el hiperparámetro más subestimado en Generación Aumentada por Recuperación (RAG): silenciosamente determina lo que ve tu LLM, cuán costosa se vuelve la ingesta, y cuánto del contexto de la LLM consumes por respuesta.

Tutorial sobre Generación Aumentada por Recuperación (RAG): Arquitectura, Implementación y Guía para Producción

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

Autohospedaje de LLMs mantiene los datos, modelos e inferencia bajo su control: un camino práctico hacia la soberanía en IA para equipos, empresas y naciones.

Top 17 proyectos de Python más trending en GitHub

El ecosistema de Python este mes está dominado por Claude Skills y las herramientas de agentes de IA. Este análisis se basa en los repositorios de Python más trending en GitHub.

Top 19 proyectos de Go trending en GitHub - Enero 2026

El ecosistema de Go continúa prosperando con proyectos innovadores que abarcan herramientas de IA, aplicaciones autohospedadas y infraestructura para desarrolladores. Este análisis examina los repositorios de Go más trending en GitHub de este mes.

Autohospedaje de Cognee: Elegir LLM en Ollama

Cognee es un marco de Python para construir grafos de conocimiento a partir de documentos utilizando LLMs. ¿Pero funciona con modelos autohospedados?

Elegir el LLM adecuado para Cognee: Configuración local de Ollama

Elegir el Mejor LLM para Cognee requiere equilibrar la calidad de construcción de gráficos, las tasas de alucinación y las restricciones de hardware. Cognee destaca con modelos grandes de baja alucinación (32B+) a través de Ollama pero las opciones de tamaño medio funcionan para configuraciones más ligeras.

Usar la API de búsqueda web de Ollama en Python

La biblioteca de Python de Ollama ahora incluye capacidades nativas de búsqueda web de OLLama. Con solo unas pocas líneas de código, puedes mejorar tus LLMs locales con información en tiempo real desde la web, reduciendo las alucinaciones e incrementando la precisión.

Comparación de Almacenes de Vectores para RAG

Elegir el almacén de vectores adecuado puede marcar la diferencia en el rendimiento, el costo y la escalabilidad de tu aplicación RAG. Esta comparación abarca las opciones más populares del 2024-2025.

Usando la API de búsqueda web de Ollama en Go

La API de búsqueda web de Ollama le permite mejorar los LLM locales con información en tiempo real de la web. Esta guía le muestra cómo implementar capacidades de búsqueda web en Go, desde llamadas simples a la API hasta agentes de búsqueda completos.

Ollama vs vLLM vs LM Studio: ¿La mejor forma de ejecutar LLMs localmente en 2026?

Ejecutar LLMs localmente es ahora práctico para desarrolladores, startups e incluso equipos empresariales.
Pero elegir la herramienta adecuada — Ollama, vLLM, LM Studio, LocalAI u otras — depende de tus objetivos:

Infraestructura de IA en hardware de consumo

La democratización de la IA está aquí. Con LLMs de código abierto como Llama 3, Mixtral y Qwen ahora rivales de modelos propietarios, los equipos pueden construir una poderosa infraestructura de IA usando hardware de consumo - reduciendo costos mientras se mantiene el control total sobre la privacidad de los datos y la implementación.

Advanced RAG: LongRAG, Self-RAG y GraphRAG Explicados

Generación Aumentada por Recuperación (RAG) ha evolucionado mucho más allá de la búsqueda simple de similitud de vectores. LongRAG, Self-RAG y GraphRAG representan el estado del arte de estas capacidades.

Reduzca los costos de LLM: Estrategias de optimización de tokens

La optimización de tokens es la habilidad crítica que separa las aplicaciones de LLM eficientes económicamente de experimentos que consumen presupuesto.