Rost Glukhov | Sitio personal y blog técnico

Mejores LLMs para OpenCode - Pruebas Locales

He probado cómo funciona OpenCode con varios modelos LLM alojados localmente en Ollama, y para comparar, he añadido algunos modelos gratuitos de OpenCode Zen.

Inicio Rápido del Asistente de Codificación OpenHands: Instalación, Banderas de la CLI y Ejemplos

OpenHands es una plataforma de código abierto e agnóstica a modelos para agentes de desarrollo de software impulsados por IA. Permite que un agente se comporte más como un compañero de codificación que como una simple herramienta de autocompletado.

LocalAI QuickStart: Ejecute LLM compatibles con OpenAI localmente

LocalAI es un servidor de inferencia autohospedado y local-first diseñado para comportarse como una API de OpenAI de reemplazo directo para ejecutar cargas de trabajo de IA en tu propio hardware (portátil, estación de trabajo o servidor local).

Quickstart de llama.cpp con CLI y servidor

Sigo volviendo a llama.cpp para la inferencia local, ya que me da el control que Ollama y otros abstraen, y simplemente funciona. Fácil de ejecutar modelos GGUF de forma interactiva con llama-cli o exponer una API HTTP OpenAI-compatible con llama-server.

Inicio rápido de OpenCode: instalar, configurar y utilizar el agente de IA para codificación en terminal

OpenCode es un agente de codificación con IA de código abierto que puedes ejecutar en la terminal (TUI + CLI) con superficies de escritorio e IDE opcionales. Este es el Inicio Rápido de OpenCode: instala, verifica, conecta un modelo/proveedor y ejecuta flujos de trabajo reales (CLI + API).

Airtable para Desarrolladores y DevOps - Planes, API, Webhooks y Ejemplos en Go/Python

Airtable se considera mejor como una plataforma de aplicación de bajo código construida alrededor de una interfaz de usuario “similar a una base de datos” colaborativa - excelente para crear rápidamente herramientas operativas (seguimiento interno, CRM ligero, pipelines de contenido, colas de evaluación de IA) donde los no desarrolladores necesitan una interfaz amigable, pero los desarrolladores también necesitan una superficie de API para la automatización e integración.

Monitorear la inferencia de LLM en producción (2026): Prometheus y Grafana para vLLM, TGI, llama.cpp

La inferencia de LLM parece “solo otra API” — hasta que aparecen picos de latencia, se forman colas y tus GPUs se quedan en un 95% de memoria sin una explicación obvia.

OpenClaw Quickstart: Instalación con Docker (GPU de Ollama o CPU de Claude)

OpenClaw es un asistente de IA autohospedado diseñado para ejecutarse con entornos locales de LLM como Ollama o con modelos basados en la nube como Claude Sonnet.

Garage vs. MinIO vs. AWS S3: Comparación de almacenamiento de objetos y matriz de características

AWS S3 sigue siendo la “opción por defecto” para el almacenamiento de objetos: es completamente gestionado, ofrece consistencia fuerte y está diseñado para una durabilidad y disponibilidad extremadamente altas.
Garage y MinIO son alternativas autohospedadas compatibles con S3: Garage está diseñado para clusters pequeños a medianos distribuidos geográficamente, mientras que MinIO se centra en una amplia cobertura de características de la API S3 y en un alto rendimiento en implementaciones más grandes.

Implementando aplicaciones de flujo de trabajo con Temporal en Go: Una guía completa

Temporal es un motor de flujo de trabajo de código abierto, de nivel empresarial, que permite a los desarrolladores construir aplicaciones de flujo de trabajo duraderas, escalables y tolerantes a fallos utilizando lenguajes de programación familiares como Go.

Garaje - Almacenamiento de objetos compatible con S3 Guía de inicio rápido

Garage es un sistema de almacenamiento de objetos compatible con S3, de código abierto y autohospedado, diseñado para despliegues pequeños a medianos, con un fuerte énfasis en la resiliencia y la distribución geográfica.

Observabilidad para sistemas de LLM: Métricas, rastreos, registros y pruebas en producción

LLM sistemas fallan de maneras que la supervisión tradicional de API no puede detectar — las colas se llenan silenciosamente, la memoria de GPU se satura mucho antes de que la CPU parezca ocupada, y la latencia explota en la capa de lotes en lugar de en la capa de aplicación. Esta guía cubre una estrategia de observabilidad completa para la inferencia de LLM y aplicaciones de LLM: qué medir, cómo instrumentar con Prometheus, OpenTelemetry y Grafana, y cómo desplegar la tubería de telemetría a gran escala.

Estrategias de segmentación en comparación de RAG: Alternativas, concesiones y ejemplos

Chunking es el hiperparámetro más subestimado en Generación Aumentada por Recuperación (RAG): silenciosamente determina lo que ve tu LLM, cuán costosa se vuelve la ingesta, y cuánto del contexto de la LLM consumes por respuesta.

Automatización de Navegadores en Go: Selenium, chromedp, Playwright, ZenRows

Elegir la pila correcta de automatización del navegador y web scraping en Go afecta la velocidad, el mantenimiento y donde se ejecuta tu código.

Cómo configurar lanzadores de escritorio en Ubuntu 24 con iconos estándar

Launchers de escritorio en Ubuntu 24 (y en la mayoría de los escritorios Linux) están definidos por archivos .desktop: pequeños archivos de configuración basados en texto que describen una aplicación o enlace.

Crear AWS CloudFront en el plan de pago por uso (no el plan gratuito)

El plan gratuito de AWS no funciona para mí y Pay-as-you-go está oculto para nuevas distribuciones de CloudFront en la consola de AWS .