Rost Glukhov | Site pessoal e blog técnico

LocalAI QuickStart: Execute LLMs compatíveis com OpenAI localmente

LocalAI é um servidor de inferência auto-hospedado e local-first projetado para se comportar como uma API compatível com OpenAI para executar cargas de trabalho de IA no seu próprio hardware (laptop, estação de trabalho ou servidor local).

Início Rápido do llama.cpp com CLI e Servidor

Tenho voltado constantemente a llama.cpp para inferência local — ele oferece controle que o Ollama e outros abstraem, e simplesmente funciona. Fácil de executar modelos GGUF interativamente com llama-cli ou expor uma API HTTP compatível com OpenAI com llama-server.

OpenCode Quickstart: Instale, configure e use o agente de codificação AI do terminal

OpenCode é um agente de IA de código aberto que você pode executar no terminal (TUI + CLI) com superfícies desktop e IDE opcionais. Esta é a Introdução Rápida ao OpenCode: instale, verifique, conecte-se a um modelo/fornecedor e execute fluxos de trabalho reais (CLI + API).

Airtable para Desenvolvedores e DevOps - Planos, API, Webhooks e Exemplos em Go/Python

Airtable é melhor pensado como uma plataforma de aplicação de baixa complexidade de código construída em torno de uma interface de “planilha semelhante a um banco de dados” colaborativa - excelente para criar rapidamente ferramentas operacionais (rastreadores internos, CRM leve, pipelines de conteúdo, filas de avaliação de IA) onde não-desenvolvedores precisam de uma interface amigável, mas os desenvolvedores também precisam de uma superfície de API para automação e integração.

Monitore a Inferência de LLM em Produção (2026): Prometheus & Grafana para vLLM, TGI, llama.cpp

A inferência de LLM parece “apenas outra API” — até que ocorram picos de latência, filas se formem novamente e seus GPUs fiquem em 95% de memória sem explicação óbvia.

OpenClaw Quickstart: Instale com Docker (Ollama GPU ou Claude CPU)

OpenClaw é um assistente de IA auto-hospedado projetado para funcionar com runtimes locais de LLM, como o Ollama, ou com modelos baseados em nuvem, como o Claude Sonnet.

Garage vs MinIO vs AWS S3: Comparação de Armazenamento de Objetos e Matriz de Recursos

AWS S3 permanece como “padrão” para armazenamento de objetos: é totalmente gerenciado, com consistência forte e projetado para uma durabilidade e disponibilidade extremamente altas.
Garage e MinIO são alternativas auto-hospedadas, compatíveis com S3: o Garage é projetado para clusters leves, geodistribuídos, de pequeno a médio porte, enquanto o MinIO enfatiza a ampla cobertura de recursos da API S3 e o desempenho elevado em implantações maiores.

Implementando Aplicações de Workflow com Temporal em Go: Um Guia Completo

Temporal é um motor de workflow de código aberto, empresarial, que permite que desenvolvedores construam aplicações de workflow duráveis, escaláveis e tolerantes a falhas usando linguagens de programação familiares, como Go.

Garagem - Armazenamento de objetos compatível com S3 Quickstart

Garage é um sistema de armazenamento de objetos compatível com S3, de código aberto e auto-hospedado, projetado para implantações de pequeno a médio porte, com um forte ênfase em resiliência e distribuição geográfica.

Observabilidade para Sistemas de LLM: Métricas, Rastreamentos, Logs e Testes em Produção

Sistemas de LLM falham de formas que o monitoramento tradicional de API não pode detectar — filas enchem-se silenciosamente, a memória da GPU se enche antes que o CPU pareça ocupado, e a latência explode na camada de lotes, e não na camada de aplicação. Este guia abrange uma estratégia de observabilidade de ponta a ponta para a inferência de LLM e aplicações de LLM: o que medir, como instrumentar com Prometheus, OpenTelemetry e Grafana, e como implantar o pipeline de telemetria em larga escala.

Estratégias de Chunking no Comparativo de RAG: Alternativas, Compromissos e Exemplos

Chunking é o hiperparâmetro mais subestimado em Geração Aumentada por Recuperação (RAG): ele determina silenciosamente o que o seu LLM “vê”, quão cara se torna a ingestão, e quanta parte da janela de contexto do LLM você consome por resposta.

Automação de Navegador em Go: Selenium, chromedp, Playwright, ZenRows

Escolher a pilha correta de automatização do navegador e web scraping em Go afeta a velocidade, a manutenção e onde o seu código será executado.

Como configurar lançadores de desktop no Ubuntu 24 com ícones padrão

Launchers de área de trabalho no Ubuntu 24 (e na maioria dos ambientes de desktop Linux) são definidos por arquivos .desktop: pequenos arquivos de configuração baseados em texto que descrevem um aplicativo ou link.

Crie um AWS CloudFront no modelo Pay-as-You-Go (não no Plano Grátis)

O plano gratuito da AWS não está funcionando para mim e
Pay-as-you-go está oculto para novas distribuições CloudFront no console da AWS.

Automação de Navegador em Python: Playwright, Selenium e Mais

Escolher a pilha correta de automação de navegador em Python afeta a velocidade, a estabilidade e a manutenção. Este resumo compara Playwright vs Selenium vs Puppeteer vs LambdaTest vs ZenRows vs Gauge - com foco em Python, enquanto nota onde o Node.js ou outros idiomas se encaixam.

Interface de usuário do terminal: BubbleTea (Go) vs Ratatui (Rust)

Duas opções fortes para construir interfaces de usuário para terminal hoje são BubbleTea (Go) e Ratatui (Rust). Uma oferece um framework opinado, estilo Elm; a outra, uma biblioteca flexível, em modo imediato.