LLM - Rost Glukhov | Site pessoal e blog técnico

Início Rápido do llama.cpp com CLI e Servidor

Tenho voltado constantemente a llama.cpp para inferência local — ele oferece controle que o Ollama e outros abstraem, e simplesmente funciona. Fácil de executar modelos GGUF interativamente com llama-cli ou expor uma API HTTP compatível com OpenAI com llama-server.

OpenCode Quickstart: Instale, configure e use o agente de codificação AI do terminal

OpenCode é um agente de IA de código aberto que você pode executar no terminal (TUI + CLI) com superfícies desktop e IDE opcionais. Esta é a Introdução Rápida ao OpenCode: instale, verifique, conecte-se a um modelo/fornecedor e execute fluxos de trabalho reais (CLI + API).

Monitore a Inferência de LLM em Produção (2026): Prometheus & Grafana para vLLM, TGI, llama.cpp

A inferência de LLM parece “apenas outra API” — até que ocorram picos de latência, filas se formem novamente e seus GPUs fiquem em 95% de memória sem explicação óbvia.

OpenClaw Quickstart: Instale com Docker (Ollama GPU ou Claude CPU)

OpenClaw é um assistente de IA auto-hospedado projetado para funcionar com runtimes locais de LLM, como o Ollama, ou com modelos baseados em nuvem, como o Claude Sonnet.

OpenClaw: Analisando um Assistente de IA Auto-Hospedado como um Sistema Real

A maioria das configurações locais de IA começa da mesma forma: um modelo, um tempo de execução e uma interface de chat.

Implementando Aplicações de Workflow com Temporal em Go: Um Guia Completo

Temporal é um motor de workflow de código aberto, empresarial, que permite que desenvolvedores construam aplicações de workflow duráveis, escaláveis e tolerantes a falhas usando linguagens de programação familiares, como Go.

Observabilidade para Sistemas de LLM: Métricas, Rastreamentos, Logs e Testes em Produção

Sistemas de LLM falham de formas que o monitoramento tradicional de API não pode detectar — filas enchem-se silenciosamente, a memória da GPU se enche antes que o CPU pareça ocupado, e a latência explode na camada de lotes, e não na camada de aplicação. Este guia abrange uma estratégia de observabilidade de ponta a ponta para a inferência de LLM e aplicações de LLM: o que medir, como instrumentar com Prometheus, OpenTelemetry e Grafana, e como implantar o pipeline de telemetria em larga escala.

Estratégias de Chunking no Comparativo de RAG: Alternativas, Compromissos e Exemplos

Chunking é o hiperparâmetro mais subestimado em Geração Aumentada por Recuperação (RAG): ele determina silenciosamente o que o seu LLM “vê”, quão cara se torna a ingestão, e quanta parte da janela de contexto do LLM você consome por resposta.

Observabilidade em Produção: Monitoramento, Métricas, Guia do Prometheus & Grafana (2026)

Observabilidade é a base de sistemas produtivos confiáveis.

Sem métricas, dashboards e alertas, os clusters Kubernetes se afastam, as cargas de trabalho de IA falham silenciosamente e as regressões de latência passam despercebidas até que os usuários reclamem.

Tutorial de Geração Aumentada por Recuperação (RAG): Arquitetura, Implementação e Guia de Produção

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.

Hosting de LLM em 2026: Comparando Infraestrutura Local, Auto-Hospedada e em Nuvem

Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.

Auto-hospedagem de LLM e soberania da IA

Auto-hospedagem de LLMs mantém os dados, modelos e inferência sob seu controle - um caminho prático para soberania em IA para equipes, empresas e nações.

Comparando o desempenho de LLMs no Ollama em uma GPU com 16 GB de VRAM

Executar grandes modelos de linguagem localmente oferece privacidade, capacidade offline e zero custos de API. Este benchmark revela exatamente o que se pode esperar de 14 modelos populares LLMs no Ollama no RTX 4080.

Top 17 Projetos em Python em Destaque no GitHub

O ecossistema Python este mês é dominado pelas habilidades do Claude e pela ferramenta de agentes de IA. Este resumo analisa os repositórios Python mais populares no GitHub.

O ecossistema Rust está explodindo com projetos inovadores, especialmente em ferramentas de codificação de IA e aplicações de terminal. Este resumo analisa os principais repositórios de Rust em tendência no GitHub deste mês.