Rost Glukhov | Site pessoal e blog técnico

Claude, OpenClaw e o fim da cobrança plana para agentes

A brecha silenciosa que impulsionou uma onda de experimentação com agentes agora está fechada.

Início Rápido do Vane (Perplexica 2.0) com Ollama e llama.cpp

Vane é uma das entradas mais pragmáticas no espaço de “busca de IA com citações”: um motor de respostas auto-hospedado que combina recuperação da web em tempo real com LLMs locais ou na nuvem, mantendo toda a pilha sob seu controle.

Instalação e configuração do Claude Code para Ollama, llama.cpp, preços

O Claude Code não é um autocompletar com melhor marketing. É uma ferramenta de codificação agêntica: lê sua base de código, edita arquivos, executa comandos e integra-se às suas ferramentas de desenvolvimento.

Assistente de IA Hermes - Instalação, Configuração, Fluxo de Trabalho e Solução de Problemas

O Hermes Agent é um assistente de IA auto-hospedado e agnóstico em relação ao modelo que roda em uma máquina local ou em um VPS de baixo custo, opera por meio de interfaces de terminal e mensagens e melhora ao longo do tempo, transformando tarefas repetidas em habilidades reutilizáveis.

TGI – Text Generation Inference – Instalação, Configuração e Solução de Problemas

A Inferência de Geração de Texto (TGI) tem uma energia muito específica. Não é o mais novo na rua da inferência, mas é aquele que já aprendeu como a produção quebra -

Benchmarks de LLM com 16 GB de VRAM usando llama.cpp (velocidade e contexto)

Aqui comparo a velocidade de vários LLMs executados em uma GPU com 16 GB de VRAM e escolho o melhor para auto-hospedagem.

Preços e Disponibilidade da RTX 5090 na Austrália em Março de 2026: A Realidade

A Austrália tem estoque de RTX 5090. Quase nada. E se você encontrar uma, pagará um prêmio que parece descolado da realidade.

Acesso remoto ao Ollama via Tailscale ou WireGuard, sem portas públicas.

Ollama está em seu melhor quando é tratado como um daemon local: a CLI e seus aplicativos se comunicam com uma API HTTP em loopback, e o resto da rede nunca fica sabendo que ele existe.

Logs Estruturados em Go com slog para Observabilidade e Alertas

Logs são uma interface de depuração que você ainda pode usar quando o sistema está em chamas. O problema é que logs em texto puro envelhecem mal: assim que você precisa de filtragem, agregação e alertas, começa a analisar sentenças.

Ollama no Docker Compose com GPU e Armazenamento Persistente de Modelos

Ollama funciona muito bem em metal nu. Torna-se ainda mais interessante quando tratado como um serviço: um endpoint estável, versões fixas, armazenamento persistente e uma GPU que está disponível ou não.

Ollama atrás de um proxy reverso com Caddy ou Nginx para streaming HTTPS

Executar o Ollama atrás de um proxy reverso é a maneira mais simples de obter HTTPS, controle de acesso opcional e comportamento de streaming previsível.

Embeddings de texto para RAG e busca — Python, Ollama, APIs compatíveis com OpenAI

Se você está estudando geração aumentada por recuperação (RAG), esta seção explica embeddings de texto de forma simples — o que são, como se encaixam na pesquisa e recuperação, e como chamar duas configurações locais comuns em Python usando Ollama ou uma API HTTP compatível com OpenAI (como muitos servidores baseados em llama.cpp expõem).

Netlify para Hugo e sites estáticos: preços, nível gratuito e alternativas

O Netlify é uma das formas mais amigáveis para desenvolvedores de publicar sites Hugo e aplicações web modernas com um fluxo de trabalho de nível de produção: URLs de pré-visualização para cada solicitação de pull, implantações atômicas, uma CDN global e capacidades de serverless e de edge opcionais.

Apache Flink no K8s e Kafka: PyFlink, Go, operações e preços gerenciados

O Apache Flink é uma estrutura para computações com estado sobre fluxos de dados ilimitados e limitados.

Banco de dados gráfico Neo4j para GraphRAG, instalação, Cypher, vetores e operações.

O Neo4j é a ferramenta a que você recorre quando as relações são os dados. Se o seu domínio se parece com um quadro branco cheio de círculos e setas, forçá-lo em tabelas é doloroso.

IndexNow explicado: notifique os mecanismos de pesquisa ao publicar

Sites estáticos e blogs mudam sempre que você faz o deploy. Motores de busca que suportam IndexNow podem aprender sobre essas mudanças sem esperar pelo próximo rastreamento cego.

Assinar