Claude, OpenClaw e o fim da cobrança plana para agentes
As assinaturas do Claude já não alimentam agentes
A brecha silenciosa que impulsionou uma onda de experimentação com agentes agora está fechada.
As assinaturas do Claude já não alimentam agentes
A brecha silenciosa que impulsionou uma onda de experimentação com agentes agora está fechada.
Busca de IA autohospedada com LLMs locais
Vane é uma das entradas mais pragmáticas no espaço de “busca de IA com citações”: um motor de respostas auto-hospedado que combina recuperação da web em tempo real com LLMs locais ou na nuvem, mantendo toda a pilha sob seu controle.
Codificação agentiva, agora com backends de modelos locais.
O Claude Code não é um autocompletar com melhor marketing. É uma ferramenta de codificação agêntica: lê sua base de código, edita arquivos, executa comandos e integra-se às suas ferramentas de desenvolvimento.
Instalação e início rápido do Hermes Agent para desenvolvedores
O Hermes Agent é um assistente de IA auto-hospedado e agnóstico em relação ao modelo que roda em uma máquina local ou em um VPS de baixo custo, opera por meio de interfaces de terminal e mensagens e melhora ao longo do tempo, transformando tarefas repetidas em habilidades reutilizáveis.
Instale o TGI, desenvolva rapidamente e depure ainda mais rápido.
A Inferência de Geração de Texto (TGI) tem uma energia muito específica. Não é o mais novo na rua da inferência, mas é aquele que já aprendeu como a produção quebra -
Velocidade de tokens do llama.cpp em 16 GB de VRAM (tabelas).
Aqui comparo a velocidade de vários LLMs executados em uma GPU com 16 GB de VRAM e escolho o melhor para auto-hospedagem.
A RTX 5090 está escassa e com preço inflado na Austrália.
A Austrália tem estoque de RTX 5090. Quase nada. E se você encontrar uma, pagará um prêmio que parece descolado da realidade.
Acesso remoto ao Ollama sem portas públicas
Ollama está em seu melhor quando é tratado como um daemon local: a CLI e seus aplicativos se comunicam com uma API HTTP em loopback, e o resto da rede nunca fica sabendo que ele existe.
Logs JSON consultáveis que se conectam a rastros.
Logs são uma interface de depuração que você ainda pode usar quando o sistema está em chamas. O problema é que logs em texto puro envelhecem mal: assim que você precisa de filtragem, agregação e alertas, começa a analisar sentenças.
Servidor Ollama com prioridade na composição, suporte a GPU e persistência.
Ollama funciona muito bem em metal nu. Torna-se ainda mais interessante quando tratado como um serviço: um endpoint estável, versões fixas, armazenamento persistente e uma GPU que está disponível ou não.
HTTPS Ollama sem interromper as respostas em streaming.
Executar o Ollama atrás de um proxy reverso é a maneira mais simples de obter HTTPS, controle de acesso opcional e comportamento de streaming previsível.
Embeddings RAG - Python, Ollama, APIs da OpenAI.
Se você está estudando geração aumentada por recuperação (RAG), esta seção explica embeddings de texto de forma simples — o que são, como se encaixam na pesquisa e recuperação, e como chamar duas configurações locais comuns em Python usando Ollama ou uma API HTTP compatível com OpenAI (como muitos servidores baseados em llama.cpp expõem).
Implantações baseadas em Git, CDN, créditos e compromissos.
O Netlify é uma das formas mais amigáveis para desenvolvedores de publicar sites Hugo e aplicações web modernas com um fluxo de trabalho de nível de produção: URLs de pré-visualização para cada solicitação de pull, implantações atômicas, uma CDN global e capacidades de serverless e de edge opcionais.
Streaming com estado, checkpoints, K8s, PyFlink, Go.
O Apache Flink é uma estrutura para computações com estado sobre fluxos de dados ilimitados e limitados.
Grafos, Cypher, vetores e endurecimento de operações.
O Neo4j é a ferramenta a que você recorre quando as relações são os dados. Se o seu domínio se parece com um quadro branco cheio de círculos e setas, forçá-lo em tabelas é doloroso.
Atualize as URLs de push nos motores de busca após a implantação.
Sites estáticos e blogs mudam sempre que você faz o deploy. Motores de busca que suportam IndexNow podem aprender sobre essas mudanças sem esperar pelo próximo rastreamento cego.
Receba novos artigos sobre sistemas, infraestrutura e engenharia de IA.