SelfHosting

Sistema de Memória do Agente Hermes: Como a Memória Persistente de IA Funciona Realmente

Sistema de Memória do Agente Hermes: Como a Memória Persistente de IA Funciona Realmente

A memória é a diferença entre uma ferramenta e um parceiro.

Você já conhece a rotina. Você abre um chat com um agente de IA, explica seu projeto, compartilha suas preferências, faz com que alguma tarefa seja concluída e fecha a aba. Ao voltar na semana seguinte, é como falar com um estranho — todo o contexto se foi, todas as preferências foram esquecidas, o projeto precisa ser explicado do zero.

Plugins OpenClaw — Guia do Ecossistema e Escolhas Práticas

Plugins OpenClaw — Guia do Ecossistema e Escolhas Práticas

Plugins primeiro. Nomenclatura de habilidades em resumo.

Este artigo trata dos plugins do OpenClaw — pacotes nativos de gateway que adicionam canais, provedores de modelos, ferramentas, voz, memória, mídia, pesquisa web e outras superfícies de tempo de execução.

Início Rápido do Vane (Perplexica 2.0) com Ollama e llama.cpp

Início Rápido do Vane (Perplexica 2.0) com Ollama e llama.cpp

Busca de IA autohospedada com LLMs locais

Vane é uma das entradas mais pragmáticas no espaço de “busca de IA com citações”: um motor de respostas auto-hospedado que combina recuperação da web em tempo real com LLMs locais ou na nuvem, mantendo toda a pilha sob seu controle.

SGLang QuickStart: Instale, Configure e Execute LLMs via API OpenAI

SGLang QuickStart: Instale, Configure e Execute LLMs via API OpenAI

Execute modelos abertos com rapidez usando o SGLang.

O SGLang é um framework de serviço de alto desempenho para grandes modelos de linguagem e modelos multimodais, construído para fornecer inferência de baixa latência e alto throughput, desde uma única GPU até clusters distribuídos.

Início Rápido do llama.cpp com CLI e Servidor

Início Rápido do llama.cpp com CLI e Servidor

Como instalar, configurar e usar o OpenCode

Volto constantemente ao llama.cpp para inferência local – ele oferece um controle que o Ollama e outros abstraem, e simplesmente funciona. É fácil executar modelos GGUF de forma interativa com o llama-cli ou expor uma API HTTP compatível com OpenAI com o llama-server.