AI - Page 3 - Rost Glukhov | Site pessoal e blog técnico

Ollama atrás de um proxy reverso com Caddy ou Nginx para streaming HTTPS

Executar o Ollama atrás de um proxy reverso é a maneira mais simples de obter HTTPS, controle de acesso opcional e comportamento de streaming previsível.

SGLang QuickStart: Instale, Configure e Execute LLMs via API OpenAI

O SGLang é um framework de serviço de alto desempenho para grandes modelos de linguagem e modelos multimodais, construído para fornecer inferência de baixa latência e alto throughput, desde uma única GPU até clusters distribuídos.

Início Rápido do Seletor de Modelos llama.swap para LLMs Locais Compatíveis com OpenAI

Em breve, você estará equilibrando vLLM, llama.cpp e mais — cada pilha em sua própria porta. Tudo a jusante ainda deseja uma URL base /v1; caso contrário, você continuará movendo portas, perfis e scripts pontuais. O llama-swap é o proxy /v1 antes dessas pilhas.

Sistemas de IA: Assistentes Auto-hospedados, RAG e Infraestrutura Local

A maioria das configurações locais de IA começa com um modelo e um runtime.

Minha Análise do Opencode: Resultados Honestos, Riscos de Cobrança e Quando Vale a Pena

Oh My Opencode promete uma “equipe de desenvolvedores de IA virtual” — Sisyphus orquestrando especialistas, tarefas executando em paralelo e a mágica palavra-chave ultrawork ativando tudo isso.

Melhores LLMs para OpenCode - De Gemma 4 a Qwen 3.6, Testados Localmente

Testei como o OpenCode funciona com vários LLMs hospedados localmente no Ollama e llama.cpp, e, para comparação, adicionei alguns modelos gratuitos do OpenCode Zen.

Aprofundamento e Guia de Modelos dos Agentes Especializados do Opencode

O maior salto de capacidade no OpenCode vem de agentes especializados: separação deliberada de orquestração, planejamento, execução e pesquisa.

Início Rápido do OpenHands Coding Assistant: Instalação, Opções de CLI e Exemplos

OpenHands é uma plataforma de código aberto e agnóstica em relação ao modelo para agentes de desenvolvimento de software impulsionados por IA. Ele permite que um agente se comporte mais como um parceiro de programação do que como uma simples ferramenta de autocompletar.

Início Rápido do LocalAI: Execute LLMs Compatíveis com OpenAI Localmente

O LocalAI é um servidor de inferência de auto-hospedagem, com prioridade local, projetado para funcionar como uma API OpenAI plug-and-play para executar cargas de trabalho de IA no seu próprio hardware (laptop, estação de trabalho ou servidor local).

Oh My Opencode QuickStart para o OpenCode: Instalar, Configurar e Executar

O Oh My Opencode transforma o OpenCode em um harness de codificação multi-agente: um orquestrador delega trabalhos para agentes especialistas que executam em paralelo.

Início Rápido do llama.cpp com CLI e Servidor

Continuo voltando ao llama.cpp para inferência local — ele oferece um controle que o Ollama e outros abstraem, e simplesmente funciona. É fácil executar modelos GGUF interativamente com llama-cli ou expor uma API HTTP compatível com a OpenAI com llama-server.

Ferramentas para Desenvolvedores de IA: O Guia Completo para Desenvolvimento Impulsionado por IA

A Inteligência Artificial está a remodelar a forma como o software é escrito, revisado, implantado e mantido. Desde assistentes de codificação com IA até à automação GitOps e fluxos de trabalho DevOps, os desenvolvedores recorrem agora a ferramentas potenciadas por IA em todo o ciclo de vida do software.

Airtable para Desenvolvedores e DevOps: Planos, API, Webhooks e Exemplos em Go/Python

O Airtable deve ser pensado como uma plataforma de aplicativos low-code construída em torno de uma interface de planilha “semelhante a banco de dados” colaborativa - excelente para criar rapidamente ferramentas operacionais (rastreadores internos, CRMs leves, pipelines de conteúdo, filas de avaliação de IA) onde usuários não desenvolvedores precisam de uma interface amigável, mas os desenvolvedores também precisam de uma superfície de API para automação e integração.

Início Rápido do OpenCode: Instale, Configure e Use o Agente de Codificação IA no Terminal

OpenCode é um agente de codificação com IA de código aberto que você pode executar no terminal (TUI + CLI) com superfícies opcionais para desktop e IDE. Este é o Guia de Início Rápido do OpenCode: instalação, verificação, conexão de um modelo/provedor e execução de fluxos de trabalho reais (CLI + API).

Monitoramento de Inferência de LLM em Produção (2026): Prometheus e Grafana para vLLM, TGI e llama.cpp

A inferência de LLM parece ser “apenas outra API” — até que a latência dispare, as filas se acumulem e suas GPUs fiquem com 95% de memória sem uma explicação óbvia.

OpenClaw Quickstart: Instale com Docker (Ollama GPU ou Claude + CPU)

O OpenClaw é um assistente de IA auto-hospedado projetado para funcionar com tempos de execução de LLM locais, como Ollama, ou com modelos baseados em nuvem, como o Claude Sonnet.