Tenho voltado constantemente a llama.cpp para inferência local — ele oferece controle que o Ollama e outros abstraem, e simplesmente funciona. Fácil de executar modelos GGUF interativamente com llama-cli ou expor uma API HTTP compatível com OpenAI com llama-server.
OpenCode é um agente de IA de código aberto que você pode executar no terminal (TUI + CLI) com superfícies desktop e IDE opcionais. Esta é a Introdução Rápida ao OpenCode: instale, verifique, conecte-se a um modelo/fornecedor e execute fluxos de trabalho reais (CLI + API).
A inferência de LLM parece “apenas outra API” — até que ocorram picos de latência, filas se formem novamente e seus GPUs fiquem em 95% de memória sem explicação óbvia.
OpenClaw é um assistente de IA auto-hospedado projetado para funcionar com runtimes locais de LLM, como o Ollama, ou com modelos baseados em nuvem, como o Claude Sonnet.
Construa fluxos de trabalho em Go com o SDK do Temporal
Temporal é um motor de workflow de código aberto, empresarial, que permite que desenvolvedores construam aplicações de workflow duráveis, escaláveis e tolerantes a falhas usando linguagens de programação familiares, como Go.
Estratégia de observabilidade de ponta a ponta para inferência de LLM e aplicações de LLM
Sistemas de LLM falham de formas que o monitoramento tradicional de API não pode detectar — filas enchem-se silenciosamente, a memória da GPU se enche antes que o CPU pareça ocupado, e a latência explode na camada de lotes, e não na camada de aplicação. Este guia abrange uma estratégia de observabilidade de ponta a ponta
para a inferência de LLM e aplicações de LLM:
o que medir, como instrumentar com Prometheus, OpenTelemetry e Grafana, e como implantar o pipeline de telemetria em larga escala.
Chunking é o hiperparâmetro mais subestimado em Geração Aumentada por Recuperação (RAG):
ele determina silenciosamente o que o seu LLM “vê”,
quão cara se torna a ingestão,
e quanta parte da janela de contexto do LLM você consome por resposta.
Sem métricas, dashboards e alertas, os clusters Kubernetes se afastam, as cargas de trabalho de IA falham silenciosamente e as regressões de latência passam despercebidas até que os usuários reclamem.
Do básico de RAG à produção: chunking, busca por vetores, reranking e avaliação em um único guia.
Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.
A performance engineering hub for running LLMs efficiently: runtime behavior, bottlenecks, benchmarks, and the real constraints that shape throughput and latency.
Strategic guide to hosting large language models locally with Ollama, llama.cpp, vLLM, or in the cloud. Compare tools, performance trade-offs, and cost considerations.
Auto-hospedagem de LLMs mantém os dados, modelos e inferência sob seu controle - um caminho prático para soberania em IA para equipes, empresas e nações.
Teste de velocidade de LLM na RTX 4080 com 16 GB de VRAM
Executar grandes modelos de linguagem localmente oferece privacidade, capacidade offline e zero custos de API.
Este benchmark revela exatamente o que se pode esperar de 14 modelos populares
LLMs no Ollama no RTX 4080.
O ecossistema Rust está explodindo com projetos inovadores, especialmente em ferramentas de codificação de IA e aplicações de terminal.
Este resumo analisa os principais repositórios de Rust em tendência no GitHub deste mês.