RAG - Rost Glukhov | Site pessoal e blog técnico

OpenClaw Quickstart: Instale com Docker (Ollama GPU ou Claude CPU)

OpenClaw é um assistente de IA auto-hospedado projetado para funcionar com runtimes locais de LLM, como o Ollama, ou com modelos baseados em nuvem, como o Claude Sonnet.

OpenClaw: Analisando um Assistente de IA Auto-Hospedado como um Sistema Real

A maioria das configurações locais de IA começa da mesma forma: um modelo, um tempo de execução e uma interface de chat.

Estratégias de Chunking no Comparativo de RAG: Alternativas, Compromissos e Exemplos

Chunking é o hiperparâmetro mais subestimado em Geração Aumentada por Recuperação (RAG): ele determina silenciosamente o que o seu LLM “vê”, quão cara se torna a ingestão, e quanta parte da janela de contexto do LLM você consome por resposta.

Tutorial de Geração Aumentada por Recuperação (RAG): Arquitetura, Implementação e Guia de Produção

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

Auto-hospedagem de LLM e soberania da IA

Auto-hospedagem de LLMs mantém os dados, modelos e inferência sob seu controle - um caminho prático para soberania em IA para equipes, empresas e nações.

Top 17 Projetos em Python em Destaque no GitHub

O ecossistema Python este mês é dominado pelas habilidades do Claude e pela ferramenta de agentes de IA. Este resumo analisa os repositórios Python mais populares no GitHub.

Top 19 Projetos em Go em Destaque no GitHub - Janeiro de 2026

O ecossistema Go continua a prosperar com projetos inovadores que abrangem ferramentas de IA, aplicações auto-hospedadas e infraestrutura para desenvolvedores. Este resumo analisa os principais repositórios de Go em tendência no GitHub deste mês.

Auto-hospedagem do Cognee: Escolhendo o LLM no Ollama

Cognee é um framework Python para construir grafos de conhecimento a partir de documentos usando LLMs. Mas funciona com modelos auto-hospedados?

Escolhendo o LLM certo para o Cognee: Configuração local do Ollama

Escolher o Melhor LLM para Cognee exige equilibrar a qualidade da construção de gráficos, as taxas de alucinação e as restrições de hardware.
Cognee destaca-se com modelos maiores e com baixa alucinação (32B+) via Ollama, mas opções de tamanho médio funcionam para configurações mais leves.

Usando a API de Pesquisa Web do Ollama em Python

A biblioteca Python do Ollama agora inclui capacidades nativas de pesquisa web do OLLama. Com apenas algumas linhas de código, você pode complementar seus LLMs locais com informações em tempo real da web, reduzindo alucinações e melhorando a precisão.

Armazenamentos de Vetores para Comparação em RAG

Escolher o armazenamento de vetores certo pode fazer a diferença entre o sucesso e o fracasso no desempenho, custo e escalabilidade da sua aplicação RAG. Esta comparação abrangente abrange as opções mais populares de 2024-2025.

Usando a API de Pesquisa Web do Ollama em Go

A API de pesquisa web do Ollama permite que você amplie LLMs locais com informações da web em tempo real. Este guia mostra como implementar capacidades de pesquisa web em Go, desde chamadas simples da API até agentes de pesquisa completos.

Ollama vs vLLM vs LM Studio: Melhor Maneira de Executar LLMs Localmente em 2026?

Rodar LLMs localmente agora é prático para desenvolvedores, startups e até equipes empresariais.
Mas escolher a ferramenta certa — Ollama, vLLM, LM Studio, LocalAI ou outras — depende dos seus objetivos:

Infraestrutura de IA em Hardware para Consumo

A democratização da IA está aqui. Com LLMs de código aberto como Llama 3, Mixtral e Qwen agora rivalizando com modelos proprietários, as equipes podem construir infraestrutura poderosa de IA usando hardware de consumo - reduzindo custos enquanto mantêm o controle completo sobre a privacidade dos dados e o deployment.

RAG Avançado: LongRAG, Self-RAG e GraphRAG Explicados

Retrieval-Augmented Generation (RAG) evoluiu muito além da simples busca por similaridade de vetores. LongRAG, Self-RAG e GraphRAG representam a ponta da tecnologia dessas capacidades.

Reduza os Custos de LLM: Estratégias de Otimização de Tokens

A otimização de tokens é a habilidade crítica que separa as aplicações de LLM custo-efetivas das experiências que consomem orçamento.