RAG - Rost Glukhov | Site pessoal e blog técnico

Embeddings de texto para RAG e busca — Python, Ollama, APIs compatíveis com OpenAI

Se você está estudando geração aumentada por recuperação (RAG), esta seção explica embeddings de texto de forma simples — o que são, como se encaixam na pesquisa e recuperação, e como chamar duas configurações locais comuns em Python usando Ollama ou uma API HTTP compatível com OpenAI (como muitos servidores baseados em llama.cpp expõem).

Estratégias de Segmentação na Comparação de RAG: Alternativas, Compensações e Exemplos

Chunking é o hiperparâmetro mais subestimado na Geração Aumentada por Recuperação (RAG): ele determina silenciosamente o que seu LLM “vê”, o quão cara se torna a ingestão, e quanto da janela de contexto do LLM você queima por resposta.

Tutorial de Geração Aumentada por Recuperação (RAG): Arquitetura, Implementação e Guia para Produção

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

Comparação de Armazenamentos Vetoriais para RAG

Escolher a loja de vetores certa pode fazer ou quebrar o desempenho, o custo e a escalabilidade da sua aplicação RAG. Esta comparação abrangente cobre as opções mais populares em 2024-2025.

Embeddings Multimodais: Conectando as Modalidades de IA

Embeddings multimodais representam um avanço na inteligência artificial, permitindo compreensão e raciocínio através de diferentes tipos de dados dentro de um espaço de representação unificado.

RAG Avançado: LongRAG, Self-RAG e GraphRAG Explicados

Geração Aumentada por Recuperação (RAG) evoluiu muito além da simples busca de similaridade vetorial. LongRAG, Self-RAG e GraphRAG representam o estado da arte dessas capacidades.

Reranking de documentos com Ollama e o modelo Qwen3 Reranker – em Go

Como o Ollama padrão não possui uma API de rerank direta, você precisará implementar a rerank usando o Qwen3 Reranker em GO gerando embeddings para pares de consulta-documento e atribuindo pontuações a eles.

Reranking de textos com Ollama e Qwen3 Embedding LLM - em Go

Este pequeno Exemplo de código Go para reranking que chama o Ollama para gerar embeddings é usado para a consulta e para cada documento candidato, ordenando em ordem decrescente por similaridade cosseno.

Modelos de Incorporação e Reordenamento Qwen3 no Ollama: Desempenho de Ponta

Os modelos Qwen3 de Embedding e Reranker são os lançamentos mais recentes da família Qwen, projetados especificamente para tarefas avançadas de incorporação (embedding), recuperação e reclassificação de texto.

Busca vs. Busca Profunda vs. Pesquisa Profunda em 2026

Search é o ideal para recuperação rápida e direta de informações usando palavras-chave.
Deep Search destaca-se na compreensão de contexto e intenção, entregando resultados mais relevantes e abrangentes para consultas complexas.

Reranking é uma segunda etapa na Geração Aumentada por Recuperação (RAG) sistemas, situada exatamente entre a Recuperação e a Geração.