RAG - Rost Glukhov | Site personnel et blog technique

Embeddings de texte pour RAG et recherche - Python, Ollama, API compatibles OpenAI

Si vous travaillez sur la génération augmentée par récupération (RAG), cette section explique les incorporations de texte (text embeddings) en termes simples : ce qu’elles sont, comment elles s’intègrent dans la recherche et la récupération, et comment appeler deux configurations locales courantes depuis Python en utilisant Ollama ou une API HTTP compatible OpenAI (comme le font de nombreux serveurs basés sur llama.cpp).

Stratégies de découpage dans la comparaison de RAG : alternatives, compromis et exemples

Chunking est le hyperparamètre le plus sous-estimé dans le génération augmentée par recherche (RAG) : il détermine silencieusement ce que votre LLM “voit”, combien coûte l’ingestion, et combien de la fenêtre de contexte de l’LLM vous brûlez par réponse.

Tutoriel sur la génération augmentée par récupération (RAG) : architecture, mise en œuvre et guide de production

Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.

Comparaison des vecteurs stockés pour RAG

Choisir le bon magasin de vecteurs peut faire la différence entre le succès et l’échec de la performance, du coût et de l’évolutivité de votre application RAG. Cette comparaison complète couvre les options les plus populaires en 2024-2025.

Représentations multimodales : passer d'une modalité à une autre en IA

Embeddings crois-modaux représentent une avancée majeure en intelligence artificielle, permettant de comprendre et de raisonner à travers différents types de données au sein d’un espace de représentation unifié.

RAG avancé : explication de LongRAG, Self-RAG et GraphRAG

La Génération Augmentée par Récupération (RAG) a évolué bien au-delà de la simple recherche de similarité vectorielle. LongRAG, Self-RAG et GraphRAG représentent l’avant-garde de ces capacités.

Reclassement de documents avec Ollama et le modèle Qwen3 Reranker — en Go

Puisque la version standard d’Ollama ne possède pas d’API de reranking directe, vous devrez implémenter le reranking en utilisant Qwen3 Reranker en GO en générant des embeddings pour les paires requête-document et en les notant.

Reclassement de textes avec Ollama et l'LLM d'embedding Qwen3 - en Go

Cet exemple de code Go pour le reranking appelle Ollama pour générer des embeddings pour la requête et pour chaque document candidat, puis les trie de manière décroissante selon la similarité cosinus.

Modèles d'embedding et de reranking Qwen3 sur Ollama : des performances de pointe

Les modèles Qwen3 Embedding et Reranker sont les dernières publications de la famille Qwen, conçues spécifiquement pour les tâches avancées d’incorporation de texte (embedding), de récupération et de reranking.

Recherche vs Deep Search vs Deep Research en 2026

Search est idéal pour une récupération d’informations rapide et directe en utilisant des mots-clés.
Deep Search excelle dans la compréhension du contexte et de l’intention, offrant des résultats plus pertinents et complets pour les requêtes complexes.

Reranking est une deuxième étape dans les systèmes de Génération Augmentée par Récupération (RAG) systèmes, située juste entre la récupération et la génération.