Si vous travaillez sur la génération augmentée par récupération (RAG), cette section explique les incorporations de texte (text embeddings) en termes simples : ce qu’elles sont, comment elles s’intègrent dans la recherche et la récupération, et comment appeler deux configurations locales courantes depuis Python en utilisant Ollama ou une API HTTP compatible OpenAI (comme le font de nombreux serveurs basés sur llama.cpp).
Comparaison des stratégies de découpage dans le RAG
Chunking est le hyperparamètre le plus sous-estimé dans le génération augmentée par recherche (RAG) :
il détermine silencieusement ce que votre LLM “voit”,
combien coûte l’ingestion,
et combien de la fenêtre de contexte de l’LLM vous brûlez par réponse.
Du RAG de base à la production : découpage, recherche vectorielle, ré-ranking et évaluation, le tout dans un guide.
Production-focused guide to building RAG systems: chunking, vector stores, hybrid retrieval, reranking, evaluation, and when to choose RAG over fine-tuning.
Choisissez la bonne base de données vectorielle pour votre pile RAG.
Choisir le bon magasin de vecteurs peut faire la différence entre le succès et l’échec de la performance, du coût et de l’évolutivité de votre application RAG. Cette comparaison complète couvre les options les plus populaires en 2024-2025.
Unifiez le texte, les images et l'audio dans des espaces d'embedding partagés
Embeddings crois-modaux représentent une avancée majeure en intelligence artificielle, permettant de comprendre et de raisonner à travers différents types de données au sein d’un espace de représentation unifié.
LongRAG, Self-RAG, GraphRAG – des techniques de nouvelle génération
La Génération Augmentée par Récupération (RAG)
a évolué bien au-delà de la simple recherche de similarité vectorielle.
LongRAG, Self-RAG et GraphRAG représentent l’avant-garde de ces capacités.
Mise en œuvre de RAG ? Voici quelques extraits de code Go – 2...
Puisque la version standard d’Ollama ne possède pas d’API de reranking directe,
vous devrez implémenter le reranking en utilisant Qwen3 Reranker en GO en générant des embeddings pour les paires requête-document et en les notant.
Mettez en œuvre RAG ? Voici quelques extraits de code en Golang..
Cet exemple de code Go pour le reranking appelle Ollama pour générer des embeddings
pour la requête et pour chaque document candidat,
puis les trie de manière décroissante selon la similarité cosinus.
Nouveaux LLM impressionnants disponibles dans Ollama
Les modèles Qwen3 Embedding et Reranker sont les dernières publications de la famille Qwen, conçues spécifiquement pour les tâches avancées d’incorporation de texte (embedding), de récupération et de reranking.
Quel mode de recherche IA convient à votre tâche ?
Search est idéal pour une récupération d’informations rapide et directe en utilisant des mots-clés.
Deep Search excelle dans la compréhension du contexte et de l’intention, offrant des résultats plus pertinents et complets pour les requêtes complexes.
Reranking est une deuxième étape dans les systèmes de Génération Augmentée par Récupération (RAG) systèmes, située juste entre la récupération et la génération.