“N'obligez pas le modèle à mémoriser la bibliothèque. Donnez-lui les trois pages dont il a besoin, ouvertes au bon paragraphe.”
Ce qu'est réellement le RAG
Le RAG sépare ce que le système sait de ce qu'il dit. La connaissance vit dans un index que vous contrôlez et pouvez mettre à jour toutes les heures. Le modèle ne fournit que le langage et le raisonnement sur ce que vous mettez devant lui. Quand une question arrive, vous cherchez dans l'index, récupérez les passages les plus pertinents, et les placez dans le prompt comme contexte.
C'est la bonne réponse à presque tous les problèmes de « dialoguez avec nos docs », « assistant de support » ou « base de connaissance interne ». C'est moins coûteux que l'ajustement fin, actualisable en temps réel, et — ce qui est crucial — auditable : vous pouvez montrer exactement de quelle source vient la réponse.
Le pipeline naïf, et pourquoi il casse
La version démo : découpez chaque document en segments de 500 jetons, plongez chacun, stockez dans une base de données vectorielle, plongez la requête, prenez les cinq segments les plus proches, farcissez-les dans le prompt. Ça fonctionne sur une FAQ bien rangée et s'effondre sur de vrais ensembles de documents. Voici où :
- Mauvais découpage — la réponse est répartie sur deux segments, et ni l'un ni l'autre n'est suffisant seul.
- Récupération ratée — le passage pertinent ne figure pas dans les premiers résultats parce que la requête et le document utilisent des mots différents.
- Mauvais modèle de plongement — votre domaine (juridique, médical, jargon interne) n'est pas bien représenté, donc les vecteurs « similaires » ne le sont pas vraiment.
- Contexte ignoré — le modèle dispose du bon passage mais répond quand même à partir de ses données d'entraînement.
- Index périmé — le document a changé ; l'index n'a pas suivi.
Le patron qui fonctionne : hybride + re-classement + citations
Trois ajouts corrigent la plupart des RAG en production. Premièrement, la recherche hybride : combinez la similarité vectorielle avec la recherche par mots-clés à l'ancienne (BM25). La recherche vectorielle capture le sens ; la recherche par mots-clés capture les termes exacts (codes d'erreur, noms, références) que les vecteurs atténuent. Exécutez les deux et fusionnez les résultats.
Deuxièmement, le re-classement. Récupérez large — cinquante candidats — puis notez-les avec un re-classeur plus précis (et plus coûteux), et gardez seulement les cinq meilleurs pour le prompt. Vous obtenez le rappel d'une recherche large avec la précision d'une recherche minutieuse.
Troisièmement, les citations. Demandez au modèle de citer l'identifiant du segment utilisé pour chaque affirmation. Cela rend la réponse auditable, vous permet d'afficher les sources dans l'interface, et — de façon mesurable — réduit la dérive du modèle par rapport au texte récupéré.
Quand la récupération est le mauvais outil
Le RAG répond aux questions dont la réponse est écrite quelque part. Il n'aide pas pour les questions qui demandent un raisonnement sur l'ensemble du corpus (« quels sont les trois grands thèmes de ces 10 000 billets ? »), ni pour le calcul (« quel est notre temps de résolution moyen ? »). Celles-là demandent de l'agrégation, de l'analytique ou des outils — couverts au prochain chapitre — pas de la récupération.
En une ligne chacun
- Le RAG sépare ce que le système sait (l'index) de ce qu'il dit (le modèle). Mettez à jour l'index, pas le modèle.
- Le RAG naïf casse sur le découpage, les récupérations ratées, les mauvais plongements, le contexte ignoré et les données périmées — tout ça est invisible sans évaluations.
- Le patron qui fonctionne : recherche hybride + re-classement + citations.
- Le RAG répond à « trouvez le passage », pas à « raisonnez sur tout » ou « calculez un nombre » — ceux-là ont besoin d'outils.
Où aller ensuite