RAGOps : la moitié « données » que personne n'opère — SLI, SLO et control plane pour la santé de votre corpus

Le RAGOps inclut la gestion continue du corpus. Un an après le papier fondateur, personne ne l'opérationnalise. Voici les SLI du corpus en production.

Le 2 juin, une étude à grande échelle publiée sur arXiv — 5 modèles, 10 jeux de questions-réponses biomédicales, 4 méthodes de retrieval, 4 corpus — concluait que le retrieval n’apporte que des gains « faibles et inconsistants » par rapport à une baseline sans retrieval (arXiv:2606.04127). Autrement dit : ajouter du retrieval n’est pas, en soi, un levier de performance — le réflexe « branchez un RAG, ça ira mieux » ne survit pas à la mesure. Pendant ce temps, vos équipes instrumentent le pipeline — traces, spans, scores de pertinence, dashboards d’évaluation. Tout est observé, sauf la seule chose qui change en permanence : le corpus lui-même. Cette R&D Note propose d’y remédier, avec le vocabulaire que les équipes d’exploitation connaissent déjà : des SLI, des SLO, et un control plane.

LLMOps ≠ RAGOps : le delta, c’est la donnée

Le terme RAGOps a une définition académique précise. Le papier fondateur — RAGOps: Operating and Managing Retrieval-Augmented Generation Pipelines (Xu, Weytjens, Zhang, Lu, Weber, Zhu — CSIRO Data61 / TU Munich, arXiv:2506.03401, juin 2025) — estime que 60 % des systèmes LLM composés en entreprise s’appuient sur du RAG, et définit le RAGOps comme une extension du LLMOps avec « un focus fort sur la gestion des données », précisément parce que les sources externes d’un RAG changent en continu.

Relisez la définition : la moitié du RAGOps, c’est le cycle de vie des données. Pas les prompts, pas les modèles, pas les traces — les documents. Un an après la publication, notre revue des acteurs du marché (plateformes de RAG d’entreprise, outils d’observabilité LLM, éditeurs de content services) n’a identifié aucun fournisseur ayant transposé cette moitié « données » en doctrine d’exploitation. Les outils d’observabilité LLM tracent des spans applicatifs. Les frameworks d’évaluation mesurent le pipeline. Le corpus, lui, reste un angle mort.

Ce que le tracing applicatif ne voit pas

L’industrie n’a pourtant pas ignoré le problème de l’exploitation. Unstructured.io a publié en mars un framework d’évaluation qui décompose le RAG en étages mesurables — ingestion, chunking, retrieval, reranking, génération — avec regression gates en intégration continue. C’est un travail utile. Mais à la question « comment évaluer un RAG quand le corpus change tous les jours ? », la réponse proposée est un snapshot gelé du corpus. On évalue le pipeline sur une photographie ; la production tourne sur un film.

Même décalage côté plateformes. Hyland a annoncé le 1er juin la disponibilité générale de son Enterprise Context Engine, accompagné d’un « Control Tower » d’observabilité — des agents. Pinecone a connecté Nexus à Microsoft OneLake le 3 juin, avec résolution déterministe des conflits — au moment du retrieval. Microsoft a fait passer Foundry IQ en GA le 2 juin, unifiant l’accès à la connaissance sous SLA — sans rien dire de la qualité de ce qui est indexé. Trois annonces majeures en 72 heures, toutes sur la couche d’accès et d’orchestration. Aucune n’expose une métrique de santé du contenu consommé.

Le tracing applicatif voit qu’une requête a retourné huit chunks en 230 ms avec un score de pertinence moyen de 0,82. Il ne voit pas que deux de ces chunks proviennent de versions divergentes du même document, que le troisième est obsolète depuis un changement réglementaire, et que la procédure réellement applicable n’est tout simplement pas dans l’index. Aucun span ne porte cette information — elle n’existe que dans le corpus.

Benchmarks propres, corpus sales : l’écart 0,16 % → 24 %

Pourquoi cet angle mort a-t-il survécu si longtemps ? Parce que les benchmarks publics ne le montrent pas. Une analyse empirique publiée en mai (arXiv:2605.09611) a mesuré l’effet d’une déduplication exacte sur différents types de corpus RAG : sur BeIR, benchmark académique standard, la redondance éliminée est de 0,16 % — négligeable. Sur des patterns de corpus « entreprise » (révisions de documents, versions multiples coexistantes), elle atteint 24 %. Près d’un quart du corpus.

L’implication mérite d’être énoncée : tout ce que l’industrie sait de la performance des RAG provient de corpus qui ne ressemblent pas aux vôtres. Un pipeline validé sur BeIR n’a jamais rencontré le cas qui définit la vie documentaire d’un grand groupe — la procédure de 2019 jamais retirée, la note de service qui invalide tacitement un chapitre de référentiel, les trois versions d’une politique RH dont deux divergent sur un seuil. VentureBeat a récemment donné un nom à cette accumulation : la retrieval debt — des corpus désordonnés qui produisent des réponses « techniquement correctes mais obsolètes ». Chez K-AI, nous mesurons cette dette chez nos clients : lors d’un premier diagnostic, sur un seul référentiel documentaire, il n’est pas rare de remonter plus d’un millier d’anomalies — un ordre de grandeur invisible dans les benchmarks publics, et cohérent avec l’écart 0,16 % → 24 % mesuré par la recherche.

Les cinq SLI de santé d’un corpus en production

Si le corpus est un composant de production, il mérite le même traitement que n’importe quel composant de production : des Service Level Indicators. Nous en proposons cinq, directement dérivés des familles de défauts que notre méthode d’audit en six axes instruit en phase de diagnostic — l’audit définit les défauts, les SLI les surveillent dans le temps.

1. Taux de redondance divergente. Part des documents existant en versions multiples dont le contenu diverge (pas les copies exactes — les presque-copies qui se contredisent). C’est le défaut que la déduplication byte-exact ne capte que partiellement et que les benchmarks sous-estiment d’un facteur 150.

2. Drift de fraîcheur (staleness). Distribution de l’âge des documents pondérée par leur fréquence de retrieval. Un document périmé jamais retrouvé est une dette dormante ; un document périmé retrouvé dix fois par jour est un incident en cours.

3. Densité de contradictions actives. Nombre de paires de claims formellement incompatibles entre documents du même périmètre, rapporté à la taille du corpus. Indétectable par similarité vectorielle — deux versions d’une politique sont sémantiquement quasi identiques ; leur divergence sur une date ou un seuil est noyée dans le cosine.

4. Couverture des sujets obligatoires. Part des questions critiques du métier (réglementaires, opérationnelles, contractuelles) auxquelles le corpus sait répondre. Le retrieval le plus précis du monde ne compense pas un document qui n’existe pas.

5. Complétude du lineage. Part des documents disposant d’un propriétaire identifié, d’une date de validation et d’une source de vérité désignée. C’est le SLI qui conditionne les quatre autres : sans propriétaire, aucune remédiation n’aboutit.

Chaque SLI appelle son SLO — un seuil contractualisé avec les métiers propriétaires des documents, au même titre qu’un objectif de disponibilité. Exemple de formulation : « le taux de redondance divergente du périmètre HSE reste sous 2 % ; toute contradiction active sur un document réglementaire est arbitrée sous 10 jours ouvrés. »

Le corpus control plane : l’architecture de l’observabilité documentaire

Reste à exécuter. Un control plane de corpus comporte trois boucles, symétriques de ce que les équipes SRE connaissent.

Une boucle de mesure continue. Le corpus est ré-analysé en flux — à chaque ajout, modification ou suppression de document, pas à intervalle fixe. C’est ici que l’approche par graphe sémantique prend son sens opérationnel : le Neural Semantic Graph de K-AI maintient une représentation des claims et de leurs relations (support, contradiction, redondance, obsolescence), de sorte qu’un document modifié déclenche le re-calcul des seuls nœuds affectés — et pas un re-audit complet.

Une boucle d’alerte. Franchissement de SLO → notification au propriétaire du document concerné, avec le contexte d’arbitrage (quelles versions divergent, sur quels claims, avec quel impact de retrieval). L’alerte sans destinataire métier identifié est du bruit — d’où le SLI n° 5.

Une boucle de remédiation tracée. Chaque arbitrage (version conservée, document retiré, fusion) est journalisé avec son auteur et sa justification. Ce journal est la mémoire d’exploitation du corpus — et, on va le voir, davantage que cela.

C’est la traduction opérationnelle de ce que nous appelons Stay Clean : non pas un audit répété, mais une instrumentation permanente, au même rang architectural que le monitoring du pipeline.

Au-delà du run : ce que ces métriques valent pour la conformité

Un dernier argument, pour les lecteurs qui doivent justifier l’investissement. Le 1er juin, la Commission européenne a nommé le Scientific Panel et l’Advisory Forum de l’AI Act — 60 experts indépendants chargés notamment des méthodologies d’évaluation, à deux mois des premières échéances d’enforcement. Les obligations documentaires applicables aux systèmes en production exigent précisément ce que le control plane produit comme sous-produit : des métriques de qualité datées, des journaux d’arbitrage, un lineage. Ce que vous instrumentez pour l’exploitation devient votre dossier de preuve réglementaire — nous avons détaillé ce volet dans notre plan corpus en 60 jours.

La conclusion tient en une phrase : le RAGOps tel que défini par la recherche a deux moitiés, et l’industrie n’en a outillé qu’une. Le pipeline a son control plane. Il est temps que le corpus ait le sien.

Foire aux questions

Qu’est-ce que le RAGOps et en quoi diffère-t-il du LLMOps ?

Le RAGOps est la discipline d’exploitation des pipelines RAG, formalisée par des chercheurs du CSIRO Data61 et de TU Munich en juin 2025 (arXiv:2506.03401). Il étend le LLMOps — gestion du cycle de vie des modèles, des prompts et des déploiements — avec un volet spécifique : la gestion continue des données externes que le pipeline consomme. C’est la différence structurante : un LLM est versionné et relativement stable ; un corpus documentaire d’entreprise change tous les jours. Le RAGOps couvre donc deux cycles de vie couplés, celui du modèle et celui des données. En pratique, la plupart des organisations n’ont outillé que le premier — observabilité applicative, évaluation du retrieval — en laissant le second sans instrumentation.

Pourquoi un RAG hallucine-t-il encore avec de « bons » documents ?

Parce que la qualité unitaire des documents ne dit rien de leur cohérence collective. Un corpus peut être composé de documents individuellement bien écrits, validés et sourcés, tout en contenant des versions divergentes d’une même procédure, des informations obsolètes non marquées et des contradictions entre périmètres. Le pipeline récupère alors un contexte localement correct mais globalement incohérent — et le modèle génère une réponse fidèle à un document qui n’aurait pas dû faire foi. C’est un défaut de corpus, pas de modèle : aucun reranker ni aucune boucle de vérification au runtime ne peut détecter qu’un document contredit un autre document absent du contexte. La remédiation se joue en amont, dans le corpus.

Comment la qualité documentaire affecte-t-elle la précision d’un RAG ?

À chaque étage. Au retrieval : les doublons divergents se cannibalisent dans le classement et font remonter des versions concurrentes. Au ranking : un document obsolète bien rédigé score souvent mieux qu’un document à jour mal structuré. À la génération : le modèle synthétise ce qu’on lui donne — si le contexte mélange deux versions d’un seuil réglementaire, la réponse en choisit une, avec assurance. Une étude biomédicale à grande échelle publiée le 2 juin 2026 (arXiv:2606.04127) montre que l’ajout de retrieval, à lui seul, produit des gains faibles et inconsistants par rapport à une baseline sans retrieval : le levier n’est pas d’ajouter de la récupération, mais de qualifier ce qu’elle consomme — et de mesurer ce que le corpus contient réellement.

Comment évaluer la qualité d’un corpus documentaire avant de déployer une IA ?

Par un audit structuré du corpus, avant tout déploiement — puis par une surveillance continue après. L’audit instruit les grandes familles de défauts : anomalies internes, conflits inter-documents, doublons divergents, obsolescence non marquée, traçabilité, fraîcheur par segment. Il produit un état chiffré (combien de contradictions actives, quel taux de redondance, quelle part de documents sans propriétaire) qui sert de baseline. Les SLI décrits dans cet article prennent ensuite le relais : ils transforment les axes de l’audit en métriques surveillées en permanence, avec des seuils d’alerte et des circuits d’arbitrage. L’audit sans monitoring se périme en quelques mois ; le monitoring sans audit initial n’a pas de référence.

Existe-t-il une IA pour détecter la documentation obsolète ?

Oui, et c’est l’un des cas d’usage les plus matures de l’analyse sémantique de corpus. La détection d’obsolescence ne peut pas reposer sur la seule date de modification : un document ancien peut rester valide, un document récent peut être invalidé par une décision postérieure. Les approches efficaces croisent plusieurs signaux — âge pondéré par la fréquence de consultation et de retrieval, contradiction avec des documents plus récents du même périmètre, références à des entités périmées (versions de produits, réglementations abrogées, organisations disparues). C’est l’une des fonctions du Neural Semantic Graph de K-AI : repérer les documents dont les claims sont contredits ou remplacés par des documents plus récents, et router l’arbitrage vers le propriétaire concerné plutôt que de supprimer automatiquement.

Pour aller plus loin

Si votre pipeline RAG est instrumenté mais que votre corpus ne l’est pas, la première étape est un état des lieux : un audit qui établit la baseline de vos cinq SLI sur un référentiel pilote. Nous le menons en quelques semaines, résultats chiffrés à l’appui. Écrivez-nous : contact@k-ai.ai.

Sources citées

When Retrieval Doesn’t Help: A Large-Scale Study of Biomedical RAG — arXiv:2606.04127, 2 juin 2026 — https://arxiv.org/abs/2606.04127
RAGOps: Operating and Managing Retrieval-Augmented Generation Pipelines — Xu, Weytjens, Zhang, Lu, Weber, Zhu (CSIRO Data61 / TU Munich), arXiv:2506.03401, juin 2025 — https://arxiv.org/abs/2506.03401
Byte-Exact Deduplication in RAG: A Three-Regime Empirical Analysis — arXiv:2605.09611, mai 2026 — https://arxiv.org/abs/2605.09611
RAG Evaluation: A Data Pipeline Performance Framework — Unstructured.io, 21 mars 2026 — https://unstructured.io/insights/rag-evaluation-a-data-pipeline-performance-framework
Hyland launches next wave of AI platform innovations — Hyland Newsroom, 1er juin 2026 — https://www.hyland.com/en/company/newsroom/hyland-launches-next-wave-ai-platform-innovations
Pinecone Nexus and Microsoft OneLake — Pinecone Newsroom, 3 juin 2026 — https://www.pinecone.io/newsroom/microsoft-onelake-nexus/
What’s new in Microsoft Foundry — Build 2026 — Microsoft Dev Blogs, 2 juin 2026 — https://devblogs.microsoft.com/foundry/whats-new-in-microsoft-foundry-build-2026/
Why prompt debt, retrieval debt and evaluation debt are quietly reshaping enterprise AI risk — VentureBeat, mai 2026 — https://venturebeat.com/technology/why-prompt-debt-retrieval-debt-and-evaluation-debt-are-quietly-reshaping-enterprise-ai-risk
AI Act enforcement gets independent expert support — Commission européenne, 1er juin 2026 — https://digital-strategy.ec.europa.eu/en/news/ai-act-enforcement-gets-independent-expert-support