IA agentique sans fondations documentaires : pourquoi 64 % des entreprises construisent sur du sable

Hyland GA son Context Engine, Semarchy chiffre le MDM gap. Personne ne nomme la couche d'amont : le corpus documentaire.

Le 9 mars 2026, Semarchy publiait, avec Censuswide, une enquête conduite auprès de 1 000 dirigeants C-suite au Royaume-Uni, aux États-Unis et en France (Semarchy, communiqué du 9 mars 2026). Le titre, sobre, méritait pourtant de figurer dans tous les comités exécutifs : « Data management overtakes cost and talent as top AI challenge. » Un mois plus tard, IT Social condensait la même donnée pour le public français sous un titre devenu virale dans les fils RSS data : « IA agentique : 64 % des entreprises la déploient sans fondations MDM » (IT Social, avril 2026). Le chiffre choque. Il est juste — sous réserve d’un cadrage qu’on omet rarement de poser. Et il est, pour la position où nous travaillons chez K-AI, à la fois utile et incomplet.

Utile, parce qu’il met le doigt sur la dette structurelle qu’aucune démo COMEX n’avait préparée. Incomplet, parce que le MDM dont parle Semarchy ne couvre, dans la quasi-totalité des grands groupes, qu’une portion minoritaire du contexte sur lequel les agents IA sont censés raisonner. La majeure partie de ce contexte vit ailleurs — dans des PDF, des Word, des Confluence, des SharePoint, des drives partagés et des messageries. C’est cette « ailleurs » que je voudrais nommer ici.

Le chiffre qui tourne en boucle — et son décalage

Reprenons d’abord la source primaire. Semarchy et Censuswide ont interrogé, entre le 29 janvier et le 9 février 2026, 1 000 dirigeants C-suite d’entreprises de plus de 200 M$ de chiffre d’affaires utilisant l’IA. Trois chiffres construisent l’argument : 51 % de ces dirigeants déploient des initiatives IA sans fondations MDM ; 38 % n’appliquent pas de standards de qualité de données ; 65 % déclarent pousser cette année des capacités de « agentic data management ». La conséquence est arithmétique : si deux tiers du panel accélèrent sur l’agentique pendant que la moitié n’a pas posé le socle MDM, il devient mécanique d’observer que la majorité des projets agentiques s’appuient sur des fondations partielles. Le 64 % relayé en France par IT Social fait, à ma lecture, ce travail d’agrégation : il rapporte le 51 % au sous-segment qui a déjà des projets agentiques en cours. La méthodologie exacte du calcul n’est pas publiée — j’invite chacun à lire les deux papiers en parallèle — mais l’ordre de grandeur est cohérent.

Ce que je retiens, et ce que je vois chaque semaine en clientèle, c’est l’effet de seuil. À 51 % sans MDM, on parle d’une faiblesse statistique. À 64 % parmi les déploiements agentiques en cours, on parle d’un trait d’époque. Et ce trait d’époque arrive au pire moment : entre l’annonce, le 1ᵉʳ juin, par Hyland, de la disponibilité générale de son Enterprise Context Engine et de son Enterprise Agent Mesh, la généralisation, le 1ᵉʳ mai, du Microsoft Agent 365, et l’industrialisation, depuis fin mai, du ProcessOS de Camunda, la couche d’exécution agentique se cristallise plus vite que la couche qui devrait l’alimenter en savoir fiable.

Pourquoi le MDM est nécessaire, mais insuffisant

Sur le périmètre qu’il couvre, le MDM fait son métier. Semarchy, Informatica, Profisee et quelques autres normalisent les référentiels clients, fournisseurs, produits, comptes financiers, matériaux. Ce sont des actifs précieux. Ils ne sont pas la matière première des agents IA d’entreprise.

Gartner estime, dans ses synthèses 2025-2026, que 70 à 90 % de la donnée d’une grande entreprise est non-structurée — documents, courriels, comptes-rendus, présentations, contrats, manuels techniques. Atlan documente une croissance du non-structuré de 40 à 60 % par an chez ses clients (Atlan, 2026). Lorsqu’un agent IA d’entreprise raisonne sur une question business — la procédure RH applicable, la clause d’un contrat fournisseur, la politique de remboursement, l’historique d’un dossier patient, la conformité d’un protocole d’essai — il puise dans cette zone. Le MDM ne s’y aventure pas. Il n’a jamais prétendu le faire.

Le chiffre Semarchy ne dit donc pas, en réalité, que 51 % des entreprises sont sans fondations data. Il dit que 51 % sont sans fondations sur la portion de la data que le MDM couvre. Sur la portion restante — celle qui pèse 70 à 90 % du volume et alimente la majorité des décisions agentiques — la proportion sans fondations est, à mon expérience d’audits, sensiblement plus élevée. C’est cette portion qu’il faut maintenant nommer.

AI-ready data ≠ AI-ready documents — le glissement sémantique manqué

Le marché s’est habitué à dire AI-ready data. Semarchy, Collibra, Atlan, Alation, Informatica défendent le terme — chacun avec ses outils, tous sur le périmètre structuré et semi-structuré. La conversation est mature et utile. Mais en 2026, elle laisse un angle mort.

L’angle mort, c’est AI-ready documents. Un PDF de 47 pages mêle une politique en vigueur, deux annexes obsolètes et un addendum non signé : il n’est pas AI-ready. Un référentiel SharePoint qui contient sept versions d’une même procédure de remboursement, dont deux contredisent les cinq autres : il n’est pas AI-ready. Un Confluence où une page de 2021 cite un seuil réglementaire qui a été révisé en 2024 sans que la page soit mise à jour : il n’est pas AI-ready. Aucune de ces pathologies n’est captée par un MDM. Aucune n’est captée non plus par un data catalog généraliste — Atlan, Alation et Collibra commencent à descendre vers le non-structuré (cf. Collibra, Making unstructured data AI-ready), mais sur un mode inventaire, pas audit.

C’est cette mesure-là — anomalies, conflits, doublons divergents, obsolescence non marquée, traçabilité, fraîcheur — qui fait qu’un document est ou n’est pas AI-ready. Nous l’avons documentée le 15 mai dans la méthode K-AI en six axes ; je n’y reviens pas. Ce que je veux ajouter ici, c’est que le pillar manquant des cinq frameworks AI Readiness dominants — Gartner, Cisco, Microsoft, Cloudera et Iris.ai — que nous avons cartographié le 25 mai, c’est ce même pillar : le corpus documentaire. Et que l’agent IA, par nature, l’invoque davantage que n’importe quel système IA antérieur, parce qu’il enchaîne des étapes de raisonnement et puise dans plusieurs documents par décision.

La course aux fondations agentiques — Hyland, Squirro, Glean, Writer

Quatre semaines de mai 2026 ont vu se cristalliser la course aux fondations agentiques. Le 12 mai, Glean a publié son Enterprise Agent Development Lifecycle, un framework en sept étapes qui codifie comment construire, gouverner et mesurer des agents IA. Le 20 mai, Squirro a livré sa LTS de gouvernance agentique avec entity-based filtering et zero-trust governance (Squirro, mai 2026). Le 28 mai, Glean franchissait les 300 M$ d’ARR avec un argumentaire désormais explicite — réduire la facture IA en grounding mieux les agents (TechCrunch, 28 mai 2026). Le 1ᵉʳ juin, Hyland a annoncé la disponibilité générale de son Enterprise Context Engine et de son Enterprise Agent Mesh. Jitesh S. Ghai, CEO de Hyland, l’a posé sans ambiguïté : « the winners will be the enterprises that can embed AI into their operations with governance and control ».

Tous ces acteurs adressent un vrai sujet — la gouvernance d’agents en production, l’observabilité, le cycle de vie, le contrôle. Aucun ne traite frontalement la question qui précède : qu’est-ce qui rend un corpus documentaire prêt à servir d’amont à un mesh agentique ? Hyland propose une ontologie sectorielle pour enrichir le contexte ; il n’audite pas le corpus en entrée. Squirro construit un knowledge graph et un chain of custody ; il ne mesure pas la santé documentaire en amont du graph. Glean ouvre un cycle de vie d’agents ; il n’inspecte pas la qualité des documents que ces agents vont retrieve. Writer chiffre le gap d’adoption (Writer, 2026) — 79 % des organisations rencontrent des obstacles, 60 % opèrent des agents en production sans gouvernance formelle — mais sur le terrain de la brand governance, pas du corpus.

C’est ce vide que K-AI occupe — non par opportunisme mais parce que c’est l’opération sans laquelle aucun de ces étages ne tient. Audit corpus, scoring d’AI-readiness documentaire, surveillance continue (Start Clean, Stay Clean), graphe sémantique aval qui n’est nourri que de documents passés sous contrôle. Là où nos partenaires d’écosystème — Glean, Hyland, Sinequa, Microsoft, AWS, Snowflake — orchestrent et activent, K-AI prépare et surveille la matière première.

Ce que K-AI appelle un DKP — la couche d’amont, pas un substitut au MDM

Document Knowledge Platform. C’est la catégorie que nous défendons depuis trois ans, et que nous avons clarifiée le 18 mai face à deux confusions persistantes : un DKP n’est pas un Knowledge Management (qui est une discipline organisationnelle) ; ce n’est pas non plus un Knowledge AI (qui est la couche d’usage, là où vivent Glean, Writer, Sana ou Squirro). C’est ce que serait un Data Catalog — mais pour les documents non-structurés. C’est ce que serait un Data Mesh — mais pour le corpus documentaire.

Cela veut dire concrètement trois choses. Premièrement, un DKP audite avant qu’une question d’agent ne soit posée — il dit, document par document et référentiel par référentiel, s’il y a anomalies, conflits, doublons divergents, obsolescence, traçabilité défaillante, fraîcheur dégradée. Deuxièmement, il opère en continu — pas un audit one-shot mais un monitoring qui détecte la dérive et la signale aux propriétaires métier avant que l’agent ne s’y heurte. Troisièmement, il ne remplace ni le MDM, ni le knowledge graph, ni le context engine du copilote — il les précède et leur livre une matière nettoyée, sourcée, datée et arbitrée.

Le MDM reste utile. Mais une stratégie data 2026 qui s’arrête au MDM est une stratégie qui ignore les trois quarts du contexte que ses agents IA vont solliciter.

Trois actions concrètes pour un CTO ou un CDO en juin 2026

D’ici la fin du trimestre, et alors que l’AI Act du 2 août 2026 introduit ses premières obligations de traçabilité documentaire que nous avons cadrées le 1ᵉʳ juin, trois actions s’imposent.

D’abord, cartographier les référentiels documentaires que les pilotes agentiques de votre organisation interrogent déjà — SharePoint, Confluence, drives, GED métier, messageries archivées. Pour chacun, mesurer la couverture MDM réelle (souvent zéro) et la part de la décision agentique qui en dépend (souvent majoritaire).

Ensuite, lancer un audit de corpus sur le référentiel le plus stratégique selon la grille des six axes. À titre indicatif, lors d’un premier diagnostic sur un seul référentiel documentaire, nous identifions couramment plusieurs centaines à plusieurs milliers d’anomalies, doublons divergents et passages obsolètes — le chiffre exact dépend du périmètre, de la maturité documentaire et du secteur, et il est destiné à orienter la remédiation, pas à servir de slogan.

Enfin, séparer les budgets : la couche d’activation agentique (Glean, Hyland, Microsoft, Writer, Sinequa) et la couche de fondations documentaires (DKP) sont deux investissements distincts, l’un ne se substitue pas à l’autre. Confondre les deux, c’est s’exposer à reconduire dans dix-huit mois le même constat que celui du 9 mars : « we are seeing a stark divide » — pour reprendre la formule de Craig Gravina, CTO de Semarchy — « one half of leaders building on strong foundations, the other half actively accumulating AI technical debt ». Sur la portion non-structurée, qui pèse l’essentiel, ce stark divide n’a pas encore eu lieu. Il aura lieu en 2027. Le préparer maintenant est ce qui distinguera les organisations qui scalent leur IA agentique de celles qui devront la suspendre.

Foire aux questions

Pourquoi 64 % des entreprises déploient-elles des agents IA sans fondations MDM ?

Le chiffre, relayé en France par IT Social, dérive de l’enquête Semarchy × Censuswide de mars 2026 sur 1 000 dirigeants C-suite. La source primaire publie 51 % d’entreprises sans MDM et 65 % poussant l’agentique cette année ; le 64 % correspond, par recoupement, à la part d’entreprises qui poussent l’agentique tout en n’ayant pas de fondations MDM. L’explication tient à deux facteurs : la pression COMEX sur l’industrialisation IA agentique en 2025-2026 s’est faite avant que les chantiers data foundations aient eu le temps de mûrir, et le MDM, perçu comme un sujet d’infrastructure, est typiquement budgété sur 18-24 mois alors que les agents IA sont budgétés sur 6-9. L’écart de tempo s’est ouvert ; il se ferme aujourd’hui sous l’effet des incidents en production et des obligations réglementaires.

Quelle différence entre AI-ready data et AI-ready documents ?

AI-ready data désigne typiquement la qualité, la gouvernance et la disponibilité des données structurées et semi-structurées d’une entreprise — référentiels clients, produits, transactions, métriques opérationnelles. AI-ready documents désigne la qualité documentaire au sens strict — absence d’anomalies internes, absence de conflits inter-documents, gestion des doublons divergents, marquage de l’obsolescence, traçabilité, fraîcheur par segment. Ces deux familles n’ont ni les mêmes outils, ni les mêmes propriétaires, ni les mêmes méthodes d’audit. La majorité des agents IA d’entreprise raisonnent à 70-90 % sur la seconde, alors que les budgets et les frameworks AI readiness publics traitent quasi-exclusivement la première.

MDM suffit-il à préparer une entreprise à l’IA agentique, ou faut-il un DKP en parallèle ?

Le MDM est nécessaire pour la portion structurée du contexte agentique — référentiels clients, fournisseurs, produits, comptes. Il est insuffisant pour la portion non-structurée — documents, courriels, comptes-rendus — qui représente 70 à 90 % de la matière sur laquelle un agent raisonne en pratique. Un DKP (Document Knowledge Platform) opère sur cette seconde portion : audit corpus, scoring AI-readiness documentaire, surveillance continue. Les deux investissements sont complémentaires et ne se substituent pas. Une entreprise qui n’a que du MDM aura des agents qui hallucinent sur tout ce qui sort du périmètre référentiel ; une entreprise qui n’a que du DKP aura des agents qui se perdent dès qu’ils doivent croiser un document avec un référentiel client. Les deux sont nécessaires.

Quelles sont les principales difficultés de gouvernance pour déployer l’IA agentique à l’échelle ?

Trois difficultés dominent en 2026. La première est l’auditabilité : chaque décision d’agent doit pouvoir être tracée jusqu’aux documents et données qui l’ont fondée, ce qui suppose des journaux de retrieval que peu d’organisations tiennent. La deuxième est la gouvernance du corpus en amont : sans audit documentaire continu, les agents propagent silencieusement les conflits, obsolescences et doublons divergents du corpus en production. La troisième est la séparation des préoccupations : la couche d’activation (orchestration, observabilité, contrôle d’agents — Hyland Agent Mesh, Glean ADLC, Writer guardrails) et la couche de fondations documentaires (DKP) sont deux disciplines distinctes, qu’aucun acteur ne couvre encore intégralement seul.

Quelle est la différence entre une base de connaissances et un Document Knowledge Platform ?

Une base de connaissances (Confluence, Notion, SharePoint, GED métier) est un lieu de stockage et de partage de documents — son rôle est de servir l’humain qui cherche, classe, met à jour. Un Document Knowledge Platform est une couche d’audit, de scoring et de surveillance qui s’applique sur les bases de connaissances existantes — son rôle est de mesurer la santé documentaire du corpus, de signaler les dérives et de rendre ce corpus exploitable par des systèmes IA. Une base de connaissances vise la coopération humaine ; un DKP vise la fiabilité algorithmique. Les deux coexistent — on n’achète pas un DKP pour remplacer son Confluence, on en achète un pour audit son Confluence (et tout le reste).

Pour aller plus loin

Si vous êtes en train d’industrialiser un projet d’IA agentique et que vous voulez chiffrer l’état documentaire de votre référentiel le plus stratégique avant d’aller plus loin, écrivez-nous à contact@k-ai.ai. Notre méthode d’audit en six axes est notre point d’entrée standard ; le livrable est un rapport opérationnel pour CTO, CDO ou Head of Knowledge Management, pas une présentation marketing.

Sources citées

Semarchy × Censuswide, « Data Management Overtakes Cost and Talent as Top AI Challenge » — communiqué du 9 mars 2026 : https://semarchy.com/press-releases/data-management-top-ai-challenge-agentic-enterprises/
IT Social, « IA agentique : 64 % des entreprises la déploient sans fondations MDM » — avril 2026 : https://itsocial.fr/intelligence-artificielle/intelligence-artificielle-articles/ia-agentique-64-des-entreprises-la-deploient-sans-fondations-mdm/
Hyland, « Hyland launches next wave of AI platform innovations to unlock the content-powered agentic enterprise » — 1ᵉʳ juin 2026 : https://www.hyland.com/en/company/newsroom/hyland-launches-next-wave-ai-platform-innovations
Glean, « Enterprise Agent Development Lifecycle » — 12 mai 2026 : https://www.glean.com/blog/agent-dev-lifecycle-2026
TechCrunch, « Glean’s top line crosses $300M as AI budget cutting becomes its major selling point » — 28 mai 2026 : https://techcrunch.com/2026/05/28/gleans-top-line-crosses-300m-as-ai-budget-cutting-becomes-its-major-selling-point/
Squirro, « New Release May 2026: Zero-Trust Governance » — 20 mai 2026 : https://squirro.com/news-and-events/new-release-may-2026-advances-enterprise-ai-accuracy-and-zero-trust-governance
Writer, « Enterprise AI adoption in 2026: Why 79% face challenges » — 2026 : https://writer.com/blog/enterprise-ai-adoption-2026/
Collibra, « Making unstructured data AI-ready » — 2026 : https://www.collibra.com/blog/making-unstructured-data-ai-ready-unlocking-value-for-genai-and-agents
Atlan, « Active Metadata Management — Complete 2026 AI Guide » — 2026 : https://atlan.com/active-metadata-101/
Microsoft, « Microsoft Agent 365 now generally available » — 1ᵉʳ mai 2026 : https://www.microsoft.com/en-us/security/blog/2026/05/01/microsoft-agent-365-now-generally-available-expands-capabilities-and-integrations/
Camunda, « ProcessOS — agentic operating system » — 20 mai 2026 : https://www.businesswire.com/news/home/20260520352437/en/Camunda-announces-ProcessOS-an-agentic-operating-system-for-AI-first-enterprise-transformation