Data catalog non structuré vs Document Knowledge Platform : pourquoi la confusion coûte cher en 2026

Data catalog étendu au non-structuré ≠ Document Knowledge Platform. En 2026, quatre acteurs ont brouillé la frontière. Ce que votre CDO doit savoir.

Le 16 juin 2026, Collibra a été nommé Governance Partner of the Year par Databricks. Le communiqué annonçait une intégration bi-directionnelle pour gouverner les agents IA sur des données structurées — et, via son acquisition Deasy Labs, sur des données non structurées. Trois mois plus tôt, en mars, Atlan et BigID avaient annoncé « la première plateforme unifiée data catalog structuré et non structuré ». En avril, Google avait rebaptisé son produit Dataplex en Knowledge Catalog, avec une capacité explicite de traitement des données non structurées. En mai, Teradata avait lancé son « Autonomous Knowledge Platform » pour data structurée et non structurée.

Quatre annonces majeures en quatre mois. Toutes portent le même message : le data catalog sort du monde des données structurées pour venir gouverner les documents. Pour les DSI et CDO qui conduisent des programmes IA, la question est devenue urgente : si mon data catalog peut gérer mes documents, ai-je encore besoin d’autre chose ?

La réponse est oui — et la confusion entre les deux catégories coûte cher. Voici pourquoi.

Le pivot des data catalogs vers le non-structuré : ce que les annonces de 2026 révèlent

La dynamique de marché est réelle et documentée. Gartner estime que 80 à 90 % des données des grandes entreprises sont non structurées — des PDF de procédures, des contrats Word, des présentations, des bases de connaissance Confluence ou SharePoint, des emails archivés. Les acteurs du data catalog, historiquement concentrés sur les données structurées (bases SQL, data lakes, APIs), ont identifié cette masse documentaire comme leur prochain marché naturel.

L’extension logique est compréhensible. Un data catalog inventorie, classe, tague et gouverne des actifs de données. Étendre cette fonction aux actifs documentaires non structurés semble être une progression évidente.

Ce qu’elle n’est pas, c’est une substitution à une Document Knowledge Platform.

Pour comprendre pourquoi, il faut s’arrêter sur ce que chaque catégorie répond comme question fondamentale.

Deux catégories, deux questions fondamentalement différentes

Un data catalog, qu’il soit étendu au non-structuré ou non, répond à une question d’inventaire et de gouvernance des métadonnées : où est cette donnée, qui en est propriétaire, qui peut y accéder, quel en est le schéma ou la classification ?

Dans le monde structuré, la réponse à ces questions suffit : une table SQL bien gouvernée (owner identifié, tags réglementaires, lignage de provenance) est une donnée fiable pour un pipeline analytique.

Dans le monde documentaire, cette réponse est nécessaire mais insuffisante. Un document PDF correctement inventorié dans Collibra — ownership renseigné, tags métier appliqués, classification réglementaire validée — peut contenir des informations factuellement contradictoires avec un autre document du même référentiel. Et cette contradiction n’est pas détectable par un data catalog, parce qu’elle est dans le contenu sémantique du document, pas dans ses métadonnées.

Une Document Knowledge Platform répond à une question différente : ce document est-il sémantiquement cohérent avec les autres documents de son périmètre, à jour, exempt de contradictions actives, et exploitable correctement par un agent IA ou un pipeline RAG ?

C’est la différence entre savoir qu’un document existe et qu’il est bien rangé, et savoir que ce document dit la vérité — et n’entre pas en conflit avec ce que dit le document voisin.

Ce qu’un data catalog étendu ne fait pas — les quatre angles morts

1. La détection des conflits inter-documents

Voici un cas concret. Une grande organisation dispose d’une politique RH de calcul des primes, mise à jour en 2024. Une version de 2021 reste accessible dans le même référentiel documentaire. Les deux fichiers sont correctement inventoriés dans le data catalog : ownership identifié, accès contrôlé, tags appliqués. Lorsqu’un agent IA consulte ce référentiel pour répondre à une question sur les règles de prime, il peut récupérer l’une ou l’autre version. La contradiction est invisible dans le data catalog — elle est dans le contenu.

Sur un seul référentiel documentaire lors d’un premier diagnostic, les équipes K-AI identifient généralement de l’ordre de plusieurs centaines à plusieurs milliers d’anomalies de ce type — des volumes qui varient selon la maturité documentaire de l’organisation et la taille du référentiel audité.

2. La détection des doublons divergents

Deux versions d’un même cahier des charges produit, hébergées dans deux espaces SharePoint différents. Le data catalog peut les identifier comme des fichiers distincts avec des métadonnées différentes. Ce qu’il ne peut pas faire : détecter que leurs sections techniques spécifient des valeurs incompatibles pour le même paramètre, et décider laquelle est la version canonique.

3. Le scoring de fraîcheur sémantique

Un data catalog gère des dates de modification de fichier. Ce n’est pas la même chose que de détecter que le contenu d’un document est obsolète au regard de l’évolution réglementaire ou des pratiques de l’organisation. Une étude publiée par Sinequa en juin 2026 sur plus de 700 décideurs IT révèle que pour 38,4 % des organisations, des données non mises à jour constituent la première cause d’échec des systèmes RAG. La date de modification du fichier ne capture pas ce phénomène.

4. La surveillance continue du corpus

Un data catalog gouverne un état des métadonnées à un instant donné. Une Document Knowledge Platform surveille l’évolution sémantique du corpus dans le temps : lorsqu’un nouveau document est ajouté au référentiel, elle évalue automatiquement son impact sur les documents existants — est-ce qu’il contredit quelque chose ? Est-ce qu’il rend quelque chose obsolète ? Est-ce qu’il comble un sujet manquant ou en crée un nouveau ?

Ce monitoring continu — la logique « Stay Clean » — est absent des data catalogs actuels, y compris dans leurs extensions non structurées les plus avancées.

Collibra, Alation, Atlan, Informatica : jusqu’où va la gouvernance ?

Il est utile d’évaluer honnêtement ce que font ces acteurs — et ce qu’ils ne font pas.

Collibra (via Deasy Labs) propose une découverte automatique de taxonomies sémantiques depuis des documents et des transcriptions, avec un enrichissement en métadonnées structurées. La documentation produit Collibra Unstructured AI décrit un moteur de classification LLM qui génère des schémas depuis les données. C’est de la gouvernance par les métadonnées — pas de l’audit de qualité sémantique continue.

Alation construit une « Knowledge Layer » qui connecte Confluence et SharePoint pour auto-générer des métadonnées structurées depuis les documents. Son guide Unstructured Data for AI diagnostique le problème avec clarté, mais la réponse proposée reste dans le registre de la découverte et du catalogage.

Atlan est le plus offensif dans son positionnement. Le partenariat Atlan + BigID de mars 2026 se présente comme « la première plateforme unifiée data catalog structuré et non structuré pour l’AI governance ». L’article de blog Atlan sur le lineage des données non-structurées soulève un argument de lineage pertinent. Mais se proclamer « context layer for AI » ne crée pas les fonctions d’audit sémantique continu, de détection des contradictions inter-documents, ou de scoring AI-readiness que requiert un corpus documentaire vivant.

Informatica annonce depuis Informatica World 2026 de nouvelles capacités de « Unstructured Data Governance » en early access. Son blog sur les nouvelles capacités parle de « trusted data foundation » — langage proche du positionnement K-AI, mais ancré dans la gouvernance data engineering, pas dans la qualification documentaire métier.

Ces acteurs font bien ce qu’ils font. Le problème est la confusion catégorielle que leurs annonces créent dans l’esprit des acheteurs.

Quand un data catalog suffit — et quand il ne suffit pas

Un data catalog étendu au non-structuré est suffisant dans les cas suivants :

Le corpus documentaire est stable et homogène (peu de versions concurrentes, peu d’auteurs).
L’usage IA est de la récupération de documents (retrouver un contrat, identifier un fichier par ses métadonnées) plutôt que de la génération augmentée de réponses.
La conformité réglementaire ne porte que sur l’inventaire et l’accès, pas sur la cohérence du contenu.

Un Document Knowledge Platform devient nécessaire dans les cas suivants :

Le corpus documentaire est multi-auteurs, multi-versions, multi-référentiels — typiquement dès 5 000 documents dans un référentiel métier actif.
L’usage est agentique : des agents IA interrogent les documents pour prendre des décisions ou générer des réponses utilisateurs.
La conformité porte sur la traçabilité des sources d’inférence (exigence de l’Article 12 de l’AI Act pour les systèmes à haut risque, applicable au 2 août 2026).
Les hallucinations IA en production sont attribuées à la qualité des sources documentaires, pas aux algorithmes de retrieval.

Gartner documentait en 2025 que gouverner les données non structurées pour l’AI readiness nécessite une « roadmap stratégique » distincte de la gouvernance des données structurées. Cette distinction est structurelle — elle reflète la différence de nature entre un tuple SQL et un document contractuel vivant.

Architecture de référence : les trois couches complémentaires

L’erreur d’architecture la plus répandue en 2026 est de positionner le data catalog et la DKP comme deux réponses à la même question. Ce sont deux couches qui répondent à des questions différentes et qui se complètent.

Data Catalog (Collibra, Alation, Atlan, Informatica) → gouverne les métadonnées des actifs de données et documents : inventaire, ownership, accès, classification, lignage de provenance.

Document Knowledge Platform (K-AI) → qualifie la valeur sémantique du corpus documentaire pour l’IA : audit des contradictions et doublons, scoring AI-readiness, surveillance continue de la santé du corpus.

RAG / Enterprise Search / Agents (Glean, Sinequa, Databricks Agent Bricks, Microsoft Work IQ) → exploite le corpus pour générer des réponses ou conduire des actions.

Les trois couches se lisent comme une séquence : un corpus bien inventorié (data catalog) ET qualifié sémantiquement (DKP) permet à la couche RAG/agents de fonctionner de manière fiable. L’absence de l’une des deux couches amont crée les défaillances documentées par Forrester Research en 2026 : 67 % des échecs de déploiements RAG enterprise remontent à la qualité des données en entrée — pas aux algorithmes.

La question qui revient avec une régularité croissante sur Reddit et Quora résume la situation : « 90 % de nos données enterprise sont non structurées et nos pilotes IA continuent d’échouer — par où commencer ? » La réponse à cette question suppose deux chantiers distincts : l’inventaire (data catalog) et la qualification (DKP). Les confondre revient à penser que ranger ses fichiers dans les bons dossiers rend leur contenu fiable.

K-AI accompagne déjà CMA CGM, Veolia, PwC, BNP Paribas, TotalEnergies et CEVA Logistics. Partenaires : AWS, Snowflake, Microsoft, Wavestone, Devoteam.

Foire aux questions

Quelle est la différence entre un data catalog structuré et un catalog de données non structurées ?

Un data catalog structuré gère la gouvernance des métadonnées de données tabulaires : tables SQL, API, fichiers CSV — il répond aux questions d’inventaire, de schéma, de propriétaire, de lignage de transformation. Un catalog de données non structurées applique des approches équivalentes à des documents, emails ou PDF : il classe, tague, inventorie et contrôle les accès. Dans les deux cas, le catalog gouverne les métadonnées des actifs. Ce qu’il ne fait pas, dans le cas non structuré, c’est évaluer si le contenu de ces documents est cohérent, à jour, et exempt de contradictions — ce qui est la fonction d’une Document Knowledge Platform.

Un data catalog (Collibra, Alation, Atlan) peut-il remplacer une Document Knowledge Platform pour rendre un corpus AI-ready ?

Non, pour une raison structurelle : les data catalogs gouvernent les métadonnées des documents (ownership, classification, accès, lignage), mais ne lisent pas le contenu sémantique de ces documents pour en évaluer la cohérence interne et inter-documents. Un PDF correctement inventorié dans Collibra peut contenir des données contradictoires avec un autre PDF du même référentiel — une contradiction qu’aucun data catalog ne peut détecter, mais qu’une DKP détecte par audit sémantique. Les deux couches sont complémentaires, pas substituables.

Comment cataloguer des documents Word, PDF, emails en entreprise pour un projet IA ?

La séquence recommandée comprend deux étapes distinctes. La première est l’inventaire catalogique : renseigner l’ownership, les droits d’accès, la classification métier et réglementaire pour chaque actif documentaire (c’est ce que font Collibra, Alation, Atlan dans leurs extensions non structurées). La seconde est l’audit de qualité sémantique : vérifier que chaque document est à jour, exempt de contradictions avec les documents voisins, et que l’ensemble du corpus couvre bien les sujets attendus sans lacune ni doublon divergent. Cette seconde étape requiert une Document Knowledge Platform, pas un data catalog.

Que mesure l’AI Readiness Index de Gartner pour les grandes entreprises en 2026 ?

Les frameworks AI Readiness de Gartner 2026 convergent sur le même constat : la disponibilité et la qualité des données sont les déterminants premiers de la capacité d’une organisation à déployer l’IA en production. Gartner estime que 60 % des projets IA sont abandonnés faute de données AI-ready, et que 70 à 90 % des données des grandes organisations sont non structurées. L’AI Readiness Index ne distingue pas encore explicitement inventaire catalogique et audit qualité documentaire, ce qui contribue à la confusion entre les deux catégories.

Quel est le bon moment pour déployer une Document Knowledge Platform plutôt qu’un data catalog étendu ?

Le signal déclencheur est l’usage agentique. Dès que des agents IA interrogent un corpus documentaire pour prendre des décisions ou générer des réponses utilisateurs — et non plus simplement retrouver des documents — la qualité sémantique du corpus devient un paramètre de fiabilité critique. Un data catalog gouverne l’accès et l’inventaire, mais ne peut pas garantir que les documents récupérés sont cohérents entre eux. La DKP remplit ce rôle. En pratique, la frontière est souvent franchie à partir de 5 000 documents dans un référentiel métier actif, de plusieurs équipes auteurs, ou de sujets réglementés nécessitant une traçabilité des sources d’inférence.

Pour aller plus loin

Pour évaluer si votre data catalog existant couvre l’intégralité de vos besoins documentaires pour l’IA — ou si une couche DKP complémentaire est nécessaire — les équipes K-AI peuvent conduire un premier diagnostic sur votre référentiel métier prioritaire : contact@k-ai.ai

Sources citées

Collibra Named Databricks Governance Partner of the Year — PR Newswire / Collibra, 16 juin 2026
BigID & Atlan : First Unified Structured & Unstructured Data Catalog for AI Governance — PR Newswire, mars 2026
Introducing the Google Cloud Knowledge Catalog — Google Cloud Blog, avril 2026
Introducing the Teradata Autonomous Knowledge Platform — PR Newswire / Teradata, 7 mai 2026
Atlan — Unstructured Data Isn’t a Storage Problem. It’s an AI Lineage Problem. — Atlan, 2026
Alation — Unstructured Data for AI: The Enterprise Guide — Alation, 2026
Collibra Unstructured AI — Documentation produit — Collibra, 2026
Informatica — New Capabilities Clear the Path to AI-Ready Data — Informatica, mai 2026
Beyond the Hype: The Reality of Enterprise Agentic AI in 2026 — Sinequa, juin 2026
Lack of AI-Ready Data Puts AI Projects at Risk — Gartner, février 2025
Governing Unstructured Data for AI Readiness: A Strategic Roadmap — Gartner, 2025
Why 72% of Enterprise RAG Implementations Fail in the First Year — ragaboutit.com (d’après Forrester Research, 2026), 2026