Qu’est-ce que la gestion des métadonnées ?

Image de livres colorés

Auteurs

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Qu’est-ce que la gestion des métadonnées ?

La gestion des métadonnées consiste à organiser, à optimiser et à utiliser les métadonnées pour améliorer l’accessibilité et la qualité des données de l’entreprise. Signifiant simplement « données sur les données », les métadonnées comprennent des informations telles que l’auteur, la date de création, la taille de fichier, les mots-clés et les éléments structurels.
 

Différents types de métadonnées remplissent différentes fonctions. Par exemple, les métadonnées descriptives fournissent des informations de base permettant aux utilisateurs finaux et aux parties prenantes de l’entreprise de trouver rapidement des données, tandis que les métadonnées de préservation contribuent à garantir l’utilisabilité et l’accessibilité des données à long terme. 

Aujourd’hui, les organisations génèrent une quantité impressionnante de données, estimée à environ 402,74 millions de téraoctets par jour. Et cette tendance ne semble pas près de s’inverser, si l’on en croit les prévisions qui annoncent un volume mondial de données de l’ordre de 393,9 zettaoctets à l’horizon 2028. Sans système permettant de trier ces informations, une grande partie des données (et de la valeur métier) serait perdue.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Quels sont les avantages de la gestion des métadonnées ?

Pour distinguer métadonnées et gestion des métadonnées, on peut comparer les métadonnées aux étiquettes apposées sur les livres (titre, auteur, date de publication) et la gestion des métadonnées au système utilisé par la bibliothèque pour classer les livres à l’aide de ces étiquettes. 

Une bonne stratégie en matière de métadonnées doit fournir un contexte métier et technique essentiel, de manière à ce que les organisations puissent améliorer la découvrabilité, la qualité et la fiabilité de leurs données. La gestion des métadonnées met cette stratégie en pratique en garantissant que les métadonnées restent structurées, accessibles et exploitables. Elle prend notamment en charge les fonctionnalités clés suivantes : 

  • Gouvernance des données
  • Intégration des données
  • Traçabilité des données
  • Qualité des données
  • Accessibilité
  • Sécurité

Gouvernance des données

Une gestion efficace des métadonnées établit les politiques et les normes qui garantissent la cohérence, l’exactitude et la bonne documentation des métadonnées. Les intendants des données et les comités de gouvernance mettent en œuvre les bonnes pratiques en la matière, telles que l’application des politiques relatives aux données métier et la surveillance de la qualité des données, afin d’en améliorer la découverte et l’intégrité.

Intégration des données

La gestion des métadonnées joue également un rôle essentiel dans l’intégration des données en normalisant les métadonnées provenant de diverses sources, empêchant ainsi toute incohérence. La bonne gestion des métadonnées garantit une interopérabilité optimale entre les bases de données, les data lakes et les environnements cloud. Les entreprises sont ainsi en mesure d’unifier leurs jeux de données en vue d’obtenir des analyses précises et de prendre des décisions éclairées. 

Traçabilité des données

Les outils de traçabilité des métadonnées suivent le parcours complet des données et prennent en charge un large éventail de cas d’utilisation. L’analyse d’impact, par exemple, permet aux organisations d’identifier l’impact de toute modification des données sur les processus en aval.

Les outils de traçabilité améliorent également la conformité réglementaire en garantissant la transparence des flux et des transformations de données, en particulier pour les cadres réglementaires tels que le Règlement général sur la protection des données (RGPD) et la loi California Consumer Privacy Act (CCPA). De plus, la traçabilité des données renforce l’explicabilité de l’IA en cartographiant la provenance et l’évolution des jeux de données d’entraînement. 

Qualité des données

Des pratiques efficaces de gestion des métadonnées permettent aux organisations de garantir la qualité de leurs métadonnées. Les outils d’enrichissement automatisés, par exemple, ajoutent du contexte métier, des classifications et des statistiques récapitulatives. Les indicateurs clés, tels que l’exhaustivité, l’exactitude, la cohérence et la fraîcheur, permettent de mesurer et d’améliorer la fiabilité des métadonnées. Associées à une curation efficace des métadonnées, ces informations réduisent les efforts de catalogage manuel et améliorent l’exploitabilité des données.

Accessibilité

L’amélioration de l’accessibilité des métadonnées permet aux consommateurs de données, tels que les utilisateurs professionnels et les data scientists, de mieux comprendre et utiliser les données pour la prise de décision. Un système de métadonnées bien structuré améliore la recherche, facilite l’analyse en libre-service et garantit que les données sont facilement accessibles et utilisables dans toute l’entreprise.

Sécurité

Pour protéger les métadonnées sensibles, les organisations mettent en œuvre des contrôles d’accès et des autorisations basées sur les rôles qui déterminent les données que les utilisateurs sont autorisés à consulter, modifier ou partager. Les contrôles d’accès granulaires protègent les identifiants personnels, les détails des projets et les informations propriétaires, afin que seuls les utilisateurs autorisés puissent accéder à des métadonnées particulières.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Gestion des métadonnées et IA

Les métadonnées jouent un rôle fondamental dans l’intelligence artificielle (IA), en particulier dans le machine learning (ML) et l’IA générative. À l’inverse, l’IA peut également contribuer à une gestion efficace des métadonnées.

Améliorer l’entraînement des modèles

L’apprentissage des modèles d’IA repose sur des données de haute qualité et bien étiquetées. Le fait de classer clairement les jeux de données à l’aide de métadonnées descriptives, structurelles et administratives permet d’entraîner les modèles d’IA à partir d’informations précises et pertinentes.

Les outils de gestion des métadonnées alimentés par l’IA peuvent automatiquement étiqueter, classer et ajouter un contexte métier aux données. Ces processus d’enrichissement réduisent les efforts manuels, améliorent la qualité des données et renforcent leur gouvernance. 

De plus, les algorithmes de machine learning peuvent analyser les modèles au sein des métadonnées afin de générer automatiquement des mappages de schémas, détecter les anomalies et suggérer une normalisation des métadonnées. Cette méthode contribue à rendre les catalogues de métadonnées plus dynamiques et adaptatifs.

Renforcer la confiance et l’explicabilité

Les métadonnées jouent un rôle clé dans la gouvernance et l’explicabilité des modèles d’IA. Pour que l’IA soit transparente et digne de confiance, les organisations doivent suivre la traçabilité des données, les entrées des modèles et la logique de transformation.

Les données d’entraînement soutenues par des métadonnées détaillées aident les utilisateurs à mieux comprendre et à faire confiance aux résultats des modèles. Les métadonnées aident également les équipes à valider l’exactitude, à répondre aux préoccupations en matière de conformité et à respecter les exigences réglementaires telles que la loi européenne sur l’intelligence artificielle (EU AI Act) et le RGPD.

Alimenter les workflows d’IA

Les métadonnées servent de lien entre les data lakes, les entrepôts de données et les plateformes analytiques. Les pipelines de métadonnées automatisés rationalisent la capture, l’annotation et la mise à jour des métadonnées lorsqu’elles transitent entre les systèmes, ce qui contribue à la cohérence et à l’efficacité des workflows d’IA. Ils permettent également d’obtenir des informations en temps réel, d’effectuer des analyses en libre-service et de prendre des décisions guidées par l’IA.

Types de métadonnées

Il existe plusieurs types de métadonnées. Exemples :

  • Métadonnées descriptives
  • Métadonnées structurelles
  • Métadonnées administratives
  • Métadonnées techniques
  • Métadonnées de préservation
Métadonnées descriptives

Les métadonnées descriptives comprennent des informations de base telles que le titre, l’auteur, les mots-clés et les résumés. Elles contribuent à améliorer la recherche et la découvrabilité des données dans les catalogues, les plateformes de réseaux sociaux et les moteurs de recherche.

Métadonnées structurelles

Les métadonnées structurelles décrivent et définissent l’organisation et les relations entre les éléments de données, par exemple comment une page d’accueil renvoie vers des sous-pages. Elles facilitent le maintien de relations et de catégories claires au sein de jeux de données complexes.

Métadonnées administratives

Les métadonnées administratives englobent la propriété, les autorisations et les politiques de conservation. Elles contribuent à la conformité des organisations aux politiques légales, réglementaires et internes. Elles définissent les politiques d’utilisation des données, par exemple les personnes autorisées à y accéder et leur durée de conservation.

Métadonnées techniques

Les métadonnées techniques comprennent les propriétés techniques des fichiers de données, telles que leur format, leur encodage et leur emplacement de stockage (entrepôts de données ou data lakes, par exemple). Elles facilitent le traitement et l’affichage corrects des données sur différentes plateformes et différents systèmes.

Métadonnées de préservation

Les métadonnées de préservation garantissent l’utilisabilité et l’accessibilité à long terme des données, notamment grâce à des stratégies de sauvegarde et de migration vers des formats plus récents. Elles contribuent au respect des exigences étendues en matière de conservation des données, en particulier dans des secteurs tels que la santé et les services juridiques, où les dossiers doivent rester accessibles à des fins de conformité.

Normes et cadres relatifs aux métadonnées

Pour garantir la cohérence et l’interopérabilité, les organisations s’appuient sur des schémas et des cadres de métadonnées normalisés qui définissent des éléments, des vocabulaires et des dictionnaires communs. Les normes de métadonnées se répartissent généralement en trois grandes catégories :

  • Normes à usage général
  • Normes Web et normes de données ouvertes
  • Normes sectorielles

Normes relatives aux métadonnées à usage général

  • Dublin Core (DC) : norme largement adoptée comprenant 15 éléments de métadonnées de base (par exemple, titre, créateur, date et format). Initialement conçue pour les documents Web et les bibliothèques numériques, la norme DC est idéale pour l’échange et la recherche de métadonnées en raison de sa simplicité et de sa flexibilité.

  • ISO/IEC 11179 : cadre international relatif aux registres de métadonnées, garantissant la normalisation des descriptions des éléments de données (par exemple, l’identifiant client ou le prix d’un produit). La norme ISO/IEC 11179 contribue à harmoniser les définitions dans des secteurs tels que la santé et la finance en établissant des glossaires cohérents et des descriptions claires des éléments de données. 

  • Principes FAIR : Acronyme de « findability, accessibility, interoperability and reusability » (facilité de recherche, accessibilité, interopérabilité et réutilisabilité), ce cadre directeur garantit que les métadonnées sont exploitables par des machines, structurées et accessibles à l’échelle mondiale. Les métadonnées conformes aux principes FAIR améliorent le partage des données, la collaboration en matière de recherche, l’intelligence des données et l’intégration.

Normes Web et normes de données ouvertes

  • Data Catalog Vocabulary (DCAT) : une norme recommandée par le W3C pour les catalogues de données en ligne. Utilisée notamment par les portails de données ouvertes gouvernementaux, la DCAT améliore la découvrabilité des ensembles de données, l’agrégation des métadonnées et l’indexation par les moteurs de recherche. 

  • PREMIS : norme largement utilisée pour la préservation numérique, garantissant que les métadonnées incluent la provenance, la gestion des droits et les relations structurelles pour une accessibilité à long terme.

Normes sectorielles relatives aux métadonnées

  • Santé : HL7/FHIR standardise les dossiers médicaux et l’échange de données de santé.

  • Finance : la norme ISO 20022 fournit un cadre commun de métadonnées pour les transactions financières et le reporting.

  • Données géospatiales : la norme ISO 19115 fournit des métadonnées normalisées pour la cartographie, les systèmes d’information géographique et les jeux de données de télédétection.

Outils de gestion des métadonnées

Les organisations s’appuient sur un éventail d’outils de gestion des métadonnées pour améliorer la découvrabilité, les processus de gouvernance et la prise de décision fondée sur les données

Catalogues de données autonomes

Les plateformes autonomes de catalogage des métadonnées centralisent leur collecte et facilitent la recherche des données, permettant ainsi aux organisations de gérer et de stocker les informations dans un référentiel de métadonnées structuré. En offrant un accès en libre-service aux métadonnées, ces plateformes réduisent le cloisonnement, améliorent l’accessibilité, facilitent la recherche et renforcent la confiance des utilisateurs à l’égard de leurs données.

Processus ETL et intégration des données enrichis par les métadonnées

Les outils d’intégration des données et d’extraction, de transformation et de chargement (ETL) permettent aux entreprises d’automatiser l’extraction des métadonnées tout en gérant les transformations de données. Les métadonnées circulent ainsi de manière fluide aux côtés des données, ce qui améliore l’analyse en temps réel, la qualité des données et la conformité. Un pipeline d’analyse des données plus structuré et plus efficace peut alors être mis en place en intégrant les métadonnées dans les processus ETL. 

Suites de gouvernance des données d’entreprise

Pour une gouvernance complète des métadonnées d’entreprise, les organisations peuvent se tourner vers des plateformes et des produits dotés de capacités de gestion des métadonnées. Ces capacités comprennent le contrôle de la qualité des données, l’application des politiques et la conformité réglementaire. Les entreprises peuvent ainsi définir et appliquer des normes de métadonnées à l’ensemble de leur environnement de données, afin de garantir l’intégration harmonieuse des cadres de gouvernance tels que le RGPD dans leurs pratiques.

Catalogues de métadonnées cloud natifs

Dans les environnements de stockage cloud, les solutions intégrées de gestion des métadonnées sont essentielles pour maintenir contrôle et conformité. Les catalogues de métadonnées cloud natifs offrent des fonctionnalités automatisées de découverte des métadonnées, de suivi de la traçabilité et de contrôle de la sécurité. Ils permettent également une gestion évolutive et interopérable des métadonnées, garantissant une intégration fluide dans les environnements multicloud et hybrides.

Outils de gestion des métadonnées open source

Pour les entreprises à la recherche de solutions adaptables et axées sur la communauté, les outils open source offrent une gestion flexible des métadonnées. Ces plateformes prennent en charge les workflows personnalisés, la collaboration et la personnalisation de la gouvernance. Les organisations peuvent ainsi adapter la gestion des métadonnées à leur propre architecture de données.

Défis de la gestion des métadonnées

Si la gestion des métadonnées offre des avantages considérables, les organisations se heurtent souvent à des problèmes qui touchent à l’évolutivité, l’intégration, la sécurité et l’adoption.

Évolutivité et volume

La croissance fulgurante des données représente l’un des principaux défis dans le domaine de la gestion des métadonnées. Face aux milliards d’enregistrements générés par les entreprises, il devient de plus en plus difficile de maintenir un système de métadonnées réactif et à jour.

Les catalogues de métadonnées peuvent être affectés par l’absence d’automatisation, d’infrastructure évolutive et d’indexation efficace. Cela se traduit par des goulots d’étranglement, des enregistrements obsolètes et des réponses lentes aux requêtes, autant d’éléments qui nuisent à l’expérience utilisateur et à l’utilisabilité des métadonnées.

Silos de données, intégration et qualité

De nombreuses organisations font face à des métadonnées fragmentées qui présentent des termes et des structures métier incohérents. Par exemple, il arrive qu’un champ « identifiant client » soit intitulé « code client » dans une autre base de données, ce qui complique l’intégration.

Ces incohérences compromettent la qualité et la documentation des métadonnées et empêchent de trouver facilement des données fiables. Une gestion efficace des métadonnées nécessite des cadres de gouvernance qui veillent à la normalisation, l’harmonisation et à la surveillance continue de la qualité des données.

Risques liés à la confidentialité et à la sécurité

Il arrive que les métadonnées contiennent des données sensibles, qu’il s’agisse de métadonnées métier ou de données personnelles, ce qui fait de la sécurité et de la confidentialité des données une préoccupation majeure.

Les cadres réglementaires tels que le RGPD imposent des contrôles stricts en matière d’accès, de conservation et de protection des données. Cela s’applique également aux métadonnées. Une sécurité insuffisante peut augmenter le risque de cyberattaques et de non-conformité.

Adoption et conduite du changement

Même les systèmes de gestion des métadonnées les plus sophistiqués peuvent s’avérer inutiles si les organisations peinent à les mettre en œuvre. De nombreuses équipes sont réticentes à documenter les métadonnées et préfèrent s’appuyer sur des processus manuels et des feuilles de calcul qui ne prennent pas en charge le profilage, l’évolutivité et la gouvernance.

Sans politiques claires ni outils conviviaux, les initiatives de gouvernance des métadonnées peuvent davantage être perçues comme une contrainte inutile que comme un atout stratégique. Pour favoriser l’adoption, il est nécessaire de mettre en place un leadership, des programmes de formation et des technologies qui intègrent les bonnes pratiques de gestion des métadonnées dans les activités quotidiennes.

Innovations en matière de gestion des métadonnées

Le paysage de la gestion des métadonnées évolue rapidement, sous l’influence de plusieurs tendances clés, notamment :

Métadonnées actives et automatisation

Le passage de catalogues passifs à des systèmes de gestion active permet de mettre à jour les métadonnées en temps réel et d’automatiser les réponses. Ces systèmes peuvent automatiquement étiqueter, profiler et classer les métadonnées, mais aussi déclencher des alertes ou des actions en fonction de leur modification, ce qui rend les écosystèmes de données plus résilients et autonomes.

IA, ML et graphes de connaissances

L’IA transforme la gestion des métadonnées en classant automatiquement les données, en détectant les relations et en générant des descriptions. Le machine learning facilite l’évaluation de la qualité des données, l’enrichissement des métadonnées et la recherche, tandis que les graphes de connaissances révèlent les connexions entre les jeux de données.

Architectures de données axées sur les métadonnées

Des concepts tels que le data fabric et le data mesh s’appuient sur les métadonnées en tant qu’élément fédérateur pour assurer une intégration et une gouvernance harmonieuses des données. Les métadonnées jouent désormais un rôle essentiel dans l’acheminement dynamique des requêtes, l’application des politiques et l’automatisation de la gestion des données dans les environnements distribués.

Solutions connexes
IBM Manta Data Lineage

Visualisez, transformez et optimisez votre flux de données, de l’origine à la consommation. Appliquez la traçabilité des données à tous les scénarios pour améliorer la transparence et la précision des données au sein de vos opérations.

Découvrir IBM Manta Data Lineage
Solutions d’intelligence des données

Transformez rapidement les données brutes en informations exploitables, unifiez la gouvernance, la qualité, la traçabilité et le partage des données, et offrez aux consommateurs des données fiables et contextualisées.

Découvrir les solutions d’intelligence des données
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Découvrez comment IBM aide à construire une base de données gouvernée et conforme. Avec IBM Manta Data Lineage, gagnez en transparence en suivant l’historique, le flux et les résultats de vos données, et obtenez des informations de bout en bout.

Découvrir IBM Manta Data Lineage Découvrir les solutions d’intelligence des données