Catalogue de données

Un catalogue de données exploite les métadonnées et les outils de gestion des données afin de créer un inventaire des actifs de données au sein d'une organisation, permettant aux utilisateurs de trouver et d'accéder rapidement et facilement aux informations.

arrière-plan noir et bleu

Catalogue de données

Un catalogue de données est un inventaire détaillé de tous les actifs de données d'une organisation, destiné aux professionnels des données pour les aider à trouver rapidement les données les plus appropriées pour toute utilisation à des fins d'analyses ou commerciales.


Qu'est-ce qu'un catalogue de données ?

Un catalogue de données utilise des métadonnées, les données qui décrivent ou résument les données, afin de créer un inventaire informatif et consultable de tous les actifs de données d'une organisation. Ces actifs peuvent inclure entre autres les éléments suivants :

  • Des données structurées (tableaux)
  • Des données non structurées, y compris des documents, des pages Web, des e-mails, du contenu des réseaux sociaux, des données mobiles, des images, de l'audio et de la vidéo
  • Des rapports et les résultats des requêtes
  • Des visualisations de données et des tableaux de bord
  • De modèles d'apprentissage automatique
  • Des connexions entre des bases de données

Cet inventaire permet aux citoyens des données (analystes de données, scientifiques des données, gestionnaires de données et autres professionnels des données ayant accès aux données de l'entreprise) de rechercher parmi tous les actifs de données disponibles d'une organisation et d'utiliser eux-mêmes les données les plus appropriées à des fins d'analyses ou commerciales.

Un catalogue de données comprend généralement des capacités de collecte et d'enrichissement continu (ou de conservation) des métadonnées associées à chaque actif de données afin de faciliter l'identification, l'évaluation et l'utilisation adéquate de chaque actif. Le catalogue fournit également des outils qui permettent aux utilisateurs d'effectuer les actions suivantes :

  • Rechercher dans le catalogue
  • Automatiser la détection des données potentiellement pertinentes qu'ils n'ont pas spécifiquement recherchées
  • Gouverner l'utilisation des données conformément aux réglementations sectorielles ou gouvernementales

Définition des métadonnées

Les métadonnées sont des données qui décrivent un actif de données ou fournissent des informations sur l'actif qui facilitent la localisation, l'évaluation et la compréhension.

L'exemple type ou le plus couramment utilisé de métadonnées est le catalogue sur fiches ou le catalogue en ligne d'une bibliothèque.  Dans celles-ci, chaque carte ou liste contient des informations sur un livre ou une publication (par exemple, titre, auteur, sujet, date de publication, édition, emplacement dans la bibliothèque et résumé ou synopsis) qui facilite la localisation ou l'évaluation de ce livre ou de cette publication pour un lecteur. Par exemple : est-il actuel ou obsolète ? Contient-il les informations que je recherche ? L'auteur est-il quelqu'un en qui j'ai confiance ou dont j'apprécie le travail ?

Il existe de nombreuses classes de métadonnées, mais un catalogue de données en traite principalement trois : les métadonnées techniques, les métadonnées de processus et les et les métadonnées métier.

Métadonnées techniques


Les métadonnées techniques
 (également appelées métadonnées structurelles) décrivent la manière dont les données sont organisées et présentées aux utilisateurs en décrivant la structure des objets de données, comme les tableaux, les colonnes, les lignes, les index et les connexions. Les métadonnées techniques indiquent aux professionnels des données comment ils devront travailler avec les données, par exemple, s'ils peuvent les utiliser telles quelles ou s'ils doivent les transformer à des fins d'analyse ou d'intégration.

Métadonnées de processus


Les métadonnées de processus 
(également appelées métadonnées administratives) décrivent les circonstances de la création de l'actif de données et quand, comment et par qui il a été consulté, utilisé, mis à jour ou modifié. Elles doivent également décrire qui est autorisé à accéder aux données et à les utiliser.

Les métadonnées de processus fournissent des informations sur l'historique et le lignagede l'actif. Ces informations sont utiles pour un analyste qui peut alors décider si l'actif est suffisamment récent pour la tâche à accomplir, s'il provient d'une source fiable, s'il a été mis à jour par des personnes dignes de confiance, etc. Les métadonnées de processus peuvent également être utilisées pour résoudre les requêtes. Et de plus en plus, les métadonnées de processus sont exploitées pour obtenir des informations sur les utilisateurs de logiciels ou les clients, tels que les logiciels qu'ils utilisent et le niveau de service dont ils bénéficient.

Métadonnées métier


Les métadonnées métier 
(parfois appelées métadonnées externes) décrivent les aspects métier de l'actif de données : la valeur métier qu'il a pour l'organisation, son adéquation à un objectif particulier ou à diverses fins, des informations sur la conformité réglementaire, etc. Les métadonnées métier unissent les professionnels des données et les utilisateurs du secteur qui parlent le même langage à propos des actifs de données.

Un catalogue de données doit au minimum faciliter la recherche (ou la collecte) et l'organisation de toutes les métadonnées existantes associées à n'importe quel actif de données de votre organisation. Il devrait également fournir des outils permettant aux experts en données de conserver et d'enrichir ces métadonnées avec des étiquettes, des associations, des évaluations, des annotations et toute autre information et contexte qui aident les utilisateurs à trouver des données plus rapidement et à les utiliser en toute confiance.


Outils de catalogue de données : exigences

Un catalogue de données nécessite un investissement important dans les logiciels, il est également chronophage et fastidieux pour les citoyens des données, et la plupart des organisations ne veulent faire cet investissement qu'une seule fois. Lors de l'évaluation des solutions de catalogue de données, recherchez les fonctionnalités suivantes (en plus des fonctionnalités de gestion des métadonnées mentionnées ci-dessus) :

  • Une excellente expérience de « shopping » de données qui inclut la détection de données : l'objectif d'un catalogue de données est de permettre à tous vos citoyens de données d'utiliser eux-mêmes les données qu'ils recherchent. Vous devez vous attendre à une expérience de recherche égale à celles de Netflix, Amazon ou d'autres expériences commerciales en ligne populaires, où n'importe qui peut trouver rapidement des résultats en fonction des métadonnées qu'il recherche et également recevoir des recommandations et/ou des avertissements pertinents basés sur les notes et les avis d'autres utilisateurs.
  • Conformité simplifiée : maintenir la conformité des données est presque humainement impossible ; à ce jour, 107 pays ont adopté des réglementations pour protéger uniquement la confidentialité des données personnelles. Un catalogue de données devrait simplifier la conformité en profilant les actifs de données, en déduisant leur pertinence par rapport à des réglementations spécifiques et en les classant et en les étiquetant automatiquement pour s'y référer ultérieurement. Les fonctionnalités d'apprentissage automatique permettent de gagner beaucoup de temps.
  • Connexions à une grande variété de sources de données : pour servir d'inventaire des actifs de données à l'échelle de l'entreprise, un catalogue de données doit se connecter à tous les actifs de votre entreprise. Recherchez des liens avec tous les types d'actifs dont vous disposez actuellement et un établissez des connexions pour la suite. Recherchez également un catalogue que vous pourrez déployer indépendamment de l'endroit où se trouvent vos données, sur site ou dans un environnement publique, privé, hybride, ou multicloud .
  • Prise en charge de la qualité et de la gouvernance garantissant la fiabilité des données :  un catalogue de données doit s'intégrer de manière transparente à tous les programmes et outils de qualité et de gouvernance que vous avez en place, y compris les règles de qualité des données, les glossaires métier et les workflows.
  • Prise en charge de « l'IA explicable » : de plus en plus, la gouvernance des données est responsable de la gestion des modèles d'intelligence artificielle (IA), non seulement pour comprendre les données utilisées, mais aussi la façon dont les différentes entrées influencent les décisions et les résultats. Assurez-vous que le catalogue de données que vous choisissez permet d’étiqueter et de préparer les actifs de données pour une utilisation et une transparence optimales dans vos modèles d'IA.

Avantages du catalogue de données

Lorsque les professionnels des données peuvent se servir eux-mêmes des données qu'ils recherchent, sans intervention des équipes informatiques, sans avoir à compter sur la recherche d'experts ou de collègues pour obtenir des conseils, sans se limiter aux seuls actifs qu'ils connaissent et sans avoir à se soucier de la gouvernance et de la conformité, l'ensemble de l'organisation en profite.

  • Meilleure compréhension des données grâce à un contexte amélioré :  les analystes peuvent trouver des descriptions détaillées des données, y compris les commentaires d'autres citoyens des données, et mieux comprendre comment les données sont pertinentes pour l'entreprise.
  • Efficacité opérationnelle accrue : un catalogue de données crée une répartition optimale du travail entre les utilisateurs et les équipes informatiques ; les citoyens des données peuvent accéder aux données et les analyser plus rapidement, et les équipes informatiques peuvent passer plus de temps à se concentrer sur les tâches hautement prioritaires.
  • Risque réduit : les analystes sont plus confiants de travailler avec des données qu'ils sont autorisés à utiliser dans un but donné, conformément aux réglementations du secteur et à la confidentialité des données. Ils peuvent également examiner rapidement les annotations et les métadonnées pour repérer les champs nuls ou les valeurs incorrectes susceptibles d'avoir un impact sur l'analyse.
  • Plus de succès avec les initiatives de gestion des données : plus il est difficile pour les analystes de données de trouver, d'accéder, de préparer et de faire confiance aux données, moins il est probable que les initiatives de Business Intelligence (BI) et les projets de big data réussissent.
  • De meilleures données et une meilleure analyse, plus rapidement - un avantage concurrentiel :  les professionnels des données peuvent répondre rapidement aux problèmes, aux défis et aux opportunités avec une analyse et des réponses basées sur toutes les données contextuelles les plus appropriées au sein de l'organisation.

Un catalogue de données peut également aider votre organisation à relever des défis et objectifs techniques et commerciaux spécifiques. En offrant aux analystes une vue unique et complète de leurs clients, un catalogue de données peut aider une entreprise à trouver de nouvelles opportunités de ventes croisées, de ventes incitatives, de promotions ciblées, etc. Et en promouvant, simplifiant ou automatisant la gouvernance, un catalogue de données peut vous aider à mettre en œuvre une gouvernance de datalake qui empêche les « marécages de données » et fournit le cadre politique pour la conception, le déploiement et la surveillance des modèles d'IA en mettant l'accent sur l'équité, la responsabilité, la sécurité et la transparence.


Catalogue de données et IBM Cloud

IBM Watson Knowledge Catalog est un catalogue de données ouvert et intelligent pour la gouvernance, la qualité et la collaboration des données d'entreprise et des modèles d'IA. Il permet aux professionnels de détecter, d'organiser, de catégoriser et de partager des actifs et des ensembles de données, des modèles analytiques et leurs relations avec les autres membres de votre organisation.

Alimenté par IBM Cloud Pak for Data, Watson Knowledge Catalog constitue une source unique de données de référence permettant aux ingénieurs en traitement de données, aux gestionnaires et spécialistes des données, ainsi qu'aux analystes métier, d'accéder en libre-service à des données fiables. Il offre également une gouvernance des données, une qualité des données et une gestion active des politiques afin d'aider votre organisation à protéger et à gouverner les données sensibles, à suivre le lignage des données, à gérer les datalake et à préparer votre transition vers l'IA.

Apprenez-en davantage sur les solutions de catalogage de données IBM et commencez dès aujourd'hui en créant votre compte IBM Cloud.


Solutions connexes

Watson Knowledge Catalog

Activez les données prêtes à l'emploi pour l'IA et l'analyse avec un catalogage intelligent, optimisé par une gestion active des métadonnées et des règles


IBM Cloud Pak for Data

Automatisez la détection, le catalogage et l'enrichissement des données dans un environnement de données hybride et de cloud, afin de les rendre pertinentes pour l'utilisateur. Élargissez l'accès aux données prêtes pour l'analyse et l'IA à davantage de personnes.