Un catalogue de données est un inventaire détaillé de tous les actifs de données d'une organisation, destiné aux professionnels des données pour les aider à trouver rapidement les données les plus appropriées pour toute utilisation à des fins d'analyses ou commerciales.
IBM Watson Knowledge Catalog
IBM Cloud Pak for Data
Un catalogue de données utilise des métadonnées, les données qui décrivent ou résument les données, afin de créer un inventaire informatif et consultable de tous les actifs de données d'une organisation. Ces actifs peuvent inclure entre autres les éléments suivants :
Cet inventaire permet aux citoyens des données (analystes de données, scientifiques des données, gestionnaires de données et autres professionnels des données ayant accès aux données de l'entreprise) de rechercher parmi tous les actifs de données disponibles d'une organisation et d'utiliser eux-mêmes les données les plus appropriées à des fins d'analyses ou commerciales.
Un catalogue de données comprend généralement des capacités de collecte et d'enrichissement continu (ou de conservation) des métadonnées associées à chaque actif de données afin de faciliter l'identification, l'évaluation et l'utilisation adéquate de chaque actif. Le catalogue fournit également des outils qui permettent aux utilisateurs d'effectuer les actions suivantes :
Les métadonnées sont des données qui décrivent un actif de données ou fournissent des informations sur l'actif qui facilitent la localisation, l'évaluation et la compréhension.
L'exemple type ou le plus couramment utilisé de métadonnées est le catalogue sur fiches ou le catalogue en ligne d'une bibliothèque. Dans celles-ci, chaque carte ou liste contient des informations sur un livre ou une publication (par exemple, titre, auteur, sujet, date de publication, édition, emplacement dans la bibliothèque et résumé ou synopsis) qui facilite la localisation ou l'évaluation de ce livre ou de cette publication pour un lecteur. Par exemple : est-il actuel ou obsolète ? Contient-il les informations que je recherche ? L'auteur est-il quelqu'un en qui j'ai confiance ou dont j'apprécie le travail ?
Il existe de nombreuses classes de métadonnées, mais un catalogue de données en traite principalement trois : les métadonnées techniques, les métadonnées de processus et les et les métadonnées métier.
Les métadonnées techniques (également appelées métadonnées structurelles) décrivent la manière dont les données sont organisées et présentées aux utilisateurs en décrivant la structure des objets de données, comme les tableaux, les colonnes, les lignes, les index et les connexions. Les métadonnées techniques indiquent aux professionnels des données comment ils devront travailler avec les données, par exemple, s'ils peuvent les utiliser telles quelles ou s'ils doivent les transformer à des fins d'analyse ou d'intégration.
Les métadonnées de processus (également appelées métadonnées administratives) décrivent les circonstances de la création de l'actif de données et quand, comment et par qui il a été consulté, utilisé, mis à jour ou modifié. Elles doivent également décrire qui est autorisé à accéder aux données et à les utiliser.
Les métadonnées de processus fournissent des informations sur l'historique et le lignagede l'actif. Ces informations sont utiles pour un analyste qui peut alors décider si l'actif est suffisamment récent pour la tâche à accomplir, s'il provient d'une source fiable, s'il a été mis à jour par des personnes dignes de confiance, etc. Les métadonnées de processus peuvent également être utilisées pour résoudre les requêtes. Et de plus en plus, les métadonnées de processus sont exploitées pour obtenir des informations sur les utilisateurs de logiciels ou les clients, tels que les logiciels qu'ils utilisent et le niveau de service dont ils bénéficient.
Les métadonnées métier (parfois appelées métadonnées externes) décrivent les aspects métier de l'actif de données : la valeur métier qu'il a pour l'organisation, son adéquation à un objectif particulier ou à diverses fins, des informations sur la conformité réglementaire, etc. Les métadonnées métier unissent les professionnels des données et les utilisateurs du secteur qui parlent le même langage à propos des actifs de données.
Un catalogue de données doit au minimum faciliter la recherche (ou la collecte) et l'organisation de toutes les métadonnées existantes associées à n'importe quel actif de données de votre organisation. Il devrait également fournir des outils permettant aux experts en données de conserver et d'enrichir ces métadonnées avec des étiquettes, des associations, des évaluations, des annotations et toute autre information et contexte qui aident les utilisateurs à trouver des données plus rapidement et à les utiliser en toute confiance.
Un catalogue de données nécessite un investissement important dans les logiciels, il est également chronophage et fastidieux pour les citoyens des données, et la plupart des organisations ne veulent faire cet investissement qu'une seule fois. Lors de l'évaluation des solutions de catalogue de données, recherchez les fonctionnalités suivantes (en plus des fonctionnalités de gestion des métadonnées mentionnées ci-dessus) :
Lorsque les professionnels des données peuvent se servir eux-mêmes des données qu'ils recherchent, sans intervention des équipes informatiques, sans avoir à compter sur la recherche d'experts ou de collègues pour obtenir des conseils, sans se limiter aux seuls actifs qu'ils connaissent et sans avoir à se soucier de la gouvernance et de la conformité, l'ensemble de l'organisation en profite.
Un catalogue de données peut également aider votre organisation à relever des défis et objectifs techniques et commerciaux spécifiques. En offrant aux analystes une vue unique et complète de leurs clients, un catalogue de données peut aider une entreprise à trouver de nouvelles opportunités de ventes croisées, de ventes incitatives, de promotions ciblées, etc. Et en promouvant, simplifiant ou automatisant la gouvernance, un catalogue de données peut vous aider à mettre en œuvre une gouvernance de datalake qui empêche les « marécages de données » et fournit le cadre politique pour la conception, le déploiement et la surveillance des modèles d'IA en mettant l'accent sur l'équité, la responsabilité, la sécurité et la transparence.
IBM Watson Knowledge Catalog est un catalogue de données ouvert et intelligent pour la gouvernance, la qualité et la collaboration des données d'entreprise et des modèles d'IA. Il permet aux professionnels de détecter, d'organiser, de catégoriser et de partager des actifs et des ensembles de données, des modèles analytiques et leurs relations avec les autres membres de votre organisation.
Alimenté par IBM Cloud Pak for Data, Watson Knowledge Catalog constitue une source unique de données de référence permettant aux ingénieurs en traitement de données, aux gestionnaires et spécialistes des données, ainsi qu'aux analystes métier, d'accéder en libre-service à des données fiables. Il offre également une gouvernance des données, une qualité des données et une gestion active des politiques afin d'aider votre organisation à protéger et à gouverner les données sensibles, à suivre le lignage des données, à gérer les datalake et à préparer votre transition vers l'IA.
Apprenez-en davantage sur les solutions de catalogage de données IBM et commencez dès aujourd'hui en créant votre compte IBM Cloud.
Activez les données prêtes à l'emploi pour l'IA et l'analyse avec un catalogage intelligent, optimisé par une gestion active des métadonnées et des règles
Automatisez la détection, le catalogage et l'enrichissement des données dans un environnement de données hybride et de cloud, afin de les rendre pertinentes pour l'utilisateur. Élargissez l'accès aux données prêtes pour l'analyse et l'IA à davantage de personnes.
Découvrez les capacités d'automatisation d'un catalogue de données et comment les organisations créent de nouveaux modèles commerciaux et se préparent à l'IA.
Découvrez pourquoi Forrester a désigné IBM Watson Knowledge Catalog comme leader dans The Forrester Wave™: Machine Learning Data Catalogs.
Les violations de données ont des conséquences considérables. Anticipez les événements grâce à un catalogue de données.