Qu’est-ce qu’un catalogue de données ?

Photographie panoramique de la Yale Beinecke Rare Book and Manuscript Library

Auteurs

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

Qu’est-ce qu’un catalogue de données ?

Un catalogue de données est un inventaire détaillé des actifs de données au sein de l’entreprise. Il facilite la découverte, la compréhension, la gestion, l’organisation et l’accès aux données.

À l'aide de métadonnées et d’outils de gestion des données, les catalogues de données organisent les actifs de données afin que les utilisateurs (analystes de données, data scientists et data stewards) puissent rapidement trouver les données adaptées à leurs cas d’utilisation analytiques ou métier. De nombreux catalogues de données prennent en charge la recherche en langage naturel pour permettre aux utilisateurs de découvrir les données sans écrire de code ni de requête SQL.

Les catalogues de données comprennent généralement un large éventail d’actifs de données. En voici quelques exemples :

Un catalogue de données robuste comprend également des capacités de gestion des métadonnées pour collecter et organiser les métadonnées de chaque actif de données. Ces fonctionnalités facilitent l’identification, l’évaluation et l’utilisation efficace des données. Le catalogue doit également fournir des outils de gouvernance des données pour assurer la qualitél’intégrité et la sécurité des données.

Les dernières actualités technologiques, étayées par des avis d’expert

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la déclaration de confidentialité d’IBM.
Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Qu’est-ce qu’une métadonnée ?

Les métadonnées sont des « données sur les données. » Il s’agit d’informations sur les données autres que leur contenu, telles que l’auteur, la date de création et la taille du fichier. Les métadonnées facilitent la recherche, l’organisation et l’utilisation des données.

Un exemple classique de métadonnées est le catalogue sur fiches ou le catalogue en ligne d’une bibliothèque. Ici, chaque fiche ou liste contient des informations sur un livre : titre, auteur, sujet, date de publication, édition, emplacement dans la bibliothèque ou synopsis.

Ces informations permettent aux lecteurs de trouver et d’évaluer plus facilement le livre : est-il à jour ou dépassé ? Contient-il les informations que je recherche ? L’auteur est-il une personne en qui j’ai confiance ou dont j’apprécie le travail ? De la même façon, les métadonnées permettent aux utilisateurs de données de trouver et d’évaluer plus facilement les données de leur organisation.

Différents types de métadonnées remplissent différentes fonctions. Les catalogues de données traitent généralement plusieurs classes de métadonnées. En voici quelques exemples :

Métadonnées techniques

Les métadonnées techniques précisent les détails techniques des données tels que le type de fichier, les informations d’encodage, les schémas et l’emplacement de stockage. Cela indique aux utilisateurs comment utiliser les données (par exemple, si elles nécessitent une transformation à des fins d’analyse).

Métadonnées opérationnelles

Les métadonnées opérationnelles décrivent les circonstances de la création et de l’utilisation de l’actif de données. Par exemple, elles peuvent préciser quand, comment et par qui ces données ont été consultées, utilisées, mises à jour ou modifiées.

Métadonnées administratives

Les métadonnées administratives définissent les politiques d’utilisation et de conservation des données. Ce type de métadonnées est utilisé dans la gouvernance des données et permet aux entreprises de respecter leurs obligations, ainsi que les exigences réglementaires et internes.

Métadonnées commerciales

Les métadonnées métier décrivent le contexte métier d’un actif de données et sa pertinence pour l’entreprise. Ces métadonnées sont faciles à comprendre pour les spécialistes des données et les utilisateurs professionnels.

Les catalogues de données comportent généralement des outils de gestion des métadonnées pour organiser et enrichir ces dernières à l’aide de balises, d’associations, d’évaluations et d’annotations.

Mixture of Experts | 28 août, épisode 70

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Pourquoi les catalogues de données sont-ils importants ?

Les entreprises modernes gèrent des environnements de données de plus en plus complexes. Les actifs peuvent provenir de divers environnements cloud et systèmes sur site, ainsi que d’équipes, de zones géographiques et de plateformes cloisonnées. Les catalogues de données permettent à tous de facilement trouver, évaluer et utiliser toutes ces données, sans compétences techniques particulières ni efforts importants.

Prenons l’analogie suivante : les systèmes de bibliothèques numériques évitent aux lecteurs de perdre du temps et de l’énergie à errer dans les rayonnages à la recherche d’un livre précis. Un catalogue de données a une fonction similaire : il aide les utilisateurs à trouver rapidement les données dont ils ont besoin, au lieu de devoir naviguer dans d’immenses jeux de données non organisés. Un meilleur accès aux données améliore considérablement l’efficacité des initiatives de génération d’informations au sein de l’organisation, tout comme un catalogue de bibliothèque numérique permet aux lecteurs d’accéder plus rapidement à la première page du livre qu’ils recherchent.

Les catalogues de données jouent également un rôle crucial dans la gouvernance des données, l’atténuation des risques et la mise en conformité réglementaire, notamment pour éviter les violations. Parmi les capacités servant ces objectifs, citons la classification automatisée des données sensibles et les notifications envoyées lorsque des anomalies sont détectées dans les données.

Grâce aux catalogues de données, les spécialistes des données accèdent aux données de manière indépendante, sans faire appel aux équipes informatiques ni aux ingénieurs en données, et sans prendre de risque en matière de conformité ni de gouvernance. Ces facteurs favorisent un environnement de données agile et autonome, qui profite à toute l’entreprise.

Catalogue de données et data dictionary

Si le catalogue de données et le Data Dictionary servent des objectifs différents, ils fonctionnent ensemble pour rendre les données plus faciles à utiliser.

Un catalogue de données offre une vue d’ensemble de tous les actifs de données au sein d’une entreprise. Il fournit un contexte métier pour aider les utilisateurs à découvrir et évaluer les jeux de données.

Le data dictionary, quant à lui, définit la structure et le contenu de chaque jeu de données. Il comprend des informations telles que le nom des champs, les types de données, les valeurs autorisées, les plages et les formats. Il garantit également que les champs de données sont standardisés dans les différents projets, fichiers et programmes de données.

Quels sont les avantages d’un catalogue de données ?

Les catalogues de données offrent divers avantages pour faciliter la découverte, la gouvernance et l’utilisation des données au sein de l’Entreprise. En voici quelques-uns :

Analyse accélérée des données

Les catalogues de données permettent l’analytique en libre-service. Les analystes de données trouvent les données, y accèdent, les préparent et peuvent s’y fier, ce qui accélère le processus d’analyse.

Efficacité opérationnelle

Grâce à une répartition optimale des tâches entre les utilisateurs et le service informatique, les catalogues de données permettent de réduire les goulots d’étranglement. Les travailleurs chargés de traiter les données y accèdent et les analysent de manière indépendante, ce qui permet aux équipes informatiques de se concentrer sur les tâches stratégiques prioritaires.

Une meilleure prise de décision axée sur les données

Avec des données centralisées, contextuelles et fiables à portée de main, les spécialistes des données sont en mesure de réagir plus rapidement et de prendre des décisions plus éclairées, ce qui les aide à atteindre leurs objectifs en matière de Business Intelligence (BI) et de big data.

Risques réglementaires réduits

En promouvant, en simplifiant et en automatisant la gouvernance, les catalogues de données donnent aux analystes l’assurance qu’ils travaillent avec les données qu’ils sont autorisés à utiliser, conformément aux réglementations sectorielles et aux exigences en matière de protection des données.

Silos de données améliorés

Les catalogues de données permettent d’unifier de grandes quantités de données cloisonnées provenant des différentes sources de l’entreprise (par exemple, ses entrepôts de données, ses data lakes et ses data lakehouses). L’élimination de ces silos favorise l’accessibilité des données et la collaboration des parties prenantes.

Quels sont les principaux outils et fonctionnalités d’un catalogue de données ?

Les catalogues de données modernes offrent un large éventail d’outils et de capacités pour permettre aux consommateurs de données de trouver, de comprendre et d’utiliser les données de l’entreprise de manière responsable. En voici les principales fonctionnalités :

  • Découverte de données : un catalogue de données doit permettre à chaque utilisateur de trouver rapidement et facilement les données les plus pertinentes. L’expérience de recherche doit être intuitive et conviviale, à l’image de celle de Netflix, d’Amazon et d’autres plateformes grand public.

  • Gestion des métadonnées : une gestion efficace des métadonnées facilite la recherche et la découvrabilité des catalogues de données. Un catalogue de données solide permet de garder les métadonnées bien structurées, accessibles et exploitables.

  • Traçabilité des données : grâce aux métadonnées, les catalogues de données visualisent le cycle de vie de ces dernières pour offrir une vue transparente de bout en bout de leur origine, de leur évolution et de leur destination dans le pipeline de données.

  • Gouvernance des données : un catalogue de données robuste s’intègre parfaitement aux politiques et aux outils de gouvernance, dont les règles de qualité des données, les glossaires métier et les workflows.

  • Profilage des données : les catalogues de données modernes intègrent des outils de profilage qui permettent d’examiner les données, puis d’assurer leur qualité grâce aux processus de nettoyage et de validation.

  • Protection des données : pour assurer la sécurité des données et la confidentialité des données sensibles, le catalogue doit appliquer des contrôles d’accès et des autorisations utilisateur conformément aux réglementations en vigueur, telles que le Règlement général sur la protection des données (RGPD).

  • Intégration des données : le catalogue de données doit pouvoir se connecter à l’écosystème de données de l’entreprise (entrepôts de données, outils BI et autres plateformes) par le biais de robots d’indexation, de connecteurs ou d’interfaces de programmation d’application (API).

  • Prise en charge de l’intelligence artificielle (IA) : les données sont essentielles à la réussite des modèles d’IA. Les catalogues de données d’entreprise modernes permettent d’étiqueter et de préparer les jeux de données pour assurer une performance optimale des modèles, ainsi que leur transparence.

Qu’est-ce qu’un catalogue de données d’IA ?

Les catalogues de données alimentés par l’IA s’appuient sur des technologies avancées telles que l’automatisation, l’intelligence artificielle et le machine learning pour améliorer et optimiser leurs fonctionnalités traditionnelles. Voici quelques exemples de fonctionnalités proposées par les catalogues de données alimentés par l’IA :

Enrichissement automatisé des métadonnées

Appuyés par des renseignements sur les données, les catalogues de données alimentés par l’IA automatisent l’enrichissement des métadonnées techniques en temps réel, et ce à travers des milliers d’actifs de données.

Gouvernance automatisée des données

Grâce à une classification avancée des données, les catalogues de données d’IA identifient et étiquètent les données sensibles, puis appliquent des règles de protection des données et de sécurité telles que les contrôles d’accès.

Recherche intelligente

Grâce à la recherche intelligente, les catalogues de données d’IA peuvent utiliser le traitement automatique du langage naturel pour développer et optimiser les requêtes utilisateur afin d’améliorer la pertinence des résultats et des informations.

Solutions connexes
IBM Knowledge Catalog

Générez des données pour l’IA et l’analytique grâce au catalogage intelligent et à la gestion des politiques. IBM Knowledge Catalog est un logiciel de gouvernance des données qui fournit un catalogue permettant d’automatiser la découverte des données, la gestion de leur qualité et leur protection.

Découvrir Knowledge Catalog
Solutions IBM Data Intelligence

Transformez rapidement les données brutes en informations exploitables, unifiez la gouvernance, la qualité, la traçabilité et le partage des données, et offrez aux consommateurs des données fiables et contextualisées.

Découvrir les solutions d’intelligence des données
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Trouvez, comprenez, organisez et bénéficiez d'un accès aux données, aux actifs de connaissances et à leurs relations, où qu’ils se trouvent, dans le cloud ou sur site. IBM Knowledge Catalog est un logiciel de gouvernance des données qui fournit un catalogue permettant d’automatiser la découverte des données, la gestion de leur qualité et leur protection.

Découvrir IBM Knowledge Catalog Découvrir les solutions d’intelligence des données