Qu'est-ce que le lignage de données ?

Découvrez le lignage de données et la façon dont les entreprises l'utilisent pour améliorer les informations commerciales

Deux travailleurs assis à un bureau partagé, tous deux regardant un écran d'ordinateur
Qu'est-ce que le lignage de données ?

Le lignage de données est le processus de suivi du flux de données au fil du temps, fournissant une compréhension claire de l'origine des données, de leur évolution et de leur destination finale dans le pipeline de données. Les outils de lignage de données fournissent un enregistrement des données tout au long de leur cycle de vie, y compris les informations sources et toutes les transformations de données qui ont été appliquées au cours des processus ETL ou ELT. Ce type de documentation permet aux utilisateurs d'observer et de suivre différents points de contact tout au long du parcours des données, permettant aux organisations de valider l'exactitude et la cohérence. Il s'agit d'une capacité essentielle pour assurer la qualité des données au sein d'une organisation. Cela est couramment utilisé pour obtenir un contexte sur les processus historiques ainsi que pour retracer les erreurs jusqu'à la cause première.


Lignage des données vs provenance des données vs gouvernance des données

La lignée des données, la provenance des données et la gouvernance des données sont des termes étroitement liés, qui se superposent. Ensemble, ils garantissent qu'une organisation peut maintenir la qualité et la sécurité des données dans le temps.

La gouvernance des données crée une structure au sein des organisations pour gérer les actifs de données en définissant les propriétaires de données, les termes commerciaux, les règles, les politiques et les processus tout au long du cycle de vie des données. Les solutions de lignage des données aident les équipes de gouvernance des données à s'assurer que les données sont conformes à ces normes, offrant une visibilité sur la façon dont les données changent dans le pipeline. La provenance des données est généralement utilisée dans le contexte du lignage des données, mais elle fait spécifiquement référence à la première instance de ces données ou à sa source.

Le lignage des données fournit une piste d'audit pour les données à un niveau très granulaire ; ce type de détail est extrêmement utile pour déboguer les erreurs de données, permettant aux ingénieurs de données de dépanner plus efficacement et d'identifier les résolutions plus rapidement. Alors que la portée de la gouvernance des données est plus large que le lignage et la provenance des données, cet aspect de la Gestion des données est important dans l'application des normes organisationnelles.


Pourquoi les entreprises utilisent le lignage de données

Des données fiables sont essentielles  pour améliorer la prise de décision et l'amélioration des processus dans toutes les facettes de l'entreprise, des ventes aux ressources humaines. Cependant, ces informations ne sont utiles que si les parties prenantes restent confiantes dans leur exactitude, car les informations ne sont aussi bonnes que la qualité des données. Le lignage des données donne une visibilité sur les modifications pouvant survenir à la suite de migrations de données, de mises à jour du système, d'erreurs, etc., garantissant l'intégrité des données tout au long de leur cycle de vie.

Le lignage des données documente la relation entre les données d'entreprise dans diverses applications commerciales et informatiques. Ces détails peuvent inclure :

  • Où se trouvent les données et comment elles sont stockées dans un environnement, par exemple sur site, dans un entrepôt de données ou dans un lac de données.
  • Comment les données peuvent être utilisées et qui est responsable de la mise à jour, de l'utilisation et de la modification des données. Cela inclut également les rôles et les applications qui sont autorisés à accéder à des segments spécifiques de données sensibles, par ex. les informations identifiant la personne (PII).
  • Données de suivi générées, téléchargées et modifiées par les utilisateurs professionnels et les applications. Par exemple, il peut s'agir de l'ajout de contacts à un système de gestion de la relation client (CRM) ou d'une transformation de données, telle que la suppression d'enregistrements en double.
  • Données créées et intégrées à partir de différentes parties de l'organisation, telles que le matériel réseau et les serveurs.

Comment fonctionne le lignage de données

Les métadonnées permettent aux utilisateurs d'outils de lignage des données de comprendre pleinement comment les données circulent dans le pipeline de données. Les métadonnées sont les « données sur les données », qui comprennent diverses informations sur les actifs de données, telles que le type, le format, la structure, l'auteur, la date de création, la date de modification et la taille du fichier. Les outils de lignage de données fournissent une image complète des métadonnées pour guider les utilisateurs lorsqu'ils déterminent l'utilité des données pour eux.

Ces dernières années, la façon dont nous stockons et exploitons les données a évolué avec l'évolution du Big Data. Les entreprises investissent davantage dans la science des données pour favoriser la prise de décision et les résultats commerciaux. Cependant, pour qu'ils puissent construire une analyse bien formée, ils devront utiliser des outils de lignage des données et des catalogues de données pour les exercices de découverte et de cartographie des données. Alors que les outils de lignage des données montrent l'évolution des données au fil du temps via des métadonnées, un catalogue de données utilise les mêmes informations pour créer un inventaire consultable de tous les actifs de données d'une organisation. Ensemble, ils permettent aux citoyens des données de comprendre l'importance de différents éléments de données pour un résultat donné, ce qui est fondamental dans le développement de tout algorithme d'apprentissage automatique.


Cas d'utilisation du lignage de données

Aujourd'hui, les entreprises ont de plus en plus besoin d'informations en temps réel, mais ces résultats dépendent de la compréhension des données et de leur parcours tout au long du pipeline. Voici quelques-unes des façons dont les équipes peuvent tirer parti des outils de traçabilité des données de bout en bout pour améliorer les flux de travail :

Modélisation des données : pour créer des représentations visuelles des différents éléments de données et de leurs liens correspondants au sein d'une entreprise, les entreprises doivent définir les structures de données sous-jacentes qui les prennent en charge. Le lignage des données aide à modéliser ces relations, illustrant les différentes dépendances à travers l'écosystème de données.  Comme les données évoluent avec le temps, il y a toujours de nouvelles sources de données qui émergent, de nouvelles intégrations de données qui doivent être faites, etc. Par conséquent, le modèle de données global que les entreprises utilisent pour gérer leurs données doit également s'adapter à l'évolution de l'environnement. Le lignage des données aide à refléter avec précision ces changements au fil du temps grâce à des diagrammes de modèles de données, en mettant en évidence des connexions ou des tables nouvelles ou obsolètes. Ceci, à son tour, aide les analystes et les spécialistes des données à faciliter des analyses précieuses et opportunes, car ils auront une meilleure compréhension des ensembles de données.

Migration des données : lors du déplacement des données vers un nouveau système de stockage ou de l'intégration d'un nouveau logiciel, les entreprises utilisent la migration des données pour comprendre les emplacements et le cycle de vie des données. Étant donné que le lignage des données fournit une vue de la progression de ces données dans l'organisation, il aide les équipes à planifier ces migrations ou mises à niveau du système, accélérant ainsi la transition globale vers le nouvel environnement de stockage. Il offre également aux équipes la possibilité de nettoyer le système de données, d'archiver ou de supprimer les anciennes données non pertinentes ; ceci, à son tour, peut améliorer les performances globales du système de données en réduisant la quantité de données qu'il doit gérer.

Conformité : le lignage des données fournit un mécanisme de conformité pour l'audit, l'amélioration de la gestion des risques et la garantie que les données sont stockées et traitées conformément aux politiques et réglementations de gouvernance des données. En 2016, par exemple, la législation du RGPD a été créée pour protéger les données personnelles des citoyens de l'Union européenne et de l'Espace économique européen, donnant aux individus un plus grand contrôle sur leurs données. Aux États-Unis, certains États, comme la Californie, ont élaboré des politiques, telles que la California Consumer Privacy Act (CCPA), qui oblige les entreprises à informer les consommateurs de la collecte de leurs données. Ce type de législation fait du stockage et de la sécurité de ces données une priorité absolue, et sans outils de lignage des données, les organisations trouvent les problèmes de non-conformité comme une entreprise longue et coûteuse.

Analyse d'impact : les outils de lignage des données peuvent fournir une visibilité sur l'impact de changements commerciaux spécifiques, comme tout rapport en aval. Par exemple, si le nom d'un élément de données change, le lignage des données peut aider les dirigeants à comprendre le nombre de tableaux de bord qui pourraient affecter et, par conséquent, le nombre d'utilisateurs qui accèdent à ce rapport. Cela peut également aider à évaluer l'impact des erreurs de données et l'exposition dans l'ensemble de l'organisation. Des erreurs de données peuvent survenir pour une myriade de raisons, ce qui peut éroder la confiance dans certains rapports de veille économique ou sources de données, mais les outils de lignage des données peuvent aider les équipes à les retracer jusqu'à la source, permettant des optimisations du traitement des données et la communication avec les équipes respectives.


Solutions IBM

IBM Cloud Pak for Data

Prévoir les résultats plus rapidement à l'aide d'une plateforme construite avec une architecture de matrice de données. Collectez, organisez et analysez des données, peu importe où elles se trouvent.


IBM Watson Knowledge Catalog

Activez les données prêtes à l'emploi pour l'IA et l'analyse avec un catalogage intelligent, optimisé par une gestion active des métadonnées et des règles



Pour aller plus loin

IBM Cloud Pak for Data exploite les microservices et ses principales capacités de données et d'IA pour automatiser l'intégration intelligente des données dans les systèmes distribués, offrant aux entreprises une vue globale des performances de l'entreprise. Cela facilite une collecte, une organisation et un aperçu plus rapides des données d'entreprise, et permet aux entreprises de prendre des décisions à plus grande échelle. Les équipes de gestion des données peuvent également être sûres que leurs données sont sécurisées grâce aux cadres de sécurité compétitifs d'IBM qui permettent de garantir le respect des politiques réglementaires et de réduire tout risque de conformité. Découvrez comment IBM Cloud Pak® for Data et IBM Streams peuvent vous aider à comprendre et à gérer l'architecture de données de votre entreprise via le lignage des données dans plusieurs environnements.