Accueil
Thèmes
Fiabilité des données
Par fiabilité des données, on entend leur exhaustivité et leur exactitude. Il s’agit d’établir dans quelle mesure elles resteront cohérentes et exemptes d’erreur au fil du temps, quelle que soit leur source.
Plus les données sont fiables, plus elles inspirent confiance. La confiance dans les données est essentielle pour assurer la pertinence des analyses et informer la prise de décision, que ce soit dans la recherche académique, l’analyse d’affaires ou la politique publique.
Des données inexactes ou peu fiables peuvent entraîner des conclusions incorrectes, des modèles incorrects et une mauvaise prise de décision.C'est pourquoi de plus en plus d'entreprises introduisent des directeurs des données, un nombre qui a doublé parmi les principales sociétés cotées en bourse entre 2019 et 2021.1
Étant donné les risques liés à une mauvaise qualité des données et les avantages compétitifs qu’apporte leur exactitude, la fiabilisation des données s’impose comme une priorité pour chaque entreprise. Pour réussir, il est important de comprendre en quoi consistent l’évaluation et la fiabilisation, qui reposent principalement sur l’observabilité des données, puis de définir clairement les responsabilités et les objectifs en matière d’amélioration.
Mettre en œuvre une observabilité de bout en bout permet aux ingénieurs de données de fiabiliser intégralement leur pile en identifiant, en examinant et en résolvant les problèmes liés à une mauvaise qualité des données avant qu’ils ne se propagent.
Découvrez comment l'observabilité proactive des données peut vous aider à détecter les incidents de données plus tôt et à les résoudre plus rapidement.
Pour mesurer la fiabilité de vos données, trois aspects principaux sont à prendre en compte :
1. Validité
Pour être valides, les données doivent être correctement stockées et formatées, et mesurer ce qu’elles sont censées mesurer. Par exemple, si vous collectez de nouvelles données sur un phénomène du monde réel, les données sont valides uniquement si elles reflètent fidèlement ce phénomène, sans être influencées par des facteurs externes.
2. Exhaustivité
Évaluer l’exhaustivité des données consiste à vérifier si les informations sont complètes. Les données peuvent être valides, mais incomplètes s’il manque des champs indispensables à la bonne compréhension des informations. Les données incomplètes sont susceptibles de donner lieu à des analyses biaisées ou incorrectes.
3. Unicité
Évaluer l’unicité des données consiste à vérifier si le jeu de données comporte des doublons. Garantir l’unicité des données permet d’éviter la surreprésentation, synonyme d’inexactitude.
Pour aller encore plus loin, certaines équipes chargées des données vérifient également d’autres aspects, à savoir :
Mesurer la fiabilité des données est essentiel pour permettre aux équipes de renforcer la confiance dans leurs jeux de données et d’identifier en amont les problèmes. Procéder à des tests réguliers et efficaces leur permet d’accélérer l’identification des problèmes, de déterminer leur source et de prendre les mesures nécessaires pour les résoudre.
Les plateformes de données modernes s’appuient non seulement sur la technologie, mais aussi sur les principes DevOps, DataOps et Agiles. Bien que leurs objectifs soient différents, le DevOps et le DataOps sont tous deux proches de la philosophie Agile, qui vise à accélérer les projets.
Le DevOps est axé sur le développement de produits, tandis que le DataOps consiste à mettre en œuvre et à maintenir une architecture de données distribuée qui apporte de la valeur à ces dernières.
Agile est une approche du développement logiciel qui vise à apporter rapidité et efficacité sans éliminer le facteur « humain ». Cette philosophie met l’accent sur les échanges en face à face afin de renforcer la communication, mais aussi sur l’automatisation afin de réduire le risque d’erreur.
La fiabilité et la validité constituent deux aspects distincts de la qualité des données.
Dans le contexte de la gestion des données, les deux jouent un rôle crucial pour garantir l’intégrité et la fonctionnalité des données disponibles.
Bien que la fiabilité et la validité des données soient liées, l’une n’implique pas l’autre. Par exemple, si votre processus de collecte de données est très fiable (c’est-à-dire qu’il fournit des résultats cohérents et reproductibles), mais les données recueillies ne sont pas validées (car non conformes aux règles ou aux formats requis), la qualité du résultat final restera faible.
Inversement, si vos données sont parfaitement valides (car conformes à toutes les règles de format et d’intégrité), mais le processus de collecte n’est pas fiable (les résultats sont différents pour chaque mesure ou observation), la fonctionnalité et la fiabilité de ces données peuvent être remises en question.
Afin de garantir la fiabilité des données, il convient de mettre en place et de suivre une méthode de collecte et de traitement cohérente, et ce quel que soit le type de données. Pour ce qui est de la validité des données, il est impératif de mettre en œuvre des protocoles de validation rigoureux. Il peut s’agir de vérifier le type de données, leur étendue, leur intégrité référentielle, etc. Ces protocoles vous permettront de garantir que le format des données est correct et qu’elles respectent l’ensemble des règles applicables.
Les projets de fiabilisation des données posent d’importants problèmes et défis dans bon nombre de domaines de la recherche et de l’analyse des données, que voici :
La manière dont les données sont collectées peut considérablement affecter leur fiabilité. Si la méthode de recueil est erronée ou biaisée, les données ne pourront pas être fiables. En outre, des erreurs de mesure peuvent survenir lors de la collecte, de la saisie, du traitement ou de l’analyse des données.
Pour être fiables, les données doivent être cohérentes dans le temps et dans différents contextes. La modification des techniques de mesure, des définitions ou encore des systèmes utilisés pour la collecte peut affecter la cohérence des données.
L’erreur humaine est invariablement citée comme source potentielle de non-fiabilité. Il peut s’agir d’une saisie incorrecte, d’un codage incohérent, ou encore d’une mauvaise interprétation des données.
Dans certains cas, l’objet mesuré peut changer au fil du temps, entraînant des problèmes de fiabilité. Par exemple, un modèle de machine learning conçu pour prédire le comportement des consommateurs peut être fiable au départ, mais devenir inexact au fur et à mesure que ce comportement évolue.
Des pratiques de gouvernance des données incohérentes et un manque de gestion des données peuvent entraîner un manque de responsabilité en matière de qualité et de fiabilité des données.
Lorsque les sources de données changent ou font l’objet de mises à jour, la fiabilité peut s’en trouver affectée, surtout si le format ou la structure des données changent. L’intégration de données provenant de différentes sources peut également entraîner des problèmes de fiabilité au niveau de votre plateforme de données moderne.
Les enregistrements et les entrées en double peuvent engendrer des inexactitudes et fausser les résultats. Identifier et gérer les doublons s’avère incontournable pour garantir la fiabilité des données.
La résolution de ces problèmes et défis nécessite une combinaison de processus de qualité, de gouvernance des données, de validation des données et de pratiques de gestion des données.
Une bonne gestion des données passe par leur fiabilisation. Voici quelques bonnes pratiques à adopter pour fiabiliser votre pile de données dans son intégralité :
L’observabilité vise à offrir une visibilité sur l’hygiène et l’état des données de votre système. Elle est assurée au moyen de diverses pratiques qui vont au-delà d’une simple description des problèmes. L’observabilité des données permet d’identifier, d’examiner et de résoudre les problèmes liés aux données en temps quasi réel.
Il est à noter que l’observabilité des données est essentielle pour anticiper les problèmes de qualité des données afin de pouvoir garantir leur fiabilité. Parmi les pratiques d’observabilité, citons la surveillance, les alertes, le suivi, la comparaison, l’analyse, la journalisation, le suivi des SLA et la traçabilité des données. Ensemble, toutes ces activités permettent d’évaluer la qualité des données de bout en bout, et notamment leur fiabilité.
Une bonne observabilité permet de renforcer la fiabilité des données. En identifiant rapidement les problèmes, l’équipe concernée est effectivement en mesure d’accélérer la réponse, d’évaluer l’ampleur de l’impact et de restaurer la fiabilité.
En mettant en œuvre des pratiques et des outils d'observabilité des données, les organisations peuvent améliorer la fiabilité des données, en veillant à ce qu'elles soient précises, cohérentes et fiables tout au long du cycle de vie des données.Cela est particulièrement important dans les environnements axés sur les données, où des données de haute qualité peuvent avoir un impact direct sur la veille stratégique, les décisions fondées sur les données et les résultats de l'entreprise.
Conçu pour les entrepôts et les pipelines de données, IBM® Databand® est un logiciel d’observabilité qui collecte automatiquement les métadonnées afin de créer des lignes de base historiques, de détecter les anomalies et de trier les alertes permettant de résoudre les problèmes de qualité des données.
En prenant en charge les modèles ETL et ELT, IBM DataStage offre une intégration flexible et quasi en temps réel des données sur site et dans le cloud.
IBM® Knowledge Catalog est un catalogue de données intelligent optimisé pour l'IA, conçu pour faciliter l’accès, le classement et le partage des données, des actifs de connaissances et de leurs relations, où qu’ils se trouvent.
Vous pouvez désormais faire évoluer votre analyse et l’IA grâce à un magasin de données fondé sur une architecture ouverte de data lakehouse et adapté à vos besoins, qui associe requête, gouvernance et formats de données ouverts pour faciliter l’accès aux données, ainsi que leur partage.
Pour aller plus loin, découvrez la notion d’observabilité des données, son importance, son évolution parallèle à celle des systèmes de données modernes, ainsi que les bonnes pratiques à appliquer pour mettre en œuvre un cadre d’observabilité des données.
Il incombe aux ingénieurs de données de veiller à la qualité des données, mais aussi au reste de l’entreprise. Cet article vous propose de découvrir pourquoi la qualité des données est fondamentale, comment réaliser des audits, surveiller vos données et obtenir l’adhésion des principales parties prenantes.
Différents indicateurs permettent d’évaluer la qualité des données, à savoir l’exhaustivité, la cohérence, la conformité, l’exactitude, l’intégrité, la promptitude, la disponibilité et la continuité, pour n’en citer que quelques-uns.
1. In data we trust (« Les données, nous y croyons » , PwC, 28 avril 2022