La qualité des données mesure dans quelle mesure un jeu de données répond aux critères d’exactitude, d’exhaustivité, de validité, de cohérence, d’unicité, d’actualité et d’adéquation à l’objectif, et elle est essentielle à toutes les initiatives de gouvernance des données au sein d’une organisation.
Les normes de qualité des données garantissent que les entreprises prennent des décisions fondées sur les données afin d’atteindre leurs objectifs commerciaux. Si les problèmes de données, tels que les données en double, les valeurs manquantes, les données aberrantes, ne sont pas correctement résolus, les entreprises augmentent leur risque d’obtenir des résultats commerciaux négatifs. Selon un rapport Gartner, la mauvaise qualité des données coûte en moyenne 12,9 millions de dollars par an aux organisations 1. En conséquence, des outils de qualité des données sont apparus pour atténuer l’impact négatif associé à une mauvaise qualité des données.
Lorsque la qualité des données répond aux normes d’utilisation prévues, les consommateurs de données peuvent faire confiance aux données et les exploiter pour améliorer la prise de décision, ce qui conduit au développement de nouvelles stratégies commerciales ou à l’optimisation des stratégies existantes. Cependant, lorsqu’une norme n’est pas respectée, les outils de qualité des données apportent une valeur ajoutée en aidant les entreprises à diagnostiquer les problèmes sous-jacents liés aux données. Une analyse des causes profondes permet aux équipes de remédier rapidement et efficacement aux problèmes de qualité des données.
La qualité des données n’est pas seulement une priorité pour les opérations commerciales quotidiennes. À mesure que les entreprises intègrent l’intelligence artificielle (IA) et les technologies d’automatisation dans leurs workflows, des données de haute qualité seront cruciales pour l’adoption efficace de ces outils. Comme l’explique le principe GIGO, des données d’entrée défectueuses ou absurdes produisent des sorties absurdes ou « déchets », ce qui est également vrai pour les algorithmes de machine learning. Si l’algorithme apprend à prédire ou à classer des données de mauvaise qualité, on peut s’attendre à ce qu’il produise des résultats inexacts.
Newsletter sectorielle
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
La qualité des données, l’intégrité des données et le profilage des données sont interdépendants. La qualité des données correspond à une catégorie plus large de critères que les organisations utilisent pour évaluer l’exactitude, l’exhaustivité, la validité, la cohérence, la singularité, la rapidité et la pertinence par rapport à un objectif donné. L’intégrité des données se concentre uniquement sur un sous-ensemble de ces attributs, en particulier l’exactitude, la cohérence et l’exhaustivité. Elle se concentre également sur cette question davantage sous l’angle de la sécurité des données, en mettant en œuvre des mesures de protection pour prévenir l’altération des données par des acteurs malveillants.
Le profilage des données, quant à lui, se concentre sur le processus d’examen et de nettoyage des données afin de maintenir des normes de qualité des données au sein de l’organisation. Cela peut également englober les technologies qui prennent en charge ces processus.
La qualité des données est évaluée à partir d’un certain nombre d’aspects, qui peuvent différer en fonction de la source d’information. Ces dimensions sont utilisées pour classer les indicateurs de qualité des données :
Ces indicateurs aident les équipes à évaluer la qualité des données au sein de leurs organisations afin de déterminer dans quelle mesure les données sont informatives et utiles dans un but donné.
Au cours de la dernière décennie, les développements du cloud hybride, de l’intelligence artificielle, de l’Internet des objets (IdO) et de l’edge computing ont conduit à la croissance exponentielle du big data. Par conséquent, la pratique de la gestion des données maîtresses (MDM) est devenue plus complexe, nécessitant davantage d’intendants des données et des garanties rigoureuses pour garantir la bonne qualité des données.
Les entreprises s’appuient sur la gestion de la qualité des données pour soutenir leurs initiatives d’analyse de données, telles que les tableaux de bord de veille stratégique. Sans cela, les conséquences peuvent être dévastatrices, même éthiques, selon le secteur d’activité (par exemple, de santé). Des solutions de qualité des données existent pour aider les entreprises à maximiser l’utilisation de leurs données, et elles en ont tiré des principaux avantages, tels que :
IBM propose des solutions de qualité des données qui optimisent des aspects clés tels que la précision, l’exhaustivité et la cohérence.
IBM Databand permet de surveiller la qualité des données en temps réel pour détecter les problèmes de mauvaise qualité des données et garantir une meilleure qualité des données.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.