En bref, oui. Lorsque nous parlons d’intégrité des données, nous faisons référence à l’exhaustivité, à l’exactitude, à la cohérence, à l’accessibilité et à la sécurité des données d’une entreprise. Ensemble, ces facteurs déterminent la fiabilité des données de l’entreprise. La qualité des données utilise ces critères pour mesurer le niveau d’intégrité des données et, par conséquent, leur fiabilité et leur applicabilité par rapport à l’utilisation prévue. La qualité des données et l’intégrité sont essentielles pour une entreprise fondée sur les données qui utilise l’analytique pour prendre des décisions métier, offre un accès aux données en libre-service aux parties prenantes internes et fournit des offres de données aux clients.
Newsletter sectorielle
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Pour atteindre un niveau élevé d’intégrité des données, une entreprise met en œuvre des processus, des règles et des normes qui régissent la manière dont les données sont collectées, stockées, consultées, modifiées et utilisées. Ces processus, règles et normes fonctionnent en tandem pour :
Une entreprise peut utiliser un grand nombre d’outils et d’environnements cloud publics ou privés tout au long du cycle de vie des données pour maintenir l’intégrité des données grâce à quelque chose connu sous le nom de gouvernance des données. Cette pratique consiste à créer, à mettre à jour et à appliquer de manière cohérente les processus, les règles et les normes qui empêchent les erreurs, la perte de données, la corruption des données, la mauvaise gestion des données sensibles ou réglementées et les violations de données.
Une entreprise qui assure un niveau élevé d’intégrité des données peut :
Une bonne intégrité des données peut également améliorer les résultats des décisions métier en augmentant la précision de l’analytique menée par une entreprise. Plus un jeu de données est complet, précis et cohérent, plus la Business Intelligence et les processus métier sont éclairés. Les dirigeants sont ainsi mieux armés pour fixer et atteindre des objectifs qui procurent un avantage à leur entreprise et renforcent la confiance des employés et des consommateurs.
Les tâches de science des données telles que machine learning peuvent également bénéficier d’une bonne intégrité des données. Lorsqu’un modèle de machine learning sous-jacent est entraîné sur des enregistrements de données fiables et précis, ce modèle sera meilleur pour faire des prédictions commerciales ou automatiser des tâches.
Il existe deux grandes catégories d’intégrité des données : l’intégrité des données physiques et l’intégrité des données logiques.
L’intégrité des données physiques est la protection de l’intégrité des données (c’est-à-dire qu’il n’y a pas d’informations importantes manquantes), de l’accessibilité et de l’exactitude des données, lorsque les données sont stockées ou en mouvement. Les catastrophes naturelles, les coupures de courant, les erreurs humaines et les cyberattaques présentent des risques pour l’intégrité physique des données.
L’intégrité logique fait référence à la protection de la cohérence et de l’exhaustivité des données lorsqu’elles sont accessibles par différentes parties prenantes et applications dans tous les services, disciplines et sites. L’intégrité logique des données est assurée par :
La sécurité des données est un sous-composant de l’intégrité des données et fait référence aux mesures prises pour empêcher l’accès non autorisé aux données ou toute manipulation. Des protocoles et des outils de sécurité des données efficaces contribuent à renforcer l’intégrité des données. En d’autres termes, la sécurité des données est le moyen de garantir l’intégrité des données. La récupération des données — en cas de violation, d’attaque, de panne de courant ou d’interruption de service — relève de la sécurité des données.
Les erreurs humaines, les erreurs de transfert, les actes malveillants, le manque de sécurité et les dysfonctionnements matériels contribuent tous à la création de « données erronées », ce qui a un impact négatif sur l’intégrité des données de l’entreprise. Une entreprise confrontée à un ou plusieurs de ces problèmes risque de subir les conséquences suivantes :
Des données de mauvaise qualité entraînent une mauvaise prise de décision en raison d’une analytique inexacte et non éclairée. La diminution de la qualité des données peut entraîner des pertes de productivité, un déclin des revenus et une atteinte à la réputation.
Les données qui ne sont pas correctement sécurisées présentent un risque accru de violation de données, ou de perte à la suite d’une catastrophe naturelle ou d’un autre événement imprévu. Et sans une bonne compréhension et un contrôle approprié de la sécurité des données, une entreprise risque plus facilement de ne pas être en conformité avec les réglementations locales, régionales et mondiales, telles que le Règlement général sur la protection des données de l’Union européenne.
La qualité des données est essentiellement la mesure de l’intégrité des données. La précision, l’exhaustivité, la cohérence, la validité, l’unicité et la rapidité d’un jeu de données sont les mesures de qualité des données qu’une entreprise utilise pour déterminer l’utilité et l’efficacité des données dans un cas d’utilisation donné.
Les analystes de la qualité des données évalueront un jeu de données à l’aide des dimensions énumérées ci-dessus et attribueront un score global. Lorsque les données sont classées en tête de chaque dimension, on considère qu’elles sont de haute qualité, fiables et dignes de confiance pour le cas d’utilisation ou l’application prévu. Pour mesurer et maintenir des données de haute qualité, les entreprises utilisent des règles de qualité des données, également appelées règles de validation des données, afin de s’assurer que les jeux de données répondent aux critères définis par l’entreprise.
Les utilisateurs professionnels et les data scientists n’ont pas à perdre du temps à localiser ou à formater des données à travers des systèmes disparates. Ils peuvent ainsi facilement accéder aux jeux de données et les analyser avec une plus grande confiance. On gagne ainsi un temps précieux, qui aurait autrement été perdu en agissant sur des données incomplètes ou inexactes.
Les données étant formatées de manière cohérente et contextualisées pour l’utilisateur ou l’application, les entreprises peuvent tirer parti de données qui auraient autrement été ignorées.
La qualité des données permet d’éliminer les incohérences entre les systèmes et les services et d’assurer la cohérence des données entre les processus et les procédures. La collaboration et la prise de décision entre les parties prenantes sont améliorées car elles s’appuient toutes sur les mêmes données.
Des données de haute qualité sont faciles à localiser et à consulter. Comme il n’est pas nécessaire de recréer ou de retrouver des jeux de données, les coûts de main-d’œuvre sont réduits et les erreurs de saisie manuelle sont moins probables. Et comme il est facile de stocker dans l’environnement approprié les données de haute qualité et de les collecter et les compiler dans les rapports obligatoires, une organisation peut mieux garantir la conformité et éviter les pénalités réglementaires.
Des données de haute qualité fournissent des insights plus précis et plus approfondis qu’une entreprise peut utiliser pour offrir une expérience plus personnalisée et plus percutante à ses employés et à ses clients.
Pour déterminer la qualité des données et attribuer un score global, les analystes évaluent un jeu de données à l’aide de ces six dimensions, également appelées caractéristiques de données :
Plus un jeu de données obtient un score élevé dans chacune de ces dimensions, plus son score global est élevé. Un score global élevé indique qu’un jeu de données est fiable, facilement accessible et pertinent.
Voici quelques méthodes et initiatives courantes utilisées par les entreprises pour améliorer la qualité des données :
Le profilage des données, également connu sous le nom d’évaluation de la qualité des données, est le processus d’audit des données d’une entreprise dans leur état actuel. Cela permet de découvrir les erreurs, les inexactitudes, les lacunes, les données incohérentes, les doublons et les obstacles à l’accessibilité. Les outils de qualité des données peuvent être utilisés pour profiler les jeux de données et détecter les anomalies de données qui doivent être corrigées.
Le nettoyage des données consiste à résoudre les problèmes de qualité des données et les incohérences détectés lors du profilage des données. Cela inclut la déduplication des jeux de données, afin que plusieurs entrées de données n’existent pas involontairement à différents emplacements.
Il s’agit du processus consistant à mettre en conformité les actifs de données disparates et le big data non structuré dans un format cohérent qui garantit que les données sont complètes et prêtes à l’emploi, quelle que soit la source des données. Pour normaliser les données, des business rules sont appliquées pour garantir la conformité des jeux de données aux normes et aux besoins d’une entreprise.
Le géocodage est le processus d’ajout de métadonnées de localisation aux jeux de données d’une entreprise. En étiquetant les données avec des coordonnées géographiques pour suivre d’où elles proviennent, où elles ont été et où elles résident, une entreprise peut garantir le respect des normes nationales et mondiales en matière de données géographiques. Par exemple, les métadonnées géographiques peuvent aider une entreprise à assurer la conformité de sa gestion des données client avec le RGPD.
Il s’agit de la méthode d’identification, de fusion et de résolution des données en double ou redondantes.
Maintenir une bonne qualité des données nécessite une gestion continue de la qualité des données. Le contrôle de la qualité des données consiste à revoir les jeux de données précédemment notés et à les réévaluer sur la base des six dimensions de la qualité des données. De nombreux analystes de données utilisent un tableau de bord de qualité des données pour visualiser et suivre les KPI de qualité des données.
Il s’agit du déploiement de règles de validation des données dans toutes les applications et tous les types de données à l’échelle, afin de garantir que tous les jeux de données respectent des normes spécifiques. Cette méthode peut être effectuée périodiquement par lots ou en continu en temps réel grâce à des processus tels que la capture des données modifiées.
La gestion des données consiste à créer et à maintenir un registre de données centralisé à l’échelle de l’entreprise, où toutes les données sont cataloguées et suivies. Cela donne à l’entreprise un emplacement unique pour visualiser et évaluer rapidement ses jeux de données, quel que soit l’endroit où se trouvent ces données ou leur type. Par exemple, les données client, les informations relatives à la chaîne d’approvisionnement et les données marketing résideraient toutes dans un environnement MDM.
IBM offre un large éventail de capacités intégrées en matière de qualité des données et de gouvernance des données, notamment le profilage des données, le nettoyage des données, la surveillance des données, la correspondance des données et l’enrichissement des données afin de garantir que les consommateurs de données ont accès à des données fiables et de haute qualité. La solution de gouvernance des données d’IBM aide les entreprises à établir une base automatisée, pilotée par les métadonnées, qui attribue des scores de qualité des données aux actifs et améliore l’organisation via des règles d’automatisation prêtes à l’emploi qui simplifient la gestion de la qualité des données.
Grâce à ses capacités d’observabilité des données, IBM peut aider les entreprises à détecter et résoudre plus rapidement les problèmes dans les pipelines de données. Le partenariat avec Manta pour les capacités automatisées de traçabilité des données permet à IBM d’aider les clients à trouver, suivre et prévenir les problèmes plus près de la source.
Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.
watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.