Intégrité des données vs. qualité des données : y a-t-il une différence ?

Illustration d’une personne tenant une clé devant une fenêtre de sécurité, entourée d’icônes représentant le cloud computing et la protection par mot de passe.

En bref, oui. Lorsque nous parlons d’intégrité des données, nous faisons référence à l’exhaustivité, à l’exactitude, à la cohérence, à l’accessibilité et à la sécurité des données d’une entreprise. Ensemble, ces facteurs déterminent la fiabilité des données de l’entreprise. La qualité des données utilise ces critères pour mesurer le niveau d’intégrité des données et, par conséquent, leur fiabilité et leur applicabilité par rapport à l’utilisation prévue. La qualité des données et l’intégrité sont essentielles pour une entreprise fondée sur les données qui utilise l’analytique pour prendre des décisions métier, offre un accès aux données en libre-service aux parties prenantes internes et fournit des offres de données aux clients.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Intégrité des données

Pour atteindre un niveau élevé d’intégrité des données, une entreprise met en œuvre des processus, des règles et des normes qui régissent la manière dont les données sont collectées, stockées, consultées, modifiées et utilisées. Ces processus, règles et normes fonctionnent en tandem pour :

  • Valider les données et les entrées
  • Supprimer les données dupliquées
  • Sauvegarder les sauvegardes de données et assurer la continuité d’activité
  • Protection des données via des contrôles d’accès
  • Maintenir une piste d’audit pour garantir la responsabilité et la conformité

Une entreprise peut utiliser un grand nombre d’outils et d’environnements cloud publics ou privés tout au long du cycle de vie des données pour maintenir l’intégrité des données grâce à quelque chose connu sous le nom de gouvernance des données. Cette pratique consiste à créer, à mettre à jour et à appliquer de manière cohérente les processus, les règles et les normes qui empêchent les erreurs, la perte de données, la corruption des données, la mauvaise gestion des données sensibles ou réglementées et les violations de données.

Les avantages de l’intégrité des données

Une entreprise qui assure un niveau élevé d’intégrité des données peut :

  • Augmenter la probabilité et la vitesse de récupération des données en cas de violation ou de temps d’arrêt imprévu
  • Se protéger contre l’accès non autorisé et la modification des données
  • Atteindre et maintenir la conformité plus efficacement

Une bonne intégrité des données peut également améliorer les résultats des décisions métier en augmentant la précision de l’analytique menée par une entreprise. Plus un jeu de données est complet, précis et cohérent, plus la Business Intelligence et les processus métier sont éclairés. Les dirigeants sont ainsi mieux armés pour fixer et atteindre des objectifs qui procurent un avantage à leur entreprise et renforcent la confiance des employés et des consommateurs.

Les tâches de science des données telles que machine learning peuvent également bénéficier d’une bonne intégrité des données. Lorsqu’un modèle de machine learning sous-jacent est entraîné sur des enregistrements de données fiables et précis, ce modèle sera meilleur pour faire des prédictions commerciales ou automatiser des tâches.

Les différents types d’intégrité des données

Il existe deux grandes catégories d’intégrité des données : l’intégrité des données physiques et l’intégrité des données logiques.

L’intégrité des données physiques est la protection de l’intégrité des données (c’est-à-dire qu’il n’y a pas d’informations importantes manquantes), de l’accessibilité et de l’exactitude des données, lorsque les données sont stockées ou en mouvement. Les catastrophes naturelles, les coupures de courant, les erreurs humaines et les cyberattaques présentent des risques pour l’intégrité physique des données.

L’intégrité logique fait référence à la protection de la cohérence et de l’exhaustivité des données lorsqu’elles sont accessibles par différentes parties prenantes et applications dans tous les services, disciplines et sites. L’intégrité logique des données est assurée par :

  • Prévention des doublons (intégrité des entités)
  • Déterminer comment les données sont stockées et utilisées (intégrité référentielle)
  • Préserver les données dans un format acceptable (intégrité du domaine)
  • S’assurer que les données répondent aux besoins uniques ou spécifiques d’une entreprise (intégrité définie par l’utilisateur)

En quoi l’intégrité des données diffère-t-elle de la sécurité des données ?

La sécurité des données est un sous-composant de l’intégrité des données et fait référence aux mesures prises pour empêcher l’accès non autorisé aux données ou toute manipulation. Des protocoles et des outils de sécurité des données efficaces contribuent à renforcer l’intégrité des données. En d’autres termes, la sécurité des données est le moyen de garantir l’intégrité des données. La récupération des données — en cas de violation, d’attaque, de panne de courant ou d’interruption de service — relève de la sécurité des données.

Les conséquences d’une mauvaise intégrité des données

Les erreurs humaines, les erreurs de transfert, les actes malveillants, le manque de sécurité et les dysfonctionnements matériels contribuent tous à la création de « données erronées », ce qui a un impact négatif sur l’intégrité des données de l’entreprise. Une entreprise confrontée à un ou plusieurs de ces problèmes risque de subir les conséquences suivantes :

Mauvaise qualité des données

Des données de mauvaise qualité entraînent une mauvaise prise de décision en raison d’une analytique inexacte et non éclairée. La diminution de la qualité des données peut entraîner des pertes de productivité, un déclin des revenus et une atteinte à la réputation.

Sécurité insuffisante des données

Les données qui ne sont pas correctement sécurisées présentent un risque accru de violation de données, ou de perte à la suite d’une catastrophe naturelle ou d’un autre événement imprévu. Et sans une bonne compréhension et un contrôle approprié de la sécurité des données, une entreprise risque plus facilement de ne pas être en conformité avec les réglementations locales, régionales et mondiales, telles que le Règlement général sur la protection des données de l’Union européenne.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Qualité des données

La qualité des données est essentiellement la mesure de l’intégrité des données. La précision, l’exhaustivité, la cohérence, la validité, l’unicité et la rapidité d’un jeu de données sont les mesures de qualité des données qu’une entreprise utilise pour déterminer l’utilité et l’efficacité des données dans un cas d’utilisation donné.

Comment déterminer la qualité des données

Les analystes de la qualité des données évalueront un jeu de données à l’aide des dimensions énumérées ci-dessus et attribueront un score global. Lorsque les données sont classées en tête de chaque dimension, on considère qu’elles sont de haute qualité, fiables et dignes de confiance pour le cas d’utilisation ou l’application prévu. Pour mesurer et maintenir des données de haute qualité, les entreprises utilisent des règles de qualité des données, également appelées règles de validation des données, afin de s’assurer que les jeux de données répondent aux critères définis par l’entreprise.

Avantages d’une bonne qualité des données

Amélioration de l’efficacité

Les utilisateurs professionnels et les data scientists n’ont pas à perdre du temps à localiser ou à formater des données à travers des systèmes disparates. Ils peuvent ainsi facilement accéder aux jeux de données et les analyser avec une plus grande confiance. On gagne ainsi un temps précieux, qui aurait autrement été perdu en agissant sur des données incomplètes ou inexactes.

Valeur des données accrue

Les données étant formatées de manière cohérente et contextualisées pour l’utilisateur ou l’application, les entreprises peuvent tirer parti de données qui auraient autrement été ignorées.

Collaboration et prise de décision améliorées

La qualité des données permet d’éliminer les incohérences entre les systèmes et les services et d’assurer la cohérence des données entre les processus et les procédures. La collaboration et la prise de décision entre les parties prenantes sont améliorées car elles s’appuient toutes sur les mêmes données.

Réduction des coûts et amélioration de la conformité réglementaire

Des données de haute qualité sont faciles à localiser et à consulter. Comme il n’est pas nécessaire de recréer ou de retrouver des jeux de données, les coûts de main-d’œuvre sont réduits et les erreurs de saisie manuelle sont moins probables. Et comme il est facile de stocker dans l’environnement approprié les données de haute qualité et de les collecter et les compiler dans les rapports obligatoires, une organisation peut mieux garantir la conformité et éviter les pénalités réglementaires.

Expérience utilisateur et collaborateur améliorée

Des données de haute qualité fournissent des insights plus précis et plus approfondis qu’une entreprise peut utiliser pour offrir une expérience plus personnalisée et plus percutante à ses employés et à ses clients.

Les six dimensions de la qualité des données

Pour déterminer la qualité des données et attribuer un score global, les analystes évaluent un jeu de données à l’aide de ces six dimensions, également appelées caractéristiques de données :

  1. Précision : les données sont-elles exactes et reflètent-elles des connaissances réelles ?
  2. Exhaustivité : les données comprennent-elles toutes les informations pertinentes et disponibles ? Y a-t-il des éléments de données manquants ou des champs vides ?
  3. Cohérence : les valeurs des données correspondantes sont-elles identiques d’un endroit à l’autre et d’un environnement à l’autre ?
  4. Validité : Les données sont-elles collectées dans le format approprié pour l’utilisation prévue ?
  5. Unicité : les données sont-elles dupliquées ou se recoupent-elles avec d’autres données ?
  6. Précision : les données sont-elles à jour et facilement disponibles en cas de besoin ?

Plus un jeu de données obtient un score élevé dans chacune de ces dimensions, plus son score global est élevé. Un score global élevé indique qu’un jeu de données est fiable, facilement accessible et pertinent.

Comment améliorer la qualité des données

Voici quelques méthodes et initiatives courantes utilisées par les entreprises pour améliorer la qualité des données :

Profilage des données

Le profilage des données, également connu sous le nom d’évaluation de la qualité des données, est le processus d’audit des données d’une entreprise dans leur état actuel. Cela permet de découvrir les erreurs, les inexactitudes, les lacunes, les données incohérentes, les doublons et les obstacles à l’accessibilité. Les outils de qualité des données peuvent être utilisés pour profiler les jeux de données et détecter les anomalies de données qui doivent être corrigées.

Nettoyage des données

Le nettoyage des données consiste à résoudre les problèmes de qualité des données et les incohérences détectés lors du profilage des données. Cela inclut la déduplication des jeux de données, afin que plusieurs entrées de données n’existent pas involontairement à différents emplacements.

Standardisation des données

Il s’agit du processus consistant à mettre en conformité les actifs de données disparates et le big data non structuré dans un format cohérent qui garantit que les données sont complètes et prêtes à l’emploi, quelle que soit la source des données. Pour normaliser les données, des business rules sont appliquées pour garantir la conformité des jeux de données aux normes et aux besoins d’une entreprise.

Géocodage

Le géocodage est le processus d’ajout de métadonnées de localisation aux jeux de données d’une entreprise. En étiquetant les données avec des coordonnées géographiques pour suivre d’où elles proviennent, où elles ont été et où elles résident, une entreprise peut garantir le respect des normes nationales et mondiales en matière de données géographiques. Par exemple, les métadonnées géographiques peuvent aider une entreprise à assurer la conformité de sa gestion des données client avec le RGPD.

Correspondance ou liaison

Il s’agit de la méthode d’identification, de fusion et de résolution des données en double ou redondantes.

Contrôle de la qualité des données

Maintenir une bonne qualité des données nécessite une gestion continue de la qualité des données. Le contrôle de la qualité des données consiste à revoir les jeux de données précédemment notés et à les réévaluer sur la base des six dimensions de la qualité des données. De nombreux analystes de données utilisent un tableau de bord de qualité des données pour visualiser et suivre les KPI de qualité des données.

Validation par lots et en temps réel

Il s’agit du déploiement de règles de validation des données dans toutes les applications et tous les types de données à l’échelle, afin de garantir que tous les jeux de données respectent des normes spécifiques. Cette méthode peut être effectuée périodiquement par lots ou en continu en temps réel grâce à des processus tels que la capture des données modifiées.

Master Data Management

La gestion des données consiste à créer et à maintenir un registre de données centralisé à l’échelle de l’entreprise, où toutes les données sont cataloguées et suivies. Cela donne à l’entreprise un emplacement unique pour visualiser et évaluer rapidement ses jeux de données, quel que soit l’endroit où se trouvent ces données ou leur type. Par exemple, les données client, les informations relatives à la chaîne d’approvisionnement et les données marketing résideraient toutes dans un environnement MDM.

Intégrité et qualité des données avec IBM

IBM offre un large éventail de capacités intégrées en matière de qualité des données et de gouvernance des données, notamment le profilage des données, le nettoyage des données, la surveillance des données, la correspondance des données et l’enrichissement des données afin de garantir que les consommateurs de données ont accès à des données fiables et de haute qualité. La solution de gouvernance des données d’IBM aide les entreprises à établir une base automatisée, pilotée par les métadonnées, qui attribue des scores de qualité des données aux actifs et améliore l’organisation via des règles d’automatisation prêtes à l’emploi qui simplifient la gestion de la qualité des données.

Grâce à ses capacités d’observabilité des données, IBM peut aider les entreprises à détecter et résoudre plus rapidement les problèmes dans les pipelines de données. Le partenariat avec Manta pour les capacités automatisées de traçabilité des données permet à IBM d’aider les clients à trouver, suivre et prévenir les problèmes plus près de la source.

Solutions connexes
IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets
IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Découvrir les solutions de gestion des données Découvrir watsonx.data