À bien des égards, votre qualité se mesure à celle de votre dernière livraison. Or, pour beaucoup d’entre nous, la livraison continue est synonyme d’examen minutieux permanent. Il faut préserver la qualité, mais aussi la perception de la qualité, car votre travail devient beaucoup plus difficile dès que la confiance dans les données est rompue.
C’est pourquoi toute organisation qui considère que les données sont importantes pour son fonctionnement, qu’il s’agisse de consommateurs internes ou externes, doit adopter une gestion de la qualité des données et mettre en œuvre un cadre de qualité en la matière. Il s’agit de développer des processus et des modèles reproductibles, idéalement automatiques, pour veiller à ce que les données qui entrent dans votre système et qui sont livrées en aval correspondent à vos attentes et à celles de vos consommateurs.
Comme tout ingénieur en données chevronné le sait, la compréhension de ces attentes représente la moitié du chemin à parcourir. Une grande partie de l’autre moitié consiste à traduire ces attentes en suivi et en alertes qui vous aideront à trouver et à résoudre les problèmes dans les processus d’ingestion complexes.
Dans ce guide, nous présentons des stratégies permettant de s’assurer que la gestion de la qualité des données n’est pas simplement superposée à vos processus existants codés en dur, mais qu’elle est intégrée à chaque DAG. Pour ce faire, vous devez détecter les anomalies bien avant que des données de mauvaise qualité ne pénètrent dans votre couche de transformation.
Qu’est-ce qu’un cadre de qualité des données ?
Voici d’abord une définition. Un cadre de qualité des données est un outil qu’une organisation peut employer pour définir les attributs pertinents de la qualité des données et fournir des orientations pour un processus de gestion de la qualité des données visant à garantir en permanence que la qualité des données répond aux attentes des consommateurs (accords de niveau de service ou SLA).
Cette phrase semble plus complexe qu’elle ne l’est vraiment. Analysons-la plus en détail :
- Vous avez besoin d’un processus : à moins que vous ne disposiez d’un nombre illimité d’heures d’ingénieur, un processus devrait inclure des tests unitaires répétables et idéalement automatiques à chaque étape de votre pipeline de données (en particulier lors de l’ingestion si vous souhaitez détecter les problèmes de manière proactive), ainsi qu’un workflow pour traiter les problèmes liés aux données.
- Vous devez vous assurer en permanence que : la qualité de vos données diminue proportionnellement à leur vélocité, également connue sous le nom de dérive des données. Les données à haute vélocité, comme celles que beaucoup d’entre nous traitent aujourd’hui, exigent des contrôles fréquents.
- Vous devez répondre aux attentes des consommateurs, et non aux vôtres : la qualité des données est un processus fondamentalement commercial. Vos accords de niveau de service (SLA) en matière de données sont passés avec les consommateurs. Rien de ce qui relève de l’ingénierie n’a d’importance si les data scientists ne peuvent pas exécuter leurs modèles, si les clients reçoivent des estimations de livraison inexactes ou si votre vice-président régional doit se rendre au conseil d’administration les mains vides parce que le tableau de bord ne s’est pas chargé.
Le respect de cette promesse comporte de nombreux éléments, et chacun d’entre eux est tributaire d’autres facteurs. Si vous vous demandiez comment concevoir un tel système, vous vous poseriez les questions suivantes :
- Comment comprendre les attentes des consommateurs en matière de qualité des données ?
- Comment traduire ces attentes en mesures quantifiables de la qualité des données ?
- Comment mettre en œuvre des mesures automatiques de la qualité pour chaque pipeline ?
- Comment définir des seuils pour chaque dimension de la qualité des données ?
- Comment alerter votre équipe lorsque les données ne respectent pas ces seuils ?
- Que fera votre équipe lorsqu’elle recevra une alerte ?
- Comment évaluera-t-elle la validité et l’urgence de l’alerte ?
- En cas de problème, comment identifiera-t-elle la ou les causes immédiates ?
- Comment identifiera-t-elle la ou les causes racines ?
- Comment informera-t-elle les consommateurs de la situation ?
- Comment traitera-t-elle la cause racine ?
- Comment vérifiera-t-elle qu’elle y a remédié ?
- Comment documenter ce qui s’est passé pour renforcer les connaissances ?
Cette liste vous semble longue et difficile à aborder ? Ne vous inquiétez pas, vous pouvez déléguer.
La première question relève plutôt de la compétence de l’analyste commercial de votre équipe. C’est à lui de parler aux unités commerciales pour décomposer les récits des utilisateurs, les préférences déclarées et implicites, les demandes et les analyses a posteriori des événements en une liste de « demandes » pour les données. Il s’agit des attentes qualitatives des consommateurs à l’égard des données ; c’est une conversation à double sens, car ils n’ont pas toujours les mots pour décrire exactement ce qu’ils veulent. (À moins que vos consommateurs de données ne soient vos data scientists, ce qui peut vraiment accélérer les choses.)
C’est à vous et à vos data scientists de répondre ensemble à la deuxième question (surtout s’ils sont aussi les consommateurs). Compte tenu des caractéristiques de vos données pour chaque pipeline, quels attributs pouvez-vous réellement mesurer pour décomposer la liste des attentes qualitatives en une liste de mesures quantitatives ?
Selon le modèle de qualité des données que vous suivez, il existe quatre ou cinq dimensions à prendre en compte. Chez IBM Databand, nous préférons un modèle à quatre caractéristiques :
- Conformité
- Précision : les données reflètent la réalité
- Intégrité : qualité/temps
- Traçabilité
- Source : le fournisseur répond-il à vos attentes ?
- Origine : d’où viennent-elles ?
- Gouvernance
- Contrôles des données
- Confidentialité des données
- Réglementation
- Sécurité
- Stabilité
- Cohérence
- Fiabilité
- Rapidité
- Biais
Avec ces indicateurs, les ingénieurs des données peuvent répondre aux questions 3 à 13 et commencer à élaborer une stratégie de gestion de la qualité des données. Avant d’aborder la manière de procéder, il faut se demander pourquoi tous ces efforts sont nécessaires.
Pourquoi un cadre de qualité des données est-il si important ?
Il y a quelques années, un changement de configuration anodin dans le système Microsoft Dynamics CRM d’un grand détaillant a fait que le stock affiché pour chaque article en ligne ne reflétait plus la réalité. Le compteur a tout simplement cessé d’être mis à jour.
Les clients continuaient à acheter, mais le volume ne changeait pas. Lorsque l’équipe d’ingénierie des données a été alertée, la situation avait empiré.
La plupart des articles pouvaient être achetés en ligne, mais également retirés en magasin. De nombreuses personnes ont choisi le retrait en magasin. Les commandes ont été traitées et des articles qui n’existaient pas ont été vendus. Les consommateurs se sont donc rendus en magasin, où les vendeurs cherchaient des produits de remplacement, promettaient des réductions ou essayaient de les apaiser d’une manière ou d’une autre. Des files d’attente se sont formées. Les clients des boutiques devaient attendre avant de pouvoir effectuer leurs achats et étaient gênés par le nombre de personnes qui brandissaient leur téléphone avec colère. Et comme il a fallu des jours pour identifier le problème et réparer le pipeline, il a fallu attendre quelques jours de plus pour régler la situation.
Si l’on tient compte de la perte de réputation de la marque, l’erreur a coûté des dizaines de millions et n’aurait pas dû se produire.
Tout cela pour dire que les problèmes de données sont complexes. Ils sont parfois difficiles à repérer et à résoudre, et passent inaperçus. On peut facilement tomber dans le piège de supposer que tout fonctionne, simplement parce que l’on obtient encore des informations, alors que la dette de données souterraines ne cesse de s’accroître.
En outre, les signes les plus évidents de problèmes de qualité des données sont souvent des indicateurs différés. Les consommateurs, par exemple, vous le disent. Ou, comme dans l’exemple précédent de la gestion de la relation client dans le commerce de détail, des milliers de responsables de magasins et de vice-présidents régionaux vous le disent. Cette situation est grave. Cela signifie que les données sont dans votre système depuis un certain temps et qu’il faudra des jours pour qu’une correction porte ses fruits. Les attentes des consommateurs ne sont pas satisfaites.
C’est la situation dans laquelle s’est trouvée la start-up de transport maritime Shipper, et la raison pour laquelle elle a investi si lourdement pour éviter que cela ne se produise. Son équipe d’ingénierie des données fournit des données aussi proches que possible du temps réel à une application qui aide les vendeurs de commerce électronique à livrer leurs stocks à un port d’embarquement. La société doit se préoccuper non seulement des attentes de ses consommateurs, mais aussi des consommateurs de ses consommateurs. Lorsque son système avait parfois deux jours de retard, cela créait des vagues successives d’attentes non satisfaites. C’est pourquoi elle a investi massivement dans la gestion de la qualité des données et dans des outils capables de l’alerter rapidement grâce à des contrôles automatiques.
La gestion de la qualité des données est un moyen de rendre les contrôles de qualité des données automatiques et omniprésents, afin de pouvoir faire face à l’entropie de vos jeux de données et de vos pipelines avec une force égale et opposée.
Élaborer votre cadre de qualité des données
Revenons à notre exemple précédent et à notre liste de questions. Vos analystes s’adressent à l’équipe commerciale pour recueillir les besoins, et vous recevez une liste d’attentes quantitatives des consommateurs de la part de vos data scientists. Comment créer le système ?
Vous définissez votre cadre de qualité des données. Ce cadre doit avant tout reconnaître que le système est un cycle et que tout ce que vous apprenez sur les attentes en constante évolution des consommateurs doit influencer le système.
Examinons chacune de ces étapes :
- Qualification : les analystes commerciaux décomposent les besoins des consommateurs en une liste d’exigences.
- Quantification : les data scientists décomposent les exigences en mesures quantifiables de la qualité des données, qui, à ce stade, ne sont encore que théoriques.
- Planification : les ingénieurs des données traduisent les mesures quantitatives de la qualité des données en vérifications qu’ils peuvent exécuter dans leur plateforme d’observabilité du pipeline de données. Une telle plateforme est essentielle. Les systèmes de planification des workflows et des pipelines comme Airflow et Spark peuvent détecter des problèmes au niveau d’un pipeline lui-même, mais pas au sein des données ; or, c’est là que la plupart des problèmes surviennent. Vos ingénieurs devront comprendre ce qui peut et ne peut pas être suivi dans votre système.
- Mise en œuvre : les ingénieurs des données mettent en œuvre le suivi et le testent. Prenons un exemple très simple : si les données doivent toutes être présentes et qu’il ne manque aucun champ ou aucune colonne, vous pouvez définir une alerte sur les paramètres d’exhaustivité des données. Une plateforme d’observabilité comme Databand rend cela possible, et peut vous permettre de mettre en place une détection des anomalies afin de ne pas avoir à définir chaque valeur manuellement.
- Gestion : les ingénieurs des données testent ces alertes par rapport aux données historiques du pipeline pour vérifier qu’elles fonctionnent bien comme prévu. Si c’est le cas, ils les mettent en production, accompagnées d’un plan de gestion des incidents indiquant qui est responsable lorsqu’une alerte se déclenche et ce que cette personne doit faire lorsqu’elle reçoit l’alerte.
- Vérification : les ingénieurs des données et les data scientists confirment que le cadre de gestion des données a permis d’améliorer de manière mesurable les performances en fonction des indicateurs souhaités. Les analystes commerciaux vérifient auprès des consommateurs que c’est bien le cas.
Que faites-vous ensuite de votre cadre ? Vous le mettez en pratique.
Un cadre de qualité des données efficace met fin aux surprises
Comme nous l’avons expliqué dans plusieurs de nos exemples, le pire indicateur d’un problème de qualité des données est un indicateur différé, par exemple celui d’un consommateur qui vous dit que quelque chose ne fonctionne pas. Une grande partie de notre travail d’ingénierie des données consiste à instaurer la confiance en même temps que les pipelines.
En investissant dans un cadre de gestion de la qualité des données qui aide votre équipe à identifier automatiquement les problèmes, vous produisez des données fiables. Et cela vous simplifie grandement la tâche.
Découvrez comment IBM Databand assure un meilleur contrôle de la qualité des données en détectant les changements de colonnes inattendus et les enregistrements nuls pour vous aider à respecter les accords de niveau de service en matière de données. Si vous êtes prêt à aller plus loin, réservez une démo dès aujourd’hui.