Il y a quelques années, un changement de configuration anodin dans le système Microsoft Dynamics CRM d’un grand détaillant a fait que le stock affiché pour chaque article en ligne ne reflétait plus la réalité. Le compteur a tout simplement cessé d’être mis à jour.

Les clients continuaient à acheter, mais le volume ne changeait pas. Lorsque l’équipe d’ingénierie des données a été alertée, la situation avait empiré.

La plupart des articles pouvaient être achetés en ligne, mais également retirés en magasin. De nombreuses personnes ont choisi le retrait en magasin. Les commandes ont été traitées et des articles qui n’existaient pas ont été vendus. Les consommateurs se sont donc rendus en magasin, où les vendeurs cherchaient des produits de remplacement, promettaient des réductions ou essayaient de les apaiser d’une manière ou d’une autre. Des files d’attente se sont formées. Les clients des boutiques devaient attendre avant de pouvoir effectuer leurs achats et étaient gênés par le nombre de personnes qui brandissaient leur téléphone avec colère. Et comme il a fallu des jours pour identifier le problème et réparer le pipeline, il a fallu attendre quelques jours de plus pour régler la situation.

Si l’on tient compte de la perte de réputation de la marque, l’erreur a coûté des dizaines de millions et n’aurait pas dû se produire.

Tout cela pour dire que les problèmes de données sont complexes. Ils sont parfois difficiles à repérer et à résoudre, et passent inaperçus. On peut facilement tomber dans le piège de supposer que tout fonctionne, simplement parce que l’on obtient encore des informations, alors que la dette de données souterraines ne cesse de s’accroître.

En outre, les signes les plus évidents de problèmes de qualité des données sont souvent des indicateurs différés. Les consommateurs, par exemple, vous le disent. Ou, comme dans l’exemple précédent de la gestion de la relation client dans le commerce de détail, des milliers de responsables de magasins et de vice-présidents régionaux vous le disent. Cette situation est grave. Cela signifie que les données sont dans votre système depuis un certain temps et qu’il faudra des jours pour qu’une correction porte ses fruits. Les attentes des consommateurs ne sont pas satisfaites.

C’est la situation dans laquelle s’est trouvée la start-up de transport maritime Shipper, et la raison pour laquelle elle a investi si lourdement pour éviter que cela ne se produise. Son équipe d’ingénierie des données fournit des données aussi proches que possible du temps réel à une application qui aide les vendeurs de commerce électronique à livrer leurs stocks à un port d’embarquement. La société doit se préoccuper non seulement des attentes de ses consommateurs, mais aussi des consommateurs de ses consommateurs. Lorsque son système avait parfois deux jours de retard, cela créait des vagues successives d’attentes non satisfaites. C’est pourquoi elle a investi massivement dans la gestion de la qualité des données et dans des outils capables de l’alerter rapidement grâce à des contrôles automatiques.

La gestion de la qualité des données est un moyen de rendre les contrôles de qualité des données automatiques et omniprésents, afin de pouvoir faire face à l’entropie de vos jeux de données et de vos pipelines avec une force égale et opposée.