C’est pourquoi toute organisation qui considère que les données sont importantes pour son fonctionnement, qu’il s’agisse de consommateurs internes ou externes, doit adopter une gestion de la qualité des données et mettre en œuvre un cadre de qualité en la matière. Il s’agit de développer des processus et des modèles reproductibles, idéalement automatiques, pour veiller à ce que les données qui entrent dans votre système et qui sont livrées en aval correspondent à vos attentes et à celles de vos consommateurs.
Comme tout ingénieur en données chevronné le sait, la compréhension de ces attentes représente la moitié du chemin à parcourir. Une grande partie de l’autre moitié consiste à traduire ces attentes en suivi et en alertes qui vous aideront à trouver et à résoudre les problèmes dans les processus d’ingestion complexes.
Dans ce guide, nous présentons des stratégies permettant de s’assurer que la gestion de la qualité des données n’est pas simplement superposée à vos processus existants codés en dur, mais qu’elle est intégrée à chaque DAG. Pour ce faire, vous devez détecter les anomalies bien avant que des données de mauvaise qualité ne pénètrent dans votre couche de transformation.