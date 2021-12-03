Le flux d'air, c'est comme un cheval de bataille avec des œillères. Il ne sert à rien de corriger le cours si les choses tournent mal avec les données (uniquement avec le pipeline). Pratiquement tous les utilisateurs ont déjà vu une version d’Airflow leur indiquant qu’un travail a été terminé et vérifiant les données, pour découvrir qu’une colonne manquait et que tout est faux, ou qu’aucune donnée ne passe réellement dans les systèmes.

Cela est particulièrement vrai une fois que l'Entreprise des données mûrit et que l'on passe de 10 graphiques acycliques de données (DAG) à des milliers. Dans ce cas, vous utilisez probablement ces DAGs pour ingérer des données provenant de sources de données externes et d'APIs, ce qui rend le contrôle de la qualité des données dans Airflow encore plus difficile. Vous ne pouvez pas « nettoyer » le jeu de données source ni y mettre en œuvre vos politiques de gouvernance.

Bien que vous puissiez créer des alertes Slack pour vérifier chaque exécution manuellement, intégrer Airflow comme un élément utile de votre Entreprise d’ingénierie des données et atteindre vos SLA, vous voulez automatiser les contrôles de qualité. Et pour ce faire, vous devez savoir si un travail a été mené à bien, mais aussi s’il s’est déroulé correctement. et si le processus ne s’est pas déroulé correctement, pourquoi et d’où provient l’erreur. Sinon, vous vivrez sans fil.

Ce n'est pas un défi simple et, pour être franc, c'est la raison pour laquelle IBM® Databand® a été créé. La plupart des outils d'observabilité produit comme Datadog et New Relic n'ont pas été conçus pour analyser les pipelines et ne peuvent pas isoler où les problèmes ont pris naissance, regrouper les problèmes coexistant pour suggérer une cause racine, ou pour suggérer des correctifs.

Cependant, le besoin d'observabilité n'est pas encore totalement compris, même au sein de la communauté Airflow. Aujourd'hui, seuls 32 % disent avoir mis en place une mesure de la qualité des données, même si le fait que les rédacteurs de l'enquête posent la question est un signe d'amélioration. Ils n’ont pas posé cette question dans les enquêtes de 2019 ou 2020.

Comment contrôler la qualité des données dans Airflow ? En réalité, Airflow vous aide à y parvenir. Comme le soulignent ses responsables, « lorsque les flux de travail sont définis sous forme de code, ils deviennent plus faciles à gérer, à versionner, à tester et à collaborer. »

Airflow offre cette représentation formelle du code. Vous avez besoin d'un outil d'observabilité conçu spécifiquement pour surveiller les pipelines de données. Ceux qui sont conçus pour surveiller les produits sont à mi-chemin, mais font généralement partie du parcours, car ils disposent déjà de ces licences.

Nous constatons que les organisations d’ingénierie passent par plusieurs phases pour atteindre une maturité totale en matière d’observabilité :