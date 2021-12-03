Airflow ist wie ein Arbeitstier mit Scheuklappen. Es korrigiert seinen Kurs nicht, falls etwas mit den Daten schief geht, sondern nur mit der Pipeline. Praktisch jeder Benutzer hat schon einmal eine Version von Airflow erlebt, die ihn über einen erledigten Auftrag informiert, und beim Überprüfen der Daten festgestellt, dass eine Spalte fehlt und alles falsch ist oder tatsächlich gar keine Daten durch die Systeme geleitet wurden.

Dies gilt insbesondere dann, wenn die Datenorganisation ausgereift ist und man von 10 azyklischen Datengrafiken (DAGs) auf Tausende kommt. In dieser Situation verwenden Sie wahrscheinlich diese DAGs, um Daten aus externen Datenquellen und APIs aufzunehmen, was die Kontrolle der Datenqualität in Airflow noch schwieriger macht. Sie können den Quelldatensatz nicht „bereinigen“ oder Ihre Governance-Richtlinien dort implementieren.

Es ist zwar möglich, Slack-Benachrichtigungen zu erstellen, um jeden Durchlauf manuell zu überprüfen, Airflow als nützlichen Teil Ihres Unternehmens zu integrieren und Ihre SLAs zu erfüllen, aber Sie möchten Qualitätsprüfungen automatisieren. Und dafür brauchen Sie nicht nur einen Überblick darüber, ob ein Auftrag ausgeführt wurde, sondern auch, ob er korrekt ausgeführt wurde. Und wenn es nicht richtig lief, warum und woher der Fehler stammt. Andernfalls stoßen Sie jeden Tag aufs Neue auf dieselben Probleme.

Das ist keine einfache Herausforderung, und wenn wir ehrlich sind, ist das der Grund, warum IBM Databand gegründet wurde. Die meisten Tools zur Observability wie Datadog und New Relic wurden nicht für die Analyse von Pipelines entwickelt und können daher nicht feststellen, wo Probleme ihren Ursprung haben, gleichzeitig auftretende Probleme gruppieren, um eine Ursache zu ermitteln, oder Fixes vorschlagen.

Allerdings ist die Notwendigkeit der Observability auch innerhalb der Airflow-Community noch nicht vollständig geklärt. Heute geben nur 32 % an, dass sie eine Bewertung der Datenqualität umsetzen, obwohl die Tatsache, dass die Verfasser der Umfrage danach fragen, ein Hinweis auf eine Verbesserung ist. Diese Frage wurde in den Umfragen von 2019 oder 2020 nicht gestellt.

Wie überwacht man die Datenqualität in Airflow? Im Grunde gelangt man dank Airflow schon halb ans Ziel. Die Wartungszuständigen weisen darauf hin: „Wenn Workflows als Code definiert werden, werden sie besser wartbar, versionierbar, testbar und kollaborativer.“

Airflow bietet diese formale Darstellung von Code. Was Sie benötigen, ist ein Observability-Tool, das speziell für die Überwachung von Datenpipelines entwickelt wurde. Systeme, die zur Produktüberwachung entwickelt wurden, stellen eine Zwischenlösung dar, sind aber in der Regel Teil des Prozesses, da die entsprechenden Lizenzen bereits vorhanden sind.

Wir haben festgestellt, dass Unternehmen auf ihrem Weg zur vollständigen Observability-Reife mehrere Phasen durchlaufen: