Airflow 能干耐用，却像戴着眼罩一样，只能专注于既定路径。如果数据出现问题，Airflow 并不会纠正数据，只能调整管道。几乎每位用户都遇到过这样的情况：Airflow 显示任务已完成，但检查数据时发现缺少某列或数据根本未流经系统。

当数据组织成熟，DAG 数量从十个增加到数千个时，这种情况尤为明显。此时，您很可能用 DAG 从外部数据源和 API 采集数据，使得在 Airflow 中控制数据质量变得更加困难。您无法在源数据处“清理”数据或执行治理策略。

虽然可以通过 Slack 警报手动检查每次运行，但若要让 Airflow 成为数据工程团队的有效工具并满足 SLA，自动化质量检查是必需的。为此，您不仅需要知道任务是否执行，还要了解其执行是否正确。若执行不正确，需要追溯原因及错误来源。否则，您将不断重复同样的问题，如同“土拨鼠日”。

这并非易事，说实话，这也是 IBM® Databand® 诞生的原因。大多数产品可观测性工具（如 Datadog 和 New Relic）并非为管道分析而设计，无法追踪问题来源、将共现问题分组以确定根因，或提出修复方案。

即便在 Airflow 社区内部，对可观测性的需求仍未被充分理解。目前，只有 32% 的用户表示已实施数据质量度量，但调查提出此问题显示情况已有所改善。2019 年和 2020 年的调查中未曾涉及此问题。

在 Airflow 中应如何监控数据质量？实际上，Airflow 只能帮您完成一半工作。其维护者指出，“当工作流以代码定义时，它们更易维护、版本管理、测试及协作。”

Airflow 提供了这种正式的代码表示形式。您需要专为监控数据管道设计的可观测性工具。用于监控产品的工具只能算是权宜之计，但由于已有许可，通常仍会被使用。

我们发现，工程组织在实现完整可观测性成熟度的过程中，通常会经历几个阶段：