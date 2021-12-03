Airflowはブラインダーを備えた労働者です。データに問題が発生した場合に軌道修正することは何もせず、パイプラインのみに行います。ほぼすべてのユーザーが、あるバージョンの Airflow でジョブが完了したと告げられ、その後データをチェックしただけで、列が欠落していてすべてが間違っている、またはデータが実際にシステムを通過していないことがわかった経験があります。

これは特に、データの組織が成熟し、データ非巡回グラフィック（DAG）が10個から数千個に増えたときにはなおさら当てはまります。このような状況では、外部データソースやAPIからデータを取り込むためにDAGを使用している可能性が高く、Airflowでのデータ品質管理がさらに難しくなっています。ソース・データセットを「クリーンアップ」したり、ガバナンスポリシーをそこで実装したりすることはできません。

各実行を手動でチェックするための Slack アラートを作成することもできますが、Airflow をデータ・エンジニアリング組織の便利な要素として組み込み、 SLA を満たすためには、品質チェックを自動化したくなるものです。そのためには、ジョブが実行されたかどうかだけでなく、正しく実行されたかどうかも可視化する必要がありますまた、正しく実行されなかった場合には、その理由とエラーの発生場所の可視化も。それがなければ、同じことが繰り返される「グラウンドホッグ・デー」を体験することになります。

これは単純な課題ではありません。率直に言えば、IBM Databandが設立された理由はそこにあります。DatadogやNew Relicのようなほとんどの製品オブザーバビリティ・ツールは、パイプラインを分析するように構築されておらず、問題の発生場所を特定したり、共起問題をグループ化して根本原因を示したり、修正プログラムを提案したりすることができません。

しかし、Airflowコミュニティー内でも、オブザーバビリティーの必要性はまだ完全には理解されていません。現在、データ品質測定を実施したと答えた回答者はわずか32％ですが、この調査の作成者が質問しているという事実は改善の兆しでもあります。2019年と2020年の調査では、この質問をしていませんでした。

Airflow でデータ品質を監視するにはどうすればよいでしょうか?実際、Airflowはその半分まで達成してくれます。保守担当者が指摘するように、「ワークフローがコードとして定義されると、保守性、バージョン管理性、テスト性、共同作業性が向上します。」

Airflowは、コードの正式な表現を提供します。あなたが必要とするのは、データ・パイプラインを監視するために特別に構築されたオブザーバビリティー・ツールです。製品を監視するために構築されたものは中間的な対策ですが、すでにそれらのライセンスを持っているため、通常は観察可能性プロセスの一部となります。

エンジニアリング組織が完全な観察可能性、つまり成熟した状態に至るまでには、通過するいくつかの段階があることがわかりす。