Apache Airflowの可観測性の統合
ドキュメントはこちら デモの予約
Apache Airflowプロセスの図

Apache Airflowの継続的な可観測性と監視を実現するため、IBM DatabandはAirflowをシームレスに統合

データの健全性は、タスクや実行の失敗よりも複雑です。Airflowのパイプラインは、完全で正確なデータを時間どおりに提供する必要があります。さらに重要なのは、データ品質に問題が発生した場合、下流の消費者に影響が及ぶ前にアラートを出すことです。

Airflow環境をIBM Databandと統合することで、継続的なAirflowの可観測性が実現します。Databandは、パイプラインのメタデータ、ログ、ステータスを集約することで、一貫して高品質なデータを供給するために必要な洞察を提供します。

ユースケース
Airflowクラスターの観測と監視

Databandは、Google Cloud Composer、Astronomer、Amazon MWAAなど、代表的なマネージドAirflowクラスターと統合されています。

データ・パイプラインのインシデントについて事前アラートを受信

メタデータの異常やデータの欠落を分析してアラートを通知し、パイプラインの障害、データ品質の問題、データ配信への影響の問題についての根本原因を追跡します。

パイプラインのメタデータを集約して継続的に追跡

すべてのAirflowインスタンスを俯瞰することで、Databandは、パイプラインの状況、実行時間、データ量、データ品質の測定基準を容易に追跡できます。

データ・パイプラインの健全性を向上

DAGやデータフロー、インフラストラクチャーのレベルを可視化して、パイプラインの信頼性を高めます。

仕組み

Databandは、Airflow DAGの健全性と信頼性を監視するための、さまざまな監視、アラート、分析機能を備えています。複数のAirflowインスタンスを監視できるようにすることで、会社全体のDAGの追跡システムを集約できます。

DatabandのAirflowコネクターと統合するは、次の簡単な3つの手順を踏む必要があります。

  1. Databandのdbnd-airflow-auto-tracking PythonパッケージをAirflowクラスターにインストールします。
  2. 新しいAirflow Syncerを構成して、お使いのDataband UIでAirflow Syncerを作成します。
ケイパビリティー

Databandの総合的な機能セットにより、Apache Airflowの可観測性を簡素化し、一元管理するのに役立ちます。

Data in Motion(流れているデータ)の可観測性

強力な予防アラート機能により、タスクの実行時間が長くなり納期遅延のリスクが生じているAirflowパイプラインを常に把握できます。さらに、データ量の異常を発見し、通常は気づかれないソースによるデータ・セット構造の変更など、データ品質の問題を可視化します。

根本原因分析

アラートによって、インシデントが発生した場所に直接アクセスできるため、表面から掘り下げ、エンジニアリングにおける平均解決時間を短縮できます。問題の根本原因を明らかにするために必要なものはすべて、パイプラインの入出力、エラーの追跡、ログ、データ・ソース、パラメーター、xcom、ユーザー・メトリックなど、単一の使いやすいダッシュボード上で確認できます。

360度の可視性

Databandの総合的なダッシュボードでは、Airflowの可観測性アクティビティーがすべて一カ所に集約されているため、リスクの高いAirflow DAGごとに重要な測定基準を簡単に強調表示できます。重要なデータ資産の可視化とグラフにより、パイプラインの測定基準が適切な範囲内にあるかどうかや、Airflowのスループットがスケジュールどおりに進んでいるかどうかを確認できます。

次のステップ

IBM Databand を使用してプロアクティブなデータ可観測性を今すぐ実装して、データの健全性の問題が発生したことをユーザーよりも前に知ることができます。

デモの予約
その他の参考情報 資料 ブログ デモ一覧 参考情報