データパイプラインのオブザーバビリティーとは、データパイプラインの状態をいつでも監視し、理解する能力のことです。具体的には、オブザーバビリティーは、パイプラインの内部状態と、その状態がシステムのアウトプットとどのように相互作用するかについての洞察を提供します。
世界のデータ・パイプラインは データ・オブザーバビリティーを向上させる必要があるとIBMは考えていますしかし残念なことに、今日のデータ・エンジニアリングで発生する事象のうち、観察可能なものはほとんどありません。ほとんどのデータ・パイプラインは移動するために構築されていますが、監視は行われません。測定しますが、追跡しません。変換はしますが、伝えることはありません。結果は、悪名高いブラックボックスの事例です。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
何が入るか分かっているはずです。何が出てくるか分かっているはずです。しかし、その間に何が起こるのでしょうか?そして、なぜこの不一致が生じるのでしょうか?残念なことに、この謎を解決するために構築されたパイプラインはほとんどありません。その多くは、最良のシナリオ用に設計されていました。
しかし、現実ではマーフィーの法則がより厳密に管理されており、ブラックボックスのアウトプット側には、奇妙な値や不可解な欠落列が多数表示されることがよくあります。データ・エンジニアは頭を悩ませています。修正するにはまず観察しなければならないことに気づいています。
このガイドでは、次の点について説明します。
「オブザーバビリティー」はちょっとしたバズワードになっているので、以下のように定義するのが最善でしょう。つまり、データ・オブザーバビリティーとは、アプリケーションや、データ・パイプラインのようなシステムの中のデータのヘルスを監視し、改善するための包括的な用語です。
「データ監視」では、データ・パイプラインやデータの現在の状態を知ることができます。データが完全、正確、かつ新鮮であるかどうかを示します。パイプラインが成功したか失敗したかがわかります。データ・モニタリングは、物事がうまくいっているか、壊れているかを示すことはできますが、それ以外のコンテキストは多く得られません。
そのため、モニタリングはオブザーバビリティーの1つの機能にすぎません。「データ・オブザーバビリティー」は、以下を含む包括的な用語です。
1つのアクティビティー(監視)だけでなく、アクティビティーのバスケットを包含することで、オブザーバビリティーはエンジニアにとってはるかに有用になります。データ・オブザーバビリティーは、問題を説明するだけではありません。それを解決するのに役立つコンテキストと提案を提供します。
IBM Databandの共同創設者兼CTOであるEvgeny Shulman氏は、次のように説明します。「データ・オブザーバビリティーは、システム・メトリクスに詳細なコンテキストを追加し、システム・オペレーションのより深い評価を提供し、エンジニアが介入して修正プログラムを適用する必要があるかどうかを示すことであり、監視だけではありません」IBMを提供しています。「言い換えれば、モニタリングでは、あるマイクロサービスが一定量のリソースを消費していることがわかりますが、オブザーバビリティーでは、その現在の状態がクリティカルな障害に関連しており、介入が必要であるということがわかります」
データ・パイプラインでは、このような事前対応型のアプローチが特に重要です。
データパイプラインのオブザーバビリティーとは、データパイプラインの任意の時点、特に内部状態を、システムのアウトプットに基づいて監視し、理解する能力のことです。基本的な監視にとどまらず、パイプライン内でデータがどのように移動し、変換されているかをより深く理解することができ、多くの場合、メトリクス、ロギング、データ・パイプラインのトレースに関連付けられます。
データ・パイプラインには、多くの場合、データが収集、変換、保管される一連の段階が含まれます。これには、さまざまなソースからのデータ抽出、データ・クレンジング、データ変換(集計など)、データベースやデータ・ウェアハウスへのデータのロードなどのプロセスが含まれる場合があります。これらの各段階には、データ品質、信頼性、システム全体の性能に影響を与える可能性のある異なる動作や潜在的な問題が存在する可能性があります。
オブザーバビリティーは、データ・パイプラインの各段階がどのように機能するか、またその内部処理が特定のタイプのアウトプット、特に必要なレベルの性能、品質、精度を実現しないアウトプットとどのように相関するかについての洞察を提供します。これらの洞察により、データエンジニアリング・チームは何が問題だったのかを理解し、それを修正することができます。
データパイプラインのオブザーバビリティーが重要なのは、パイプラインが複雑なものから複雑なものになり、多数の同時システムから多数の相互依存システムへと依存するからです。
ソフトウェア・アプリケーションはデータ・パイプラインからメリットを受けるだけでなく、データ・パイプラインに依存している可能性がこれまで以上に高まっています。エンドユーザーも同様です。AWSのような大きなプロバイダーが停止し、世界中のアプリケーションのダッシュボードが瞬く間に消えてしまうとき、複雑さが危険な依存関係を生み出すという兆候を至る所で見られるようになります。
現在、分析業界は年平均成長率12%を達成しています。Gartnerによれば、2027年にはウクライナの経済規模に匹敵する1,050億ドルという驚異的な規模になるといいます。このペースで行くと、企業のデータ量は現在、 毎月62% 増加しています。このすべてのデータを保管し、分析している企業はどうでしょうか?彼らは、自社のビジネスをそれに賭けており、それを実行するデータ・パイプラインが機能し続けると信じています。
データ品質の問題やパイプラインの障害の主な原因は、パイプライン内のトランスフォーメーションにあります。今日のデータ・アーキテクチャーのほとんどは不透明で、内部で何が起こっているかを把握することができません。トランスフォーメーションは起こっているものの、期待どおりではない場合、データ・エンジニアはその理由について多くのコンテキストを持っていません。
あまりにも多くのDataOpsチームが、コンテキストのない問題の診断に時間をかけすぎています。そして、最初の直感に従い、アプリケーション・パフォーマンス管理(APM)ツールを使用してDataOpsパイプラインを監視しても、うまくいくことはほとんどありません。
「データ・パイプラインの振る舞いは、ソフトウェア・アプリケーションやインフラストラクチャーとは大きく異なるものです」とEvgeny氏は言います。「データ・エンジニアリング・チームは、高レベルのジョブ(またはDAG)ステータスやデータベースの性能のサマリーについての洞察を得ることができますが、パイプラインの管理に必要な適切なレベルの情報については可視性が欠けています。このギャップにより、多くのチームは問題の追跡に多くの時間を費やしたり、常に偏執的状態で作業したりしています。」
より大規模で専門性の高いデータチームを持つことは役に立ちますが、そのチームメンバーが連携しなければ問題になります。より多くの人々がデータにアクセスし、独自のパイプラインや独自のトランスフォーメーションを実行すると、エラーが発生し、データの安定性に影響を及ぼします。
今日、データの安定性と、そのデータがビジネス内外の消費者による使用に適しているかどうかを心配するエンジニアが増えています。そのため、データ・オブザーバビリティーに関心のあるチームが増えているのです。
データ・オブザーバビリティーは、データがどのように流れ、最初から最後まで処理されるかについての洞察を提供することで、データパイプラインと連携します。データ・パイプライン内でどのようにデータ・オブザーバビリティーが機能するかについて、さらに詳しく説明します。
データ・オブザーバビリティー・プラットフォームは、モニタリング・ツールだけでは得られない洞察を提供します。単に何が問題だったのかを伝えるだけでなく、それがどのような問題を引き起こしているのかを教え、それを修正するための手がかりや次善のアクションも提供します。現在のパイプラインの再構築や、いわば「飛行中にエンジンを変更する」ような必要もなく、継続的にこれを行います。
データ・パイプラインは複雑なシステムであり、継続的な調査を実施するデータ・オブザーバビリティー・アーキテクチャーが必要です。問題が発生した場所とその理由を把握できるように、エンドツーエンドの監視のためのオブザーバビリティー・プラットフォームが必要です。下流の依存関係を追跡する方法が必要です。修正によって根本的な問題が解決されたことを期待するのではなく、それを知ることが必要なのです。
データ・オブザーバビリティー・プラットフォームには以下を含める必要があります。
また、プラットフォームは多くの処方的なガイダンスも提供する必要があります。データ・オブザーバビリティーとデータ・エンジニアリングの分野は急速に変化しており、問題と同じ速さで進化するプラットフォームを見つけるための最良の方法の1つです。もはや監視だけでは不十分です。監視、追跡、警告、対応が必要です。
IBM Databandのデータ・パイプライン監視機能は、ジョブや実行の失敗などのデータ・インシデントを迅速に検知し、パイプラインの拡張に対応できるようにします。さらなる詳細については、 今すぐデモを予約してください。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。