タグ

最も一般的な13のパイプライン・データの問題のリスト（例付き）

おそらく、データ・パイプラインの管理における最も困難な部分は、マシンの中のゴースト（いわばデータ・エクス・マキナ）を理解することです。

多くのパイプラインには個性のような特徴があります。彼らは気まぐれです。悪天候になるとなぜか不具合を起こします。彼らは常に間違ったアウトプットと、非常に一貫性のない時間を生成します。問題の中にはまったく解決できないように見えるものもあります。

これが、IBM® Databand® が存在する理由の大きな部分を占めています。つまり、データエンジニアがデータの問題を可視化できるようにすることです。誰もが「なぜランタイムエラーが発生したのか？」などの質問に対して、より迅速な回答を求めています。または「なぜジョブがキューの中でずっと止まっているのか？」といった質問に答えるのに役立ちます。多くの場合、誰にも分かりません。

しかし、オブザーバビリティープラットフォームを使用すれば、それが可能になります。やがて、徹底的な根本原因分析（RCA）を瞬時に実施できるようになりました。膨大なバックログに別のチケットを追加したり、後々面倒になるデータ負債を放置したりする必要がないのです。

このガイドでは、パイプラインを実行する際に発生する最も一般的なデータの問題と、その根本原因について説明します。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

データ問題の近接原因と根本原因

データ品質の問題をどのように修正しますか？まず、優れたデータエンジニアが他のエンジニアと異なるのは、データ問題の根本原因を突き止める能力であることを理解することから始まります。誰でもパイプラインをリセットし、迅速に作業を再開できます。問題の真相解明のため動く人はなかなかいませんが、それが必要なのです。

それは、近接原因に満足しているのか、根本原因に満足しているのかの違いです。近接原因とは、ランタイム・エラーなど、問題が発生したように見える事態のことです。根本原因は近接原因を引き起こしたものであり、それを特定するのはずっと難しいです。近接原因が根本原因であることもありますが、ほとんどありません。

近接原因はアラートと考えてください。パイプラインのどこかに根本エラーがあることを示しています。無視することは自分にとって危険です。なぜなら、そのデータ負債は複利的に積み重なっていくからです。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

一般的な近接原因（データ問題の一般的な例）

雨が降れば流れ出します。1つ問題が生じれば、実際には数多く問題が存在している傾向があります。以下は、近接データの問題が発生する一般的な可能性です。これらの問題は相互に排他的ではなく、またすべてを網羅しているわけではありません。

スケジュールが変更された
パイプラインがタイムアウトした
ジョブがキューで滞留している
予期せぬ変換があった
特定の実行が失敗した (おそらく開始直後に失敗している)
実行に異常に時間がかかった
システム全体に障害が発生した
変換エラーがあった
前夜に多くのジョブが失敗した
入力サイズが異常だった
出力サイズが異常だった
異常なランタイムが発生した
タスクが予期せず停止した
ランタイムエラーが発生した

でもそれだけではありません。これらは問題ではなく、シグナルであると理解してください。これらはすべて、さらに大きな問題が発生したことを示している可能性があります。多数が同時に登場します。
可観測性プラットフォームは、それらを分類するのに非常に役立ちます。同時発生する問題をグループ化して理解しやすくします。

また、集約するデータ品質の次元（適合性、リネージュ、ガバナンス、安定性など）に応じて、問題をグループ化することもできます。このようにしてデータの問題をグループ化すると、最も問題が生じている次元が表示され、孤立した問題のように見えるものをコンテキストの中に入れることができます。

もちろん、ジョブが失敗するまで待つ必要はありません。Databandをお使いの場合は、異常をさかのぼって調査できるため（過去のメタデータをすべて取得できます）、何が原因で、何が相関しているのかを明確に把握できます。

そうすることで、数十個のエラーの中から停止しているタスクなどの問題を選択し、多くの問題を検証して、根本原因がクラスター・プロビジョニングの失敗である可能性が高いと考えられます。この考え方が重要です。常にデータの問題の根本原因を探すようにしてください。

最も一般的な15の根本原因

根本原因こそが最終到達地点です。これらは、因果関係の起点のイベント（いわば最初のドミノ）であり、ほとんどの問題がこれで説明できます。データ問題の根本原因が発生しないなら、近接原因も発生しません。根本原因は近接原因すべての直接原因です。

もちろん、根本原因は常に明確ではなく、相関関係も常に厳密ではありません。自分の答えに自信が持てない場合に、確率論的な方法で真の自信スコアを確認する方法は、次のような思考実験をしてみることです。上司から次のように言われたと想像します。「チームは君の仮説に従って動く。実稼働前のチェックは誰もしない。すべては君が仕切る。間違いがあれば、すべて君の責任となる」信頼スコアを0～100で表すとどのくらいですか？70未満の場合は、調査を続けてください。

一般的な根本原因データの問題には、次のようなものがあります。

1. ユーザーエラー: まず、ユーザーエラーから始めましょう。こうしたエラーは一般的なものだからです。おそらく誰かが間違ったスキーマや間違った値を入力したために、パイプラインがデータを読み取らなかったか、あるいは処理は正しくても値が誤っていることを意味し、タスクが失敗している可能性があります。

2. 不適切にラベル付けされたデータ： テーブル上で行が移動し、正しいはずのラベルが間違った列に適用されることがあります。

3. データ・パートナーが配信に失敗する： これも非常に一般的なことです。完全なシステムを構築することはできますが、見えないものを制御することはできません。データの問題がソースデータにある場合、完全に良いパイプラインでも誤動作を引き起こすことになります。

4. コードにバグがある： 新しいバージョンのパイプラインがある場合によくあることです。これは、GitやGitLabなどのバージョン管理ソフトウェアを使用するとすぐに理解できます。実働コードを以前のバージョンと比較し、その以前のバージョンでテストを実行します。

5. OCRデータエラー： 光学スキャナーがデータを間違って読み取り、異常な値（または値の欠落）が発生します。

6. 旧式のデータの問題： データ・セットが古くなり、有効期限が切れています。

7. 重複データの問題： ベンダーがデータを提供できないことがよくあるため、パイプラインが先週のデータに対して処理を実行しました。

8. 権限の問題: システムにデータを取得したり、トランスフォーメーションを実行したりするための権限が不足していたため、パイプラインが失敗しました。

9. インフラストラクチャー・エラー： おそらく、使用可能なメモリーまたはAPI呼び出し制限の最大限度に達したか、Apache Sparkクラスターが実行されなかったか、あるいはデータウェアハウスの速度が異常に遅いため、データなしで処理の実行が続いています。

10. スケジュールの変更： 誰か（または何か）のためにスケジュールが変更された結果、パイプラインが予定通りに実行されない、または実行自体がされないことがあります。

11. 偏りのあるデータ・セット: 選別が非常に困難です。これを確定する方法は、いくつかのテストを実行して、データが同様の真のデータ・セットと比較して異常であるかどうかを確認するか、そのデータがどのように収集または生成されたかを把握すること以外にはありません。

12. オーケストレーターの障害：パイプライン・スケジューラーがジョブのスケジュールまたは実行に失敗しました。

13. マシンの中のゴースト（データ・エクス・マキナ）： 本当に知ることができません。その事実を認めるのは困難ですが、いくつかのことについては真実です。最善の策は、文書化して、より多くのデータを収集し、相関関係を導き出すことができるように次の段階に備えることです。

そしてもちろん、根本原因が完全に明確ではないという現実もあります。多くの事柄は相関関係にあり、おそらく相互に依存していますが、明確な答えは存在しません。また、変更を加えた後、データの問題は解決しましたが、その理由はわかりません。

そのような場合は、他の場合と同様に、ログに仮説をメモします。いつでもログに戻り、履歴データのテストを続け、そして新しい問題や説明可能な原因に注意してください。

データの問題を減らすために実践する

アマチュアのデータエンジニアと専門家を最も分ける特徴は、根本原因を突き止める能力と、曖昧な答えにも慣れていることです。近接原因が根本原因になることもありますが、必ずしもそうとは限りません。根本原因は特定の近接原因と相関することもありますが、必ずしもそうとは限りません。データ・バイアスとヒューマン・エラーの区別が不明な場合もあります。

優れたデータ・エンジニアは、パイプラインが不安定であり、時には個性的であることを知っています。しかし、彼らはそれらの変化に敏感で、それを測定するツールを持っており、より信頼できる説明を常に探し求めています。

IBM Databandのデータ・パイプラインの監視機能は、ジョブや実行の失敗などのデータ・インシデントを迅速に検出し、パイプラインの拡張に対応します。さらなる詳細については、今すぐデモを予約してください。