IBM Institute for Business Valueの新しい調査によると、活気あるデータ環境を育成することは、企業の成長を加速させるのに役立ちます。しかし、組織は自社のデータが実際に活気にあふれ、成長を促進する準備が整っているかどうかを、どのように判断できるでしょうか。
データ品質のメトリクスを活用することで判断できます。
データ品質のメトリクスは、データの品質を評価するための定量的な尺度です。組織はデータ品質のメトリクスを活用して、データ品質を経時的に追跡・監視し、データ駆動型の意思決定や人工知能(AI)のユースケースに適した高品質なデータを特定するのに役立てることができます。
メトリクスは組織によって異なり、正確性、適時性、唯一性といった従来のデータ品質の次元を反映する場合もあれば、パイプラインの処理時間といった現代のデータ・パイプラインに特有の特性を反映する場合もあります。データ品質のメトリクスを通じて、データ品質の各次元を数値にマッピングすることができます。
オートメーションと機械学習を活用したデータ品質ツールは、データ・エンジニアがデータ品質のメトリクスを評価し、リアルタイムでデータ品質の問題を特定するのに役立ちます。これにより、組織とそのデータ・チームは、データセットやデータ・パイプラインの信頼性と確実性を最適化するために必要な対策を講じることができます。
高品質で信頼性の高いデータを維持することは、多くの現代の組織にとって目標であり、それには正当な理由があります。
良質なデータは、価値あるビジネス・インテリジェンス、業務効率、ワークフローの最適化、規制遵守、顧客満足度、企業の成長、そして主要業績評価メトリクス(KPI)の達成に貢献します。AIモデルが有用な出力を提供するためには信頼性が高く正確なデータでのトレーニングが必要なため、高いデータ品質は効果的なAIイニシアチブにとっても重要です。
しかし、このような成果を得るためには、組織は自社のデータが真に高品質であることを確実にしなければなりません。そこで重要な役割を果たすのが、データ品質のメトリクスです。データ品質のメトリクス、スコアなどの数値にデータ品質の各次元をマッピングすることで、データの品質を把握するのに役立ちます。1
データ品質の評価を通じて、組織は自社のデータがビジネス上の意思決定やAIモデルのトレーニングに活用できるかどうかを判断できます。データ品質の測定によって特定された低品質のデータは、多くの場合、データを修復することにより善できます。
データ品質のメトリクスで追跡される6つの従来の次元は次のとおりです。
データ品質の一般的な次元は、多くの場合、望ましい結果(正確なデータ・ポイント数、有効なデータ・エントリー数など)の数と全結果数の比率といった単純な比率で測定できます。2
例えば、データの完全性を計算する基本的な方法は次のとおりです。
完全性 = (完全なデータ要素の数)/(データ要素の総数)
また、不良データに焦点を当てた逆メトリクスを使用する方法もあります。
完全性 = 1 −[(欠損データ要素の数)/(データ要素の総数)]
次元を測定するためのその他の方法では、より複雑な計算が必要となります。
例えば、データの適時性を計算するための数式は、データの経過時間、配信時間(データが配信された時刻)、入力時間(データが受信された時刻)、および有効期間(データが有効である時間の長さ)といった変数に依存する場合があります。
従来のデータ品質の次元を表すデータメトリクスに加えて、データ・パイプラインを円滑に稼働させるのに役立つ、その他の重要なメトリクスもあります。例えば、以下のような例が挙げられます。
データ品質のメトリクスは、データ・ガバナンス、データ・オブザーバビリティー、データ品質管理といった主要なデータ・プロセスを支援します。
データ・ガバナンスは、データの収集、所有、保存、処理、利用に関するポリシー、品質基準、手順を定義・実装することで、データの完全性とデータ・セキュリティーを確保するためのデータ管理の専門分野です。データの一貫性や完全性といったデータ品質のメトリクスは、ガバナンスの取り組みで定められた基準の達成状況を組織が評価するのに役立ちます。
データ・オブザーバビリティーは、組織内のさまざまなプロセス、システム、パイプラインにおいて、データの品質、可用性、信頼性を確保するためにデータを監視・管理する取り組みです。データ・オブザーバビリティーの取り組みで追跡されるデータ品質のメトリクスには、データの鮮度、Null値、スキーマ変更などがあります。
データ品質管理(DQM)は、組織のデータ品質を向上・維持するための取り組みの総称です。DQMの中心的な取り組みの1つがデータ・プロファイリングであり、既存データの構造や内容を確認してその品質を評価し、修復を測定するための基準を設定します。データ品質は、データ品質の次元とメトリクスに基づいて評価されます。
プロファイリングによって明らかになったデータ品質の低さは、別のDQMの取り組みであるデータ・クレンジングによって対処できます。データ・クレンジングは、データ・クリーニングとも呼ばれ、生データセット内のエラーや不整合を修正することを指します。データ・クレンジングは、分析に使用できる形式へと生データを変換するデータ変換に向けた重要な第一歩です。
ソフトウェア・ソリューションは、データ品質のメトリクスに基づくパフォーマンスの追跡を含め、リアルタイムでのデータ品質を監視します。主要なソリューションには、次のような機能が含まれる場合があります。
組織のパイプラインとデータ資産を集約表示することで、データ・スタック全体にわたるデータ・インシデント管理が可能になります。
データ配送の欠落、スキーマ変更、異常に関連するデータ品質チェックやサービス・レベル契約(SLA)ルール違反を監視します。
Slack、PagerDuty、メールなどのツールやプラットフォームを通じて、データ・ステークホルダーにカスタマイズされた自動通知を配信します。
日々の書き込み・読み取り行や操作に関するグラフは、企業が重要な傾向や問題のあるパターンを特定するのに役立ちます。
エンドツーエンドのデータ・リネージュは、データ品質の問題によって影響を受ける依存データセットやパイプラインを示します。
IBMは、精度、完全性、一貫性といった重要な要素を最適化するデータ品質ソリューションを提供しています。
IBM Databandは、データ品質の不良問題を検出し、データ品質を向上させるためのリアルタイムなデータ品質監視機能を備えています。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
1, 2「A Survey of Data Quality Measurement and Monitoring Tools」、『Frontiers in Big Data』誌、2023年3月22日。