データ品質管理とは

女性がカウンターに座り、大型のコンピューター・モニターに表示されたグラフを見ている。

執筆者

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

データ品質管理とは

データ品質管理(DQM)は、組織のデータ品質を向上・維持するための取り組みの総称です。

 

データの世界的な生成が驚異的な速度で進む中、効果的なデータ品質管理は、ビジネスプロセスにおいて高額なエラーや非効率を引き起こす可能性のある低品質データを回避するのに役立ちます。信頼性の高いデータを手元に持つことで、企業は価値ある洞察を引き出し、より優れた意思決定を実現し、人工知能(AI)をビジネス運用に統合できます。

データ品質管理には、データ・プロファイリングデータ・クレンジング、データ検証、データ品質監視メタデータ管理などの実践が含まれます。データ品質管理を成功させることで、精度、完全性、一貫性、適時性、一意性、有効性といった品質の主要な側面向けに最適化されたデータセットが得られます。

ソフトウェア・ソリューションは、組織やデータ実践者がデータ品質の問題を解決し、高品質のデータ・パイプラインを作成するのに役立ちます。これらのツールは、データの品質分析、自動異常検知、リアルタイムのインシデントアラートなどの主要な機能を提供します。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

データ品質管理が重要な理由

データ品質管理の重要性を理解するには、それが欠如した場合に何が起こり得るかを考えてみる必要があります。企業がデータ駆動型の機能を率先して導入する中、データ品質が低いことによって、エラーや遅延、財務損失、評判の失墜など深刻な結果を招く可能性があります。組織が膨大で複雑なデータセットに取り組む「ビッグデータ」の時代において、こうしたリスクはさらに増大します。

以下の「低品質のデータ」のシナリオを想像してください:

  • 小売業者の顧客データ・テーブルには不正確な情報が多く含まれており、その結果、誤った方向性の非効率なマーケティング戦略が生じています。

  • また、臨床研究ではデータ形式にばらつきがあり、データ要素の比較が困難になり、疾病の進行やヘルスケアに関する研究を妨げています。

  • 厳しく規制された業界の企業がデータ品質の問題に悩まされ、GDPRサーベンス・オクスリー法(SOX法)といった政府の法律や規制に違反しています。

対照的に、高品質なデータビジネス・インテリジェンスの取り組みに貢献し、業務効率の向上、ワークフローの最適化、規制遵守、顧客満足度の向上、企業の成長を実現します。

人工知能の広範な導入により、高いデータ品質のメリットはさらに強化されています。アルゴリズムは効果的なモデルの性能を発揮するために高品質なデータを必要とし、良好なデータ品質によって、より正確で有用なAIモデルのアウトプットが可能になります。

実際、IBM Institute for Business Value の調査によると、内部および外部のステークホルダーから信頼される大量のデータを保有する企業は、AI機能においてほぼ2倍の投資収益率を実現しています。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

データ品質の6つの側面とは

効果的なデータ品質管理により、組織のデータが次の6つの主要なデータ品質要素を満たすことが保証されます。

  • 精度
  • 完全性
  • 一貫性
  • 適時性
  • 一意性
  • 妥当性
データ精度

正確なデータ(現実の事象や値を正しく表すデータ)を確保するには、データセット内のエラーや誤表現を特定し、修正することが求められます。

データの完全性

データの完全性は、データセットに必要なすべてのレコードが含まれ、欠落や欠損値がない状態で達成されます。

データ一貫性

データの一貫性は、データが組織全体で首尾一貫して標準化されており、異なるデータセット間のデータ・レコードが互換性を持つことを意味します。

データの適時性

データの適時性は、データの値がどれほど最新であるかを示す指標であり、組織が古い情報に基づいて意思決定することを防ぎます。

データの一意性

データの一意性とは、分析を歪める可能性のある冗長なデータや重複レコードが存在しない状態を指します。

データの妥当性

データの妥当性は、特定のデータ値が許容範囲内に収まっているか、指定されたデータ形式の標準を満たしているかなど、データがビジネス・ルールに準拠しているかどうかを示します。

これらはデータ実務者が使用する最も一般的なデータ品質要素の一部ですが、その他のデータ品質指標には、アクセシビリティー、関連性、簡潔な表現、適切なデータ量やボリュームなどがあります。1

データ品質管理を構成するプラクティス

データ・スチュワードやその他のデータ専門家の間で一般的かつ補完的なデータ品質管理の実践には、次のようなものがあります。

  • データプロファイリング
  • データ・クレンジング
  • データ検証
  • データ品質の監視
  • メタデータ管理

データ・プロファイリング

データを改善する前に、どこを改善する必要があるかを特定することが重要です。データ・プロファイリングは、既存データの構造や内容を確認し、その品質を評価するとともに、是正措置を測定するための基準を確立するプロセスです。

データ・プロファイリング中に実施される分析は、データ型に関する情報を提供し、異常を明らかにし、無効または不完全なデータ値を特定し、データセット間の関係を評価することができます。

データ・クレンジング

データ・クレンジングは、データ・クリーニングとも呼ばれ、未加工データセット内のエラーや不整合を修正することを指します。クリーンなデータを実現する方法には、標準化(フォーマットや構造を一貫させること)、外れ値の調整または削除、データ重複排除、欠損値への対応などがあります。

データ検証

データ・クレンジング手法の一部と見なされることもあるデータ検証は、データがクリーンで正確であり、使用可能な状態にするための特定のデータ品質ルールや要件(範囲制約や参照整合性制約など)を満たしていることを確認するプロセスです。

データ品質の監視

データ品質の確保は継続的に行う必要のあるプロセスです。スキーマの変更、データの陳腐化、重複レコードは、いずれも時間の経過とともにデータ完全性を損なう可能性があります。継続的なデータ・モニタリングは、組織のデータ品質基準や主要業績評価指標(KPI)を満たさなくなった既存のデータ資産を特定します。

メタデータ管理

メタデータ管理は、セキュリティーやガバナンスなど複数の機能を支援しますが、DQMの範囲に含まれることも多くあります。メタデータ管理の手法であるメタデータ・エンリッチメントなどを用いることで、メタデータにデータルール、データ定義、 データ・リネージュの情報を含めることができます。これは、データ品質の取り組みを含むデータ管理活動に情報を提供し、効率化するのに役立ちます。

データ品質管理と他のデータ処理の違い

データ品質管理、データ管理、マスター・データ管理、データ・ガバナンスは、それぞれ異なるものの、組織のデータ資産の価値を最適化するために相互に関連するプロセスです。

データ管理

データ管理には、データのライフサイクル全体にわたる監督と取り扱いの両方が必要です。データ管理戦略は、組織が多様なデータソースの活用に対応し、データ災害復旧の計画を立てるなど、さまざまな課題に対処するのに役立ちます。データ品質管理は、データ管理の一分野またはそのサブセットと見なすことができます。

マスター・データ管理

マスター・データ管理は、組織全体で重要なデータ(マスター・データ)を一貫して取り扱うための包括的なアプローチです。

マスター・データ管理を通じて、重要なデータは組織内のさまざまなアプリケーションやシステムで共有・活用され、データの断片化、サイロ化、重複、不正確さを低減します。これは、一部がデータ・クレンジングなどデータ品質管理にも組み込まれているプロセスや技術ツールの集合によって実現されます。

データ・ガバナンス

データ・ガバナンスは、データ収集、データ保管、所有権、処理、利用に関するポリシー、標準、手順を定義し、実装します。データ品質管理と同様に、データ・ガバナンスもデータ管理の一分野と見なすことができます。同時に、データの一貫した取り扱いに関するガバナンス・ポリシーなど、データ・ガバナンスのフレームワークによって確立された手順は、DQMの取り組みを支援できます。

データ品質管理ツール

データ品質管理ツールやソフトウェア・ソリューションは、手動でのDQM作業を大幅に削減できます。また、AIの普及はデータ品質管理の必要性を高める要因の一つですが、AI自体もより強力なDQMソリューションを実現します。例えば、機械学習はデータの異常検知を自動化するために活用できます。

データ品質管理ソリューションが提供するその他の機能には、次のようなものがあります。

  • あらかじめ定義されたデータ品質チェックとカスタマイズ可能なルール

  • データ品質分析を組み込んだデータ・カタログ

  • データインシデント管理のための包括的なダッシュボード

  • 異常やその他のデータ問題に関するリアルタイムアラート

  • インシデント解決のための根本原因分析

  • データ変換の透明性を確保するためのメタデータ・リネージュの追跡
脚注

Overview of Data Quality: Examining the Dimensions, Antecedents, and Impacts of Data Quality.」、『Journal of the Knowledge Economy』誌、2023年2月10日。