データ品質とは?
データ品質の重要性について、また高品質で一貫性があり、意図した目的にとって適切なエンタープライズ・データを企業が確保する方法について説明します。
エンジニア2人のチームがサーバー室でIBM z16のコンピューターを操作している
データ品質とは?

 

データ品質とは、データ・セットが正確性、完全性、有効性、一貫性、固有性、適時性、および目的への適切性についての基準をどの程度満たしているかを表すものであり、組織内のあらゆるデータ・ガバナンス・イニシアティブにとって極めて重要です。 データ品質に関する基準により、企業はデータ主導の意思決定を行ってビジネス目標を達成できるようになります。 重複データ、欠落値、異常値などのデータの問題に適切に対処しないと、ビジネス成果に悪影響が生じるリスクが高まります。 Gartner社のレポートによると、データ品質の問題によって組織は年間で平均1,290万ドルの損失を被っています1。 その結果、データ品質の問題に伴う悪影響を緩和するためのデータ品質ツールが登場しています。

意図する用途のための基準を満たしたデータ品質であれば、データ利用者はそのデータを信頼して活用し、意思決定を改善し、新しいビジネス戦略の開発または既存の戦略の最適化につなげることができます。 ただし、基準が満たされていない場合は、データ品質ツールを利用して根本的なデータの問題を診断することで価値を生み出すことができます。 根本原因分析により、チームはデータ品質の問題を迅速かつ効果的に修正できるようになります。

データ品質が重要になるのは日常的な業務に限ったことではありません。人工知能(AI)や自動化テクノロジが企業のワークフローに統合されたら、これらのツールを効果的に導入するためにも、高品質のデータが極めて重要になります。 古い言い習わしのとおり、「ゴミを入れたら、ゴミが出てくる」のです。そしてこれは機械学習アルゴリズムにも当てはまります。 不適切なデータを使用して予測や分類を学習したアルゴリズムからは、不正確な結果が生成されるはずです。

データ品質、データ保全性、データ・プロファイリングの比較

データ品質、データ保全性、データ・プロファイリングはすべて相互に関連しています。 データ品質とは、組織がデータの正確性、完全性、有効性、一貫性、固有性、適時性、および目的への適切性を評価するために使用する大きなカテゴリーです。 データ保全性とは、これらの属性の一部のみに、具体的には正確性、一貫性、完全性に焦点を当てたものです。 また、これはデータ・セキュリティーという観点に比重を置いており、悪意のあるアクターによるデータ改ざんを防止するためにセーフガードを実装します。

一方、データ・プロファイリングは、組織内部のデータ品質基準を維持するためにデータを調査してクレンジングするプロセスに焦点を当てています。 これには、それらのプロセスをサポートするテクノロジーも含まれます。

データ品質の次元

データ品質はいくつかの次元に基づいて評価されます。情報源に応じて次元は異なる場合があります。 次のように、これらの次元によってデータ品質メトリックが分類されます。

  • 完全性:これは、使用可能なデータまたは完全なデータの量を表します。 欠落値の割合が高く、代表的なデータ・サンプルが表されていないデータは、バイアスのある分析や誤解を招く分析につながる可能性があります。
  • 固有性: これはデータ・セットに含まれている重複データの量です。 たとえば、顧客データを参照する場合は、顧客ごとに固有の顧客IDがあることを期待するはずです。
  •  有効性: この次元は、ビジネス・ルールに必要な形式と一致するデータの量を表します。 通常、形式には有効なメタデータ(データ型、範囲、パターンなど)が含まれます。
  • 適時性: この次元は、期待される時間以内にデータを準備できる能力を表します。 例えば、顧客は購入直後に注文番号を受け取ることを期待するので、このようなデータはリアルタイムで生成する必要があります。
  • 正確性: この次元は、合意された「信頼できるソース」に基づくデータ値の正確さを表すものです。 同じメトリックを報告するソースが複数存在する場合があるので、1次データ・ソースを指定することが重要です(他のデータ・ソースは1次データ・ソースの正確性を確認する目的で使用できます)。 たとえば、ツールを使用して、どのデータ・ソースにも同じ方向の傾向があることを確認すれば、データの正確性についての確信度を高めることができます。
  • 一貫性: この次元は、異なる2つのデータセットからのデータ・レコードを評価します。 前述のように、1つのメトリックの報告のために複数のソースを指定することができます。 さまざまなソースを使用して、データの傾向と挙動に一貫性があることを確認することにより、分析から得られた実用的なインサイトを組織は信頼できるようになります。 このロジックはデータ間の関係にも当てはまります。 たとえば、ある部門の従業員数が会社の全従業員数を超えてはいけません。
  • 目的への適切性:最後の目的への適切性とは、データ資産がビジネスのニーズを満たすことを確認するものです。 この次元は評価が難しい場合があります。新しく登場したデータセットの場合は特に難しくなる可能性があります。                                                                                                          

これらのメトリックによって、チームは組織全体でデータ品質評価を実施して、特定の目的におけるデータの有益性および有用性を評価できます。

データ品質が重要な理由

この10年の間に、ハイブリッドクラウド人工知能、モノのインターネット(IoT)、エッジコンピューティング という分野の発展によってビッグデータが指数関数的に成長しました。 その結果、マスター・データ管理(MDM)の手法が複雑さを増したので、高いデータ品質を確保するためには、より多くのデータ・スチュワードと厳しいセーフガードが求められるようになっています。

ビジネス・インテリジェンス・ダッシュボードなどのデータ分析イニシアティブをサポートするために、企業はデータ品質管理に依存しています。 この管理を行わないと、壊滅的な結果を招く可能性があります。業種(医療など)によっては、倫理的な問題が発生する可能性さえあります。 企業がデータを最大限に活用して、次のような重要なメリットを得られるように、データ品質ソリューションが存在します。

  • ビジネス上の意思決定の向上:高品質のデータは、組織が多様なプログラムの成果を評価するための主要業績評価指標(KPI)を見つけ出すことを可能にします。これにより、チームはより効果的なプログラムへと改善または成長させることができます。 データ品質を優先した組織が、競合他社に勝る競争力を獲得できることは疑う余地もありません。
  • ビジネス・プロセスの改善:優れたデータは、業務ワークフローに問題がある場所をチームが特定することも可能にします。 これは特にサプライ・チェーン業界に当てはまります。この業界は、該当在庫の確認と出荷後の貨物の場所の特定のためにリアルタイム・データに依存しています。
  • 顧客満足度の向上:品質の高いデータは、組織、特にマーケティング・チームとセールス・チームにターゲット購入者に関する驚くべき洞察を与えてくれます。 セールスとマーケティングのファネルに分散している多様なデータを統合できるので、より効果的に製品を販売できるようになります。 たとえば、購買層データとWebでの行動を組み合わせた情報に基づいて、組織はメッセージを作成したり、マーケティング予算を投資したり、既存顧客や潜在顧客にサービスを提供するためにセールス・チームにスタッフを配備したりできます。
IBMソリューション
IBM Cloud Pak® for Data

データ・ファブリック・アーキテクチャーで構築されたプラットフォームを使用して迅速に結果を予測します。 所在場所を問わず、データを収集、編成、分析します。

IBM Cloud Pak® for Data
IBM Watson Knowledge Catalog

積極的なメタデータとポリシーの管理に裏打ちされたインテリジェントなカタログ化により、AIと分析のためのビジネス対応データを活用できるようにします。

IBM Watson Knowledge Catalog
参考情報 データ・リーダー向けのデータのガバナンスとプライバシー

データのガバナンスとプライバシーの構成要素に関するIBMガイドを読む

データ品質プログラム入門

データ品質の問題に対処して組織がビジネス成果を向上できるようにする方法を学びます。

次のステップ

IBM Cloud Pak® for Dataは、マイクロサービスや、データとAIに関する一流の機能を利用して、分散システム全体のデータを自動でインテリジェントに統合できるので、企業はビジネス成果の全体像を把握できるようになります。 これにより、エンタープライズ・データの迅速な収集、編成、洞察獲得が促進されるので、企業は大規模な意思決定を行えるようになります。 また、データ管理チームは、IBMの強みであるセキュリティー・フレームワークによってデータのセキュリティーが維持されると同時に、規制ポリシーへの準拠が確保され、コンプライアンス・リスクが削減されることを信頼できます。 IBM Cloud Pak® for Dataが、複数の環境に分散しているビジネス・データの品質を理解および管理するのに役立つ理由をご覧ください。

IBM Cloud Pak® for Dataの詳細を見る