データ品質とは、データ・セットが正確性、完全性、有効性、一貫性、固有性、適時性、および目的への適切性についての基準をどの程度満たしているかを表すものであり、組織内のあらゆるデータ・ガバナンス・イニシアティブにとって極めて重要です。 データ品質に関する基準により、企業はデータ主導の意思決定を行ってビジネス目標を達成できるようになります。 重複データ、欠落値、異常値などのデータの問題に適切に対処しないと、ビジネス成果に悪影響が生じるリスクが高まります。 Gartner社のレポートによると、データ品質の問題によって組織は年間で平均1,290万ドルの損失を被っています1。 その結果、データ品質の問題に伴う悪影響を緩和するためのデータ品質ツールが登場しています。
意図する用途のための基準を満たしたデータ品質であれば、データ利用者はそのデータを信頼して活用し、意思決定を改善し、新しいビジネス戦略の開発または既存の戦略の最適化につなげることができます。 ただし、基準が満たされていない場合は、データ品質ツールを利用して根本的なデータの問題を診断することで価値を生み出すことができます。 根本原因分析により、チームはデータ品質の問題を迅速かつ効果的に修正できるようになります。
データ品質が重要になるのは日常的な業務に限ったことではありません。人工知能(AI)や自動化テクノロジが企業のワークフローに統合されたら、これらのツールを効果的に導入するためにも、高品質のデータが極めて重要になります。 古い言い習わしのとおり、「ゴミを入れたら、ゴミが出てくる」のです。そしてこれは機械学習アルゴリズムにも当てはまります。 不適切なデータを使用して予測や分類を学習したアルゴリズムからは、不正確な結果が生成されるはずです。
データ品質、データ保全性、データ・プロファイリングはすべて相互に関連しています。 データ品質とは、組織がデータの正確性、完全性、有効性、一貫性、固有性、適時性、および目的への適切性を評価するために使用する大きなカテゴリーです。 データ保全性とは、これらの属性の一部のみに、具体的には正確性、一貫性、完全性に焦点を当てたものです。 また、これはデータ・セキュリティーという観点に比重を置いており、悪意のあるアクターによるデータ改ざんを防止するためにセーフガードを実装します。
一方、データ・プロファイリングは、組織内部のデータ品質基準を維持するためにデータを調査してクレンジングするプロセスに焦点を当てています。 これには、それらのプロセスをサポートするテクノロジーも含まれます。
データ品質はいくつかの次元に基づいて評価されます。情報源に応じて次元は異なる場合があります。 次のように、これらの次元によってデータ品質メトリックが分類されます。
これらのメトリックによって、チームは組織全体でデータ品質評価を実施して、特定の目的におけるデータの有益性および有用性を評価できます。
この10年の間に、ハイブリッドクラウド、人工知能、モノのインターネット(IoT)、エッジコンピューティング という分野の発展によってビッグデータが指数関数的に成長しました。 その結果、マスター・データ管理(MDM)の手法が複雑さを増したので、高いデータ品質を確保するためには、より多くのデータ・スチュワードと厳しいセーフガードが求められるようになっています。
ビジネス・インテリジェンス・ダッシュボードなどのデータ分析イニシアティブをサポートするために、企業はデータ品質管理に依存しています。 この管理を行わないと、壊滅的な結果を招く可能性があります。業種(医療など)によっては、倫理的な問題が発生する可能性さえあります。 企業がデータを最大限に活用して、次のような重要なメリットを得られるように、データ品質ソリューションが存在します。