データの信頼性は、データの完全性と正確性に関係しています。時間やソースにまたがって一貫性があり、エラーがないことの信頼性を表す指標です。
データの信頼性が高いほど、そのデータはより信用できるものになります。データの信用性は、学術研究やビジネス分析、公共政策のいずれにおいても、価値のある洞察を引き出し、十分な情報に基づいた意思決定を行うための強固な基盤になります。
不正確または信頼性に欠けるデータは、誤った結論、欠陥のあるモデル、そして不適切な意思決定を招くおそれがあります。そのため、最高データ責任者(CDO)を導入する企業が増えており、上場企業におけるその数は2019年から2012の間に倍増しました。1
不正なデータのリスクと正確なデータの競争上の優位性を考えると、データの信頼性への取り組みを優先すべきです。成功するためには、信頼性の評価と向上に関わるもの(主にデータ・オブザーバビリティーということになります)を理解し、改善に向けた明確な責任と目標を設定することが重要です。
エンドツーエンドのデータの可観測性を実装することで、データエンジニアチームは、品質の低いデータの問題が広がる前に問題を特定、トラブルシューティングおよび解決できます。これにより、データ・スタック全体にわたるデータの信頼性を確保できます。
データの信頼性を測定するには、次の3つのコア・ファクターを確認する必要があります。
データの有効性は、データが正しい方法で保存およびフォーマットされているかどうか、また、期待する測定対象を測定しているかどうかによって決まります。たとえば、現実世界の特定の現象に関する新しいデータを収集している場合、そのデータが有効なのは、その現象が正確に反映されており、外部要因の影響を受けていない場合に限られます。
データの完全性により、情報に欠落がないかどうかを特定します。データが有効であっても、情報に対するユーザーの理解に影響を与える可能性のある重要なフィールドが存在しない場合、そのデータは不完全である可能性があります。不完全なデータは、偏った分析や不正確な分析につながる可能性があります。
データの一意性により、データセット内の重複の有無を確認します。データの一意性は、不正確な過剰表現を避けるために重要です。
さらに一歩進めて、次のような要素を調査することもできます。
データの信頼性を測定することは、データセットに対する信頼を築き、潜在的な問題を早期に特定するために不可欠です。定期的かつ効果的なデータ・テストは、データチームが問題を迅速に特定して、問題の原因を特定し、修正するのに役立ちます。
モダン・データ・プラットフォームはテクノロジーだけでなく、DevOpsやDataOps、そしてアジャイル哲学にも支えられています。DevOpsとDataOpsの目的は全く異なりますが、双方ともプロジェクトの作業サイクルを加速させることを目的としたアジャイル哲学に似ています。
DevOpsは製品開発に重点を置いているのに対し、DataOpsはデータからビジネス価値を提供する分散データ・アーキテクチャー・システムの開発と保守に重点を置いています。
アジャイルは、スピードと効率を促進するソフトウェア開発の哲学ですが、「人間」の要素を排除しているものではありません。コミュニケーションを最大限に活用する方法として対面での対話を重視する一方で、エラーを最小限に抑える手段として自動化も重視しています。
データの信頼性と有効性は、データ品質の2つの異なる側面に対応します。
データ管理の文脈では、双方の質が、手元にあるデータの完全性と有用性を保証する上で重要な役割を果たします。
データの信頼性と有効性は関連していますが、互換性はありません。例えば、信頼性の高いデータ収集プロセス(一貫性のある再現可能な結果を返す)があっても、収集されたデータが検証されていない(必要なルールやフォーマットに適合していない)場合、最終結果は品質の低いデータになります。
また、完全に有効なデータ(フォーマットや整合性のルールをすべて満たしている)であっても、そのデータを収集するプロセスが信頼できない(測定や観測の度に異なる結果が得られる)場合も、そのデータの有用性や信頼性に疑問符が付きます。
データの信頼性を維持するには、あらゆる種類のデータを収集・処理するための一貫した方法を確立し、忠実に従う必要があります。データの有効性を確保するには、厳格なデータ検証プロトコルが必要です。これには、データ型チェック、範囲チェック、参照整合性チェックなどが含まれます。これらのプロトコルは、データの形式が適切であり、必要なすべてのルールに準拠していることを確認するのに役立ちます。
データ信頼性に関するイニシアチブには、次のような研究・データ分析の多くの領域における重要な問題と課題があります。
データの収集方法は、その信頼性に大きく影響する可能性があります。データの収集方法に欠陥や偏りがあった場合、データは信頼できないものになります。さらに、データの収集時点、データ入力中、データの処理または分析中に測定エラーが発生する可能性があります。
データの信頼性を高めるには、長期にわたって、またさまざまな文脈において、データの一貫性を保つ必要があります。データの収集に使用する測定技術、定義やシステムの変更により、一貫性のないデータが発生する可能性があります。
ヒューマン・エラーは、データの信頼性を損なう潜在的な原因です。間違ったデータ入力、一貫性のないデータ・コーディング、データの誤解など、さまざまな形で生じる可能性があります。
場合によっては、測定対象が時間とともに変化し、信頼性の問題を引き起こすことがあります。たとえば、消費者の行動を予測する機械学習モデルは、最初に作成した時点では信頼できるかもしれませんが、ベースとなる消費者の行動が変化すると、不正確になる可能性があります。
一貫性のないデータ・ガバナンスの実践やデータ・スチュワードシップの欠如は、データ品質と信頼性に対する説明責任の欠如につながる可能性があります。
データ・ソースが変更または更新されると(特に、データ形式や構造が変更されると)、データの信頼性が損なわれる可能性があります。さまざまなデータソースからのデータを統合すると、モダン・データ・プラットフォームでデータの信頼性に関する問題が発生する可能性があります。
データのレコードやエントリーが重複すると、結果が不正確になり、結果が歪んでしまう可能性があります。重複を特定して処理することは、データの信頼性を維持する上での課題です。
データの信頼性を確保することは、データ管理における健全性を担保するうえで、基本となります。データ・スタック全体にわたってデータの信頼性を維持および向上させるためのベスト・プラクティスをいくつかご紹介します。
データの可観測性とは、システム内のデータの健全性と状態を理解することです。これには、問題を説明するだけでなく、さまざまなアクティビティが含まれます。データの可観測性は、データの問題をほとんどリアルタイムに特定、トラブルシューティングおよび解決するのに役立ちます。
重要なのは、データの信頼性の核心である不良データの問題を事前に回避するには、データ可観測性が不可欠であることです。もう少し言及すると、データの可観測性には、モニタリング、アラート、トラッキング、比較、分析、ロギング、SLAのラッキング、データ系列などのアクティビティが含まれます。データの信頼性を含むエンドツーエンドのデータ品質を理解するためには、これらすべてが重要になります。
優れたデータの可観測性により、問題を早期に特定できるようになり、データの信頼性が向上します。これにより、データチーム全体がより迅速に対応し、影響の範囲を理解し、信頼性を回復できるようになります。
データ・オブザーバビリティーの実践とツールを導入することで、組織はデータの信頼性を強化し、データのライフサイクル全体を通してデータの正確性、一貫性、信頼性を確保できます。これは、高品質のデータがビジネス・インテリジェンス、データ駆動型の意思決定、ビジネスの成果に直接影響を与えるデータ駆動型の環境では、特に重要です。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
1『In data we trust』、PwC社、2022年4月28日