公開日:2024年7月23日
寄稿者: Tim Mucci
データ・プロビナンスは、データがさまざまなプロセスや変換を経て移動する際にメタデータを収集することで、データの出自を詳述するデータの履歴記録です。データ・プロビナンスは主に真正性に関係しており、データの作成者や、変更履歴とその変更の責任者といった詳細情報を提供します。
データは決して謎めいたものであってはなりませんが、ビッグデータが増え続けると、たちまちそのようなものになる可能性があります。組織は、ビジネス上の利益だけでなく、従業員や顧客の利益も守るために、データの出所がどこなのか、パイプラインをどのように移動して変換されているかを把握する必要があります。
データを最大限に活用したい組織にとって、データの出自を把握するための方法を確立することは、真正性、信頼性、およびデータの完全性を確保するために不可欠です。来歴は、研究者やデータ・アナリストに透明性を提供するだけでなく、データを新しい目的に適応させる際に、スチュワードや科学者がデータの問題を追跡できるような一連の情報を提供します。この包括的な記録により、意思決定プロセスにおけるデータの正確性と信頼性が保証されます。リーダーがデータの真正性に自信を持っていれば、より多くの情報に基づいた効果的な意思決定を行うことができます。研究の透明性は、研究結果の再利用と再現性にとって不可欠であり、データの完全性を確保するための強固な基盤を構築します。
データ・プロビナンスとデータ・リネージュは密接に関連した概念ですが、目的は異なります。データ・リネージュは、データの流れと変化の様子に焦点を当てており、さまざまなシステム、プロセス、アプリケーションを通過するデータまたはデータ・セットの移動と変換を追跡します。
その一方、データ・プロビナンスは、データ・ソースから収集されたメタデータの記録であり、これまでのコンテキストと真正性を提供します。データ・リネージュはデータ・パイプラインの最適化とトラブルシューティングに役立ちますが、データ・プロビナンスはデータの検証と監査に役立ちます。
データ・プロビナンスは、さまざまなテクノロジーを使用して、データの信頼性を向上させます。これを行うには、データが作成されてから複数の変換を経て現在の状態に至るまでを追跡し、各データ資産のライフサイクルの詳細な履歴を維持する必要があります。データの依存関係により、データ・セット、変換、プロセス間の関係が強調され、データ・プロビナンスの全体像が把握できるようになると同時に、データ・パイプラインの一部の変更が他の部分に与える影響も明らかになります。データに不一致がある場合、依存関係は問題をその原因となった特定のプロセス、作成者、またはデータ・セットまで遡るのに役立ちます。
このプロセスでは、アルゴリズムが頻繁に使用され、さまざまなシステムを通過するデータ・フローを自動的に収集して文書化することで、手作業の労力を削減し、エラーを最小限に抑えます。また、データ処理を標準化し、データ変換の追跡をリアルタイムでできるようにすることで、一貫性と正確性を保証します。高度なアルゴリズムにより、異常や通常とは異なるパターンを検知して、データの完全性の問題やセキュリティー侵害の可能性を特定できます。組織はまた、アルゴリズムを使って来歴情報を分析して、非効率性を特定し、さらには規制要件の詳細かつ正確な記録を提供することでコンプライアンスをサポートします。
APIは、さまざまなシステム、ツール、データ・ソース間のシームレスな統合と通信を促進するために使用されます。これにより、さまざまなプラットフォームにまたがる来歴情報の自動収集、共有、更新が可能になり、来歴記録の正確性と完全性が向上します。
データ・プロビナンスは、社内でのデータの使用を管理するポリシー、基準、慣行を実施するために必要なコンテキストを提供します。CamFlow Project、オープンソースのKepler科学的ワークフロー・システム、Linux Provenance Modules、Open Provenance Modelなど、いくつかのツールがデータ・プロビナンスに対応しています。このようなツールに加え、データ・リネージュ、ガバナンス、管理および可観測性ツールにより、包括的で効率性の高いデータ・パイプラインが形成されます。
データ・プロビナンスは、さまざまな業界で実用化されており、データの信頼性を確立できるようにし、信頼できる正確なソースからのデータを、データ・チームが安心して使用できる手段を提供します。
データ品質の監視は、データ・プロビナンスの一般的な応用例です。これにより、組織はデータの不一致の原因を追跡し、データ品質の問題がいつ、どこで発生したかを特定できます。セキュリティー・インシデントが発生した場合、機密情報の来歴を把握することで、データ問題の根本原因を調査し、その経路を追跡し、さらには侵害やポリシー違反の可能性を特定することができます。
来歴情報を用いてデバッグを行うと、開発者やデータ・アナリストはデータの出自と変換を追跡し、問題を特定してエラーを効率的に修正することができます。データ・フローと依存関係に関するこの詳細な洞察により、データの正確性と信頼性が確保され、データ管理システム全体が強化されます。
製薬研究では、データ・プロビナンスにより、データの出自、変更、責任者を追跡することで、臨床試験で使用されたデータの完全性が確保されます。Eコマース企業は、データ・プロビナンスを利用して顧客データを管理し、信頼できるデータに基づいて助言を行うことでレコメンデーション・エンジンを改善しています。
医療や臨床研究におけるデータ・プロビナンスは、患者データなどの機密データの正確性と信頼性を確保するのに役立ちます。また、正確なデータ・プロビナンス記録は、HIPAAやGDPRなどの個人データ・プライバシー規制への準拠を維持するうえでも役立ちます。
データ・プロビナンスは、各製品の原産地、処理手順、認証のデジタル記録を作成することで、サプライチェーンの透明性を保証します。このような透明性により、製品の真正性と品質、法律や倫理的な調達慣行への準拠を検証することができます。データ・プロビナンスは、サイバーセキュリティーにおけるデータ・アクセスと操作の明確な監査証跡を確立し、組織が不正行為を特定して、セキュリティー・インシデントに迅速に対応できるよう支援します。
データ・プロビナンスを理解することは、データ・ポイントのソースやさまざまなシステム間における変更など、データ・ポイントの履歴をすべて統合する必要があるため、容易ではありません。来歴情報自体が安全かつ信頼できるものであることを確認することが重要です。さまざまなデータ・ソースの統合、来歴情報に対する標準形式の採用、機密メタデータの不正アクセスからの保護は、多くの組織にとって困難な課題となる可能性があります。
組織は、データ・プロビナンスを効果的に管理するため、来歴追跡など、データ管理に関するルールと基準を設定するデータ・ガバナンス・フレームワークを確立する必要があります。ブロックチェーンやデータ・リネージュ・ツール(DLT)といった追跡ツールを実装すると、追跡プロセスを自動化し、来歴メタデータ記録の精度を高めることができます。データ・スチュワードシップや教育の文化を育むことで、従業員はデータ・プロビナンスの重要性を理解し、正確な記録の管理に積極的に取り組むようになります。
測定可能な重要業績評価指標(KPI)と関連付けられた、データに基づく戦略的な取り組みを推進することは、データ・プロビナンスの実践を組織の日常業務や文化に根付かせるために不可欠です。綿密に練られた取り組みにより、継続的な改善と進化する規制への準拠が保証され、技術の進歩に対応できるようになります。
IBM® Manta Data Lineageは、組織全体におけるデータの流れを自動的に追跡することで、データ品質、ガバナンス、コンプライアンスの向上を支援します。このような可視化により、ユーザーはさまざまなシステム間でデータがどのように使用され、変換されるかを理解することができます。
IBM® Cloud Pak for Dataは、データ品質、プライバシー、コンプライアンスの向上に役立ちます。また、ユーザーがデータを簡単に検索して理解できるよう支援します。