データ・リネージュとは

データ・リネージュと、企業がビジネスの洞察を向上するためにどのようにデータ・リネージュを使用しているかを説明します。

共有デスクに座っている2人の従業員が、2人ともコンピューターの画面を見ている
データ・リネージュとは

データ・リネージュは、一定期間のデータの流れを追跡するプロセスで、データがどこから発生し、どのように変化したか、およびデータ・パイプライン内のデータの最終的な宛先を明確に把握できるようにします。 データ・リネージュ・ツールは、あらゆるETLまたはELTプロセス中に適用されるソース情報とデータ変換を含むデータ・ライフサイクル全体にわたってデータを記録します。 このタイプのドキュメンテーションにより、ユーザーは、データ・ジャーニーのさまざまなタッチポイントを監視し、追跡できるようになり、組織は正確性と一貫性を検証できます。 これは、組織内のデータ品質を保証するための重要な機能です。 一般的にヒストリカル・プロセスに関するコンテキストを取得したり、根本原因までさかのぼってエラーを追跡するのに使用されます。


データ・リネージュとデータ・プロビナンスとデータ・ガバナンスの比較

データ・リネージュ、データ・プロビナンス、データ・ガバナンスは密接に関連する用語で、互いに階層をなしています。 また、これらは、組織がデータ品質とデータ・セキュリティーを一定期間、維持できるよう保証します。

データ・ガバナンスは、データ・ライフサイクル全体にわたり、データ所有者、ビジネス用語、ルール、プロセスを定義することにより、組織内でデータ資産を管理するための構造を作成します。 データ・リネージュ・ソリューションは、データ・ガバナンス・チームが、データがこれらの標準に準拠していることを確認することを支援し、データがパイプライン内でどのように変化するかを可視化します。 データ・プロビナンスは通常、データ・リネージュのコンテキストで使用されますが、具体的にはそのデータ、またはデータ・ソースの最初のインスタンスを指します。

データ・リネージュは、非常にきめ細かいレベルでデータの監査証跡を提供します。このタイプの詳細は、あらゆるデータ・エラーのデバッグに非常に役立ち、データ・エンジニアがトラブルシューティングをより効果的に実行し、解決策をより迅速に特定できるようにします。 データ・ガバナンスの適用範囲は、データ・リネージュとデータ・プロビナンスよりも広いですが、データ管理機能のこの側面は、組織の標準を強化する上で重要です。


企業がデータ・リネージュを使用する理由

信頼性の高いデータ は、売上から人材まで、ビジネスのあらゆる面にわたって優れた意思決定とプロセスの改善を推進するために不可欠です。 ただし、この情報は、洞察がデータ品質と同じくらい優れていて、利害関係者がその正確性に自信を持っている場合にのみ価値があります。 データ・リネージュは、データの移行、システム更新、エラーなどの結果として起こる可能性のある変更を可視化し、データのライフサイクル全体を通してデータの保全性を保証します。

データ・リネージュは、さまざまな事業のエンタープライズ・データとITアプリケーションの関係を文書化します。 これらには、以下の詳細が含まれます。

  • データがどこにあり、データがどのように、オンプレミス、データウェアハウス、データレイクなどの環境に保存されているか。
  • データの使用方法と、データの更新、使用、変更の責任者。 これには、個人情報(PII)などの機密データの特定のセグメントへのアクセスを許可された役割やアプリケーションも含まれます。
  • ビジネス・ユーザーとアプリケーションによって生成され、アップロードされ、変更されたデータの追跡。 たとえば、これは、カスタマー・リレーションシップ・マネジメント(CRM)システムへの連絡先の追加、または重複レコードの削除のように、データ変換の場合もあります。
  • ネットワーク・ハードウェアやサーバーなどのように、組織のさまざまな部門で作成され、統合されたデータ。

データ・リネージュの仕組み

メタデータを使用すると、データ・リネージュ・ツールのユーザーは、データ・パイプラインにおけるデータの流れを完全に把握できるようになります。 メタデータは「データに関するデータ」であり、データの種類、形式、作成者、作成日、修正日、ファイル・サイズなどのデータ資産に関するさまざまな情報が含まれます。 データ・リネージュ・ツールは、データがユーザーにとって有用であるかをユーザーが判断するときに、ユーザーをガイドするためのメタデータの全体像を提供します。

近年、ビッグデータの進化に伴い、データを保管し活用する方法が進化しています。 企業は意思決定とビジネス成果を推進するために、データサイエンスにより多くの投資を行っています。 しかし、適切な形式の分析を構築するためには、企業はデータ・ディスカバリーとデータ・マッピングを行うためにデータ・リネージュ・ツールとデータ・カタログを利用する必要があります。 データ・リネージュ・ツールはメタデータを介して一定期間におけるデータの進化を示しますが、データ・カタログは同じ情報を使用して、組織のすべてのデータ資産が検索可能になるインベントリーを作成します。 また、データ利用者は与えられた成果に対するさまざまなデータ要素の重要性を理解できるようになり、あらゆる機械学習のアルゴリズムの発展の基盤となります。


データ・リネージュのお客様事例

今日の企業は、リアルタイムの洞察を得る必要性が高まっていますが、これらの調査結果は、データ・パイプライン全体にわたる、データとデータ・ジャーニーを把握することにかかっています。 チームがエンドツーエンドのデータ・リネージュ・ツールを活用してワークフローを改善する方法には以下があります。

データ・モデリング:企業内で、さまざまなデータ要素と対応するリンクを視覚的に表示するためには、それらをサポートする基礎となるデータ構造を定義する必要があります。 データ・リネージュは、これらの関係をモデル化するのに役立ち、データ・エコシステム全体のさまざまな依存関係を示します。  データは時間の経過とともに進化するため、新しいデータ統合を行う必要があるなど、常に新しいデータ・ソースが出現します。 その結果、企業がデータを管理するために使用するデータ・モデル全体も、環境の変化に適応させていく必要があります。 データ・リネージュは、データ・モデル・ダイアグラムを通して、一定期間におけるこれらの変更を正確に反映するのに役立ち、新旧の接続、または新旧のテーブルを強調表示します。 これにより、アナリストやデータ・サイエンティストは、データ・セットをよりよく理解できるため、貴重かつタイムリーな分析がに役立ちます。

データ・マイグレーション:データを新しいソフトウェア・システムに移行する場合、または新しいソフトウェアをオンボーディングする場合、組織はデータ・マイグレーションを利用して、データのロケーションとライフサイクルを把握します。 データ・リネージュは、このデータが組織を通じてどのように進行したかを示すものであるため、チームがこれらのシステム移行またはシステム更新を計画するサポートを行い、新しいストレージ環境への移行全体を促進します。 また、チームにデータ・システムをクリーン・アップする機会、および古いデータや無関係なデータをアーカイブ、または削除する機会を提供し、これによって、管理する必要があるデータの総量を減らすデータ・システムの全体的なパフォーマンスを向上できます。

コンプライアンス:データ・リネージュはコンプライアンス機構の監査を提供し、リスク管理を改善し、データがデータ・ガバナンスのポリシーと規制に沿って保存および処理されるように保証します。 例えば、2016年には、欧州連合と欧州経済領域内の人々の個人データを保護するためにGDPR法が策定され、自身の個人データをより細かく管理できるようになりました。 米国では、個々の州がカリフォルニア消費者プライバシー法(CCPA)などの政策を策定しており、これによって、企業はデータの収集について消費者に通知することが求められようになりました。 このタイプの規制により、このデータのストレージとセキュリティーは最優先事項になり、データ・リネージュ・ツールがなければ、組織は時間がかかりコストが高くつく不履行の問題に遭っているでしょう。

インパクト分析:データ・リネージュ・ツールは、あらゆるダウンストリームの報告書のような特定の事業の変化のインパクトを可視化できます。 たとえば、データ要素の名前が変更された場合、データ・リネージュは、どれだけのダッシュボードに影響が出て、その結果どれだけのユーザーがその報告書にアクセスするかをリーダーが把握することを支援します。 また、組織全体でのデータ・エラーとエクスポージャーのインパクトを評価するのにも役立ちます。 データ・エラーは無数の理由で発生する可能性があり、特定のビジネス・インテリジェンス・レポートまたはデータ・ソースの信頼性を損なう可能性がありますが、データ・リネージュ・ツールはチームがデータ・ソースまで追跡する支援を行い、データ処理の最適化と個々のチームとのコミュニケーションを可能にします。


IBMソリューション

IBM Cloud Pak for Data

データ・ファブリック・アーキテクチャーで構築されたプラットフォームを使用して迅速に結果を予測します。 所在場所を問わず、データを収集、編成、分析します。


IBM Watson Knowledge Catalog

積極的なメタデータとポリシーの管理に裏打ちされたインテリジェントなカタログ化により、AIと分析のためのビジネス対応データを活用できるようにします。



次のステップ

IBM Cloud Pak for Dataでは、マイクロサービス、主要なデータ、AIの機能を活用して、分散システム全体でデータのインテリジェントな統合を自動化し、企業にビジネス・パフォーマンスの全体像を提供します。 これにより、エンタープライズ・データの迅速な収集と編成、洞察の獲得が可能になり、企業は大規模な意思決定を行うことができるようになります。 また、データ管理チームは、IBMの優れたセキュリティー・フレームワークが確実に規制ポリシーを遵守し、コンプライアンス・リスクを削減することによって、自社のデータを安全に保護することを信じることもできます。 IBM Cloud Pak® for DataとIBM Streamsによって、複数の環境全体でデータ・リネージュを通してどのようにビジネス・データ・アーキテクチャーを把握し、管理できるのかについてご覧ください。