ホーム

Topics

データ・リネージュ

データ・リネージュとは
IBMのデータ・リネージュ・ソリューションの詳細はこちら AI関連の最新情報の購読を申し込む
以下の雲、円グラフ、グラフのピクトグラムのコラージュを使用したイラスト
データ・リネージュとは

データ・リネージュとは、時間の経過に伴うデータの流れを追跡するプロセスであり、データがどこから発生し、どのように変更されたか、データ・パイプライン内での最終的な保管先を明確に把握できるようにします。

データ・リネージュ・ツールは、ソース情報や、ETLまたはELTプロセス中に適用されたデータ変換など、ライフサイクル全体にわたるデータを記録します。

このタイプの文書化により、ユーザーはデータの流れに沿ったさまざまなタッチポイントを観察および追跡することができ、組織は正確性と一貫性を検証できます。これは、組織内のデータ品質を確保するための重要な機能です。一般に、過去のプロセスに関するコンテキストを取得したり、エラーを根本原因まで追跡したりするためにも使用されます。

 

データ・リーダー向けのガイド

アプリケーション、分析、生成AIのために適切なデータベースを活用する方法について説明します。

関連コンテンツ AIデータ・ストアに関する電子ブックに登録する
データ・リネージュ、データ出所、データ・ガバナンスの違い

 データ・リネージュ、データ来歴、データ・ガバナンスは密接に関連した用語であり、相互に重なり合っています。これらを組み合わせることで、組織は長期にわたるデータの品質とセキュリティーを維持できるようになります。

データ・ガバナンスは、データ・ライフサイクル全体にわたってデータ所有者、ビジネス条件、ルール、ポリシー、プロセスを定義することにより、組織内にデータ資産を管理するための構造を作成します。 データ・リネージュ・ソリューションは、データ・ガバナンス・チームがデータがこれらの基準に準拠していることを保証し、パイプライン内でデータがどのように変更されるかを可視化するのに役立ちます。データの来歴は通常、 データ・リネージュのコンテキストで使用されますが、具体的にはそのデータまたはそのソースの最初のインスタンスを指します。

 データ・リネージュは、非常に細かいレベルでデータの監査証跡を提供します。このタイプの詳細は、データ・エラーのデバッグに非常に役立ち、データ・エンジニアがより効果的にトラブルシューティングを行い、より迅速に解決策を特定できるようになります。データ・ガバナンスの範囲はデータ・リネージュやデータ来歴よりも広範囲ですが、データ管理におけるこの側面は組織の基準を実行する上で欠かせません。

企業がデータ・リネージュを使用する理由

営業から人事まで、ビジネスのあらゆる側面でより適切な意思決定とプロセス改善を推進するには、信頼できるデータが不可欠です。ただし、洞察の質はデータの品質によって決まるため、こうした情報は関係者がその正確性に確信を持てる場合にのみ価値があります。データ・リネージュにより、データ移行、システム更新、エラーなどの結果として発生する可能性のある変更を可視化し、ライフサイクル全体にわたってデータの整合性を確保します。

データ・リネージュは、さまざまなビジネス・アプリケーションやITアプリケーションにおけるエンタープライズ・データ間の関係を文書化します。これらの詳細には、次のものが含まれます。

  • データがどこで、(オンプレミス、データウェアハウス、データレイクなどの環境で)どのように保管されているか。
  • データがどのように使用されるか、またデータの更新、使用、変更の責任者は誰か。これには、機密データの特定のセグメントにアクセスすることを許可されているロールとアプリケーションも含まれます。例:個人情報(PII)
  • ビジネス・ユーザーおよびアプリケーションによって生成、アップロード、変更されたデータの追跡。例えば、顧客関係管理(CRM)システムへの連絡先の追加や、重複レコードの削除などのデータ変換がこれに該当します。
  • ネットワーク・ハードウェアやサーバーなど、組織のさまざまな部分から作成および統合されたデータ。
データ・リネージュの仕組み

メタデータにより、 データ・リネージュ・ツールのユーザーは、データがデータ・パイプライン内の移動を完全に把握できます。メタデータは「データに関するデータ」であり、これには、データ資産の種類、形式、構造、作成者、作成日、変更日、ファイル・サイズなど、さまざまな情報が含まれます。データ・リネージュ・ツールは、メタデータの全体像を提供し、ユーザーがデータがどれほど有用であるかを判断する際に役立ちます。

近年、ビッグデータの進化に伴い、データの保存方法や活用方法も進化しています。企業は意思決定とビジネス成果を促進するために、データサイエンスへの投資を増やしています。ただし、適切な分析を構築するには、データ検出とデータ・マッピングの演習にデータ・リネージュ・ツールとデータ・カタログを活用する必要があります。データ・リネージュ・ツールはメタデータを通じて時間の経過に伴うデータの進化を示しますが、データ・カタログは同じ情報を使用して、組織内のすべてのデータ資産の検索可能なインベントリーを作成します。これらを組み合わせることで、データ市民は特定の結果に対するさまざまなデータ要素の重要性を理解できるようになります。これは、機械学習アルゴリズムの開発の基礎となります。

データ・リネージュのユースケース

今日、企業ではリアルタイムの洞察に対するニーズが高まっていますが、それらを得られるか否かは、データとパイプライン全体にわたるその流れを理解できるかにかかっています。チームがエンドツーエンドのデータ・リネージュ・ツールを活用してワークフローを改善する方法には、次のようなものがあります。

データ・モデリング: 企業内のさまざまなデータ要素とそれに対応するリンクを視覚的に表現するには、それらをサポートする基盤となるデータ構造を定義する必要があります。データ・リネージュは、これらの関係をモデル化し、データ・エコシステム全体のさまざまな依存関係を示すのに役立ちます。データは時間の経過とともに進化するため、常に新しいデータ・ソースが出現し、新しいデータ統合を行う必要があります。その結果、企業がデータを管理するために使用する全体的なデータ・モデルも、変化する環境に適応する必要があります。データ・リネージュは、データ・モデル・ダイアグラムを通じてこれらの変化を正確に反映し、新しいまたは古い接続やテーブルを強調表示するのに役立ちます。これにより、アナリストやデータサイエンティストはデータ・セットをより深く理解できるため、価値のあるタイムリーな分析ができるようになります。

データ移行: データを新しいストレージ・システムに移動したり、新しいソフトウェアを導入したりする場合、組織はデータ移行を使用して、データの場所とライフサイクルを把握します。データ・リネージュは、このデータが組織内でどのように進行したかを示すため、チームがこれらのシステム移行やアップグレードを計画するのに役立ち、新しいストレージ環境への全体的な移行を迅速化します。また、データ・システムをクリーンアップして、古い無関係なデータをアーカイブまたは削除する機会もチームに提供します。これにより、データ・システムの全体的なパフォーマンスが向上し、管理する必要のあるデータの量が削減されます。

コンプライアンス: データ・リネージュは、監査、リスク管理の改善、およびデータ・ガバナンス・ポリシーと規制に従ってデータが保存および処理されることを保証するコンプライアンス・メカニズムを提供します。例えば、2016年には、欧州連合および欧州経済圏に暮らす人々の個人データを保護するためにGDPR法が制定され、個人が自分のデータをより細かく制御できるようになりました。米国では、カリフォルニア州などの各州がCalifornia Consumer Privacy Act(CCPA)などのポリシーを施行し、企業が消費者にデータの収集について通知することを義務付けました。この種の法律では、このデータの保存とセキュリティーが最優先事項となっており、データ・リネージュ・ツールがなければ、組織はコンプライアンス違反の問題に時間と費用のかかる作業に直面することになるでしょう。

影響分析: データ・リネージュ・ツールを使用すると、ダウンストリーム・レポートなどの特定のビジネス変更の影響を可視化できます。例えば、データ要素の名前が変更された場合、データ・リネージュを使用すると、リーダーは影響を受ける可能性のあるダッシュボードの数と、そのレポートにアクセスするユーザーの数を把握できます。また、データ・エラーの影響と組織全体への露出を評価するのにも役立ちます。データ・エラーはさまざまな理由で発生する可能性があり、特定のビジネス・インテリジェンス・レポートまたはデータ・ソースの信頼性が低下する可能性がありますが、データ・リネージュ・ツールを使用すると、チームがエラーをソースまで追跡して、データ処理の最適化と各チームへのコミュニケーションを実現できます。

IBMソリューション
IBM Cloud Pak for Data

データ・ファブリック・アーキテクチャーで構築されたプラットフォームを使用して、結果をより迅速に予測します。データの場所に関係なくデータを収集、編成、分析します。

IBM Cloud Pak for Data
IBM Knowledge Catalog

アクティブ・メタデータとポリシー管理によって裏付けられた、AIと分析向けのアクティブなビジネス対応データとインテリジェントなカタログ作成。

IBM Knowledge Catalog
次のステップ

オープンなデータレイクハウス・アーキテクチャー上に構築された、目的に合ったデータ・ストアであるIBM watsonx.dataを使用すれば、あらゆるデータのAIワークロードをどこにでも拡張できます。

watsonx.dataの詳細はこちら デモを予約