データインテリジェンスの使用例

データ・インテリジェンスで、データの品質とそこから生み出される洞察に自信を持ちましょう。 多くの企業は、データへのアクセスを提供することの利点と、機密データを保護する必要性とのバランスを取るのに苦労しています。 Cloud Pak for Data as a Service は、データ・インテリジェンスを自動化するために必要な手法を提供し、データへのアクセスと保護の両方を実現します。

データガバナンスは、 Cloud Pak for Data におけるデータインテリジェンスのユースケースの重要な部分である。 データガバナンスの典型的な使用例については、こちらのビデオをご覧ください。

このビデオでは、このドキュメントの概念とタスクを視覚的に学習する方法を提供しています。

チャレンジ

多くの企業は、以下のようなデータインテリジェンスの課題に直面している:

大規模なデータプライバシーの提供
組織は、複数のクラウドプラットフォームおよびオンプレミスのデータソース内のデータについて、データプライバシー規制を遵守しなければなりません。
高品質なデータにアクセスする
組織は、複数のチームにまたがる高品質な企業データへのアクセスを提供しなければなりません。
完全な顧客プロファイルの作成
チームは、セルフサービスプロセスとデータ管理を最適化するために、規模の大きい顧客の正確なビューを迅速に構築する必要があります。
データの移動状況の追跡
チームは、データの流れをマッピングすることで、正確性、信頼性、コンプライアンスを確保する必要があります。
セルフサービスによるデータ消費の提供
データサイエンティストなどのデータ消費者にとって、必要なデータを見つけ、利用することは困難です。

Cloud Pak for Data as a Service を使用してデータファブリックを導入することで、これらの課題を解決できます。

例:ゴールデンバンクの課題

ガバナンス・チームがデータ・インテリジェンス・ソリューションを導入するまでのゴールデン・バンクのストーリーを追う。 ゴールデン銀行には、機密データを含む大量の顧客および住宅ローンデータがあります。銀行はデータの品質を確保し、機密データをマスクし、複数の部署で利用できるようにしたいと考えています。

プロセス

データガバナンスをどのように導入するかは、組織のニーズによって異なります。 データガバナンスは、直線的または反復的な方法で実施することができます。 デフォルトの機能や定義済みのアーティファクトを利用することも、ソリューションをカスタマイズすることも可能です。

データガバナンスを実施するために、貴社では以下のプロセスに従うかもしれません

  1. ビジネス用語を構築する
  2. データを保護するためのルールを定義する
  3. データをキュレーションし、統合する
  4. カタログでデータを共有する

Cloud Pak for Data の IBM watsonx.data intelligence サービスは、データインテリジェンスソリューションの導入に必要なツールとプロセスを提供します。

データインテリジェンスのユースケースにおける資産流れを示す画像

1. ビジネス用語を習得する

この課題に対応するためには、データを分類し記述するためのメタデータとして機能するガバナンスアーティファクトをインポートまたは作成することで、ビジネス用語集を確立する必要があります

  • データのプライバシーを自動化する前に、管理対象のデータが正確に特定されていることをチームで確認する必要があります。
  • データの品質を分析する前に、データの形式を特定する必要があります。
  • データを簡単に検索できるようにするには、チームはデータのコンテンツが正確に記述されていることを確認する必要があります。

このプロセスの最初のステップでは、ガバナンスチームはあらかじめ定義されたガバナンス成果物を基盤として、貴社独自のカスタムガバナンス成果物を作成することができます。 データのフォーマット、ビジネス上の意味、機密性、値の範囲、ガバナンス方針を記述するアーティファクトを作成することができます。

使用できるもの できること 最適な使用のタイミング
カテゴリ ガバナンスアーティファクトを保存するには、あらかじめ定義されたカテゴリーを使用します。

フォルダと同様の階層構造でガバナンスアーティファクトを整理するには、カテゴリーを作成します。

カテゴリー内のアーティファクトに対する権限を定義する役割を持つコラボレーターを追加します。
あらかじめ設定されたカテゴリー以上のものが必要です。

ガバナンスの成果物を所有、作成、閲覧できる人をきめ細かく制御したい。
ワークフロー ガバナンスアーティファクトの作成者を制限したり、レビューが必要となるようなデフォルトのワークフロー構成は使用しない。

ガバナンスアーティファクトのワークフローを設定し、どのカテゴリーにどのタイプのガバナンスアーティファクトを作成できるかを指定する。
ガバナンス成果物の作成者を管理したい。

草案のガバナンス成果物が公開される前にレビューを受けたい。
ガバナンス成果物

データ資産充実、定義、管理するためのメタデータとして機能するガバナンス成果物作成する。


データの品質分析を改善したい資産
Knowledge Accelerators データ分類、規制順守、セルフサービス分析、その他のガバナンス業務を改善するために、定義済みのガバナンス成果物のセットをインポートします。 ビジネス上の問題、業績、業界標準、規制などを説明するのに標準的な用語集が必要です。

事前に作成されたガバナンス成果物をインポートすることで時間を節約したい。

例:ゴールデンバンクのビジネス用語集

ゴールデンバンクのガバナンスチームのリーダーは、まず 「バンキング」 というカテゴリーを作成し、チームが作成する予定のガバナンス成果物をそこに格納することから始めます。 チームリーダーは、ガバナンスチームの残りのメンバーを 「Editor」ロールで 「Banking」カテゴリーのコラボレーターとして追加し、ガバナンスアーティファクトを作成する権限を与える。 次に、チームリーダーは、各種類の成果物の作成を異なるチームメンバーが担当するようにワークフローを設定します。 すべてのワークフローでは、チームリーダーによる承認ステップが必要です。

ガバナンスチームのメンバーの1人が、スプレッドシートから一連のビジネス用語をインポートします。 ビジネス用語の一部は、個人顧客の職業に関連しています。 別のチームメンバーが、職業の一覧と各職業のID番号を含む参照データセット「職業」を作成します。 3人目のチームメンバーは、参照データセットに基づいて、個人顧客の職業を特定するためのカスタムデータクラス「Profession」を作成します。

2. データを保護するためのルールを定義する

次のステップでは、お客様のチームが、誰がどのデータを見ることができるかを制御することで、データプライバシー規制へのコンプライアンスを確保するためのルールを定義します。 あなたのチームは、ガバナンス対象カタログ内のデータの保護方法を定義するデータ保護ルールを作成します。 貴社のチームは、これらのデータ保護規則を使用して、データのコンテンツ、フォーマット、意味、またはデータにアクセスするユーザーの身元に基づいて、機密データをマスクすることができます。

使用できるもの できること 最適な使用のタイミング
データ保護ルール データへのアクセスを拒否したり、データ値をマスキングしたり、 データ資産内の行をフィルタリングしたりすることで、管理されたカタログ内の不正アクセスから機密情報を保護します。

ユーザーが定義した詳細なレベルで、管理されたカタログ内のデータを動的かつ一貫してマスクします。
管理されたカタログ全体で、データのプライバシーを自動的に強制する必要があります。

プライバシー規制を遵守しながら、データの可用性と利便性を維持したいと考えています。
マスキング・フロー 本番データのコピーまたはサブセットを抽出する場合は、高度なフォーマット保持データマスキング機能を使用してください。 データの整合性を維持した匿名化された訓練データとテストセットが必要です。
方針およびガバナンス規則 貴社のデータセキュリティに関するガイドライン、規則、基準、手順を説明し、文書化してください。

ガバナンスポリシーを実施するために必要な行動や措置を説明してください。
データを使用する人々にデータガバナンス方針を理解してもらいたい。

例:ゴールデンバンクのデータ保護規定

住宅ローン承認の予測モデルを作成するには、ゴールデンバンクのデータサイエンティストは機密データを含むデータセットへのアクセス権限が必要です。 例えば、データサイエンティストは、社会保障番号の列を含む、住宅ローン申請者に関するデータを含むテーブルにアクセスしたいとします。

ガバナンスチームのメンバーが、社会保障番号をマスクするデータ保護ルールを作成する。 データ資産内のカラムの割り当てられたデータクラスが「米国社会保障番号」の場合、そのカラムの値は10個のXに置き換えられます。

ガバナンスチームのメンバーが、データ保護ルールを含むポリシーを作成します。 ポリシーには、そのルールを導入するビジネス上の理由が記載されています。

3. カタログで共有するデータを編集する

データ管理者は、プロジェクトで高品質なデータ資産管理し、それらをカタログに公開することで、データが必要な人が見つけられるようにします。 データスチュワードは、データとそのデータを説明するメタデータを関連付けることでデータ資産強化します。

使用できるもの できること 最適な使用のタイミング
Metadata import 接続に関連付けられたデータの技術的メタデータを自動的にインポートし、 データ資産を作成します。 データ ソースから多くのデータ資産を作成する必要があります。

以前にインポートしたデータ資産を更新する必要があります。
メタデータのエンリッチメント 1 回の実行で複数のデータ資産をプロファイルし、データ クラスを自動的に割り当て、列のデータ型と形式を識別します。

資産にビジネス用語を自動的に割り当て、データ分類に基づいて用語の提案を生成します。

インポートとエンリッチメントのジョブを間隔をおいて再実行し、 データ資産資産の変更を発見し評価する。
インポートした多くのデータ資産をキュレーションし、公開する必要があります。
データ品質分析 データセットのデータ品質チェックを実行して、データの品質上の問題をスキャンします。
コンテンツとデータの構造の変更を継続的に追跡し、変更されたデータを繰り返し分析します。
データの品質がデータ分析やモデルの精度に影響を与える可能性があるかどうかを知っておく必要があります。

ユーザーは、修正が必要なデータセットを特定する必要があります。
データ・リネージュ データの発生源から利用までの流れを追跡、可視化、変換、最適化します。 データの流れをマッピングすることで、正確性、信頼性、コンプライアンスを確保する必要があります。
IBM Match 360 サービスとして サービス Match 360IBM としての構成ツールにより、データエンジニアは企業内の異なるシステムから顧客データを収集し、数千もの属性を手動でマッピングすることなく、自動生成されたカスタマイズ可能なデータモデルを閲覧できます。データがサービス Match 360IBM として

ロードされた後、データエンジニアはマッチングアルゴリズムを実行して、強化されたマスターデータエンティティを作成できます。
調整やトレーニングが可能なインテリジェントなマッチングアルゴリズムを使用して、信頼性の高い単一の統合データビューを確立したい。

例:ゴールデンバンクのデータキュレーション

ガバナンスチームのデータ管理者は、プロジェクトでデータ資産を作成するためにメタデータのインポートを開始します。 メタデータのインポート後、Golden Bankには「ID」という名前の列を持つテーブルを表す2つのデータ資産があります。 メタデータが強化された後、それらの列は割り当てられたメタデータによって明確に区別されます

  • 1つの列には「職業」と「専門職」というビジネス用語が割り当てられ、データクラス「専門職」が割り当てられています。
  • もう一方の列には、「個人識別子」と「個人」というビジネス用語と、「米国社会保障番号」というデータクラスが割り当てられています。

データ管理者は、 データ資産のデータ品質分析を行い、全体的なデータ品質スコアがゴールデンバンクの閾値である95%を上回っていることを確認します。

ガバナンスチームのリーダーは、「住宅ローン承認カタログ」というカタログを作成し、データスチュワードとデータサイエンティストをカタログの共同編集者に追加します。 データ管理者は、プロジェクトで作成したデータ資産をカタログに公開します。

4. データを共有したり、作業したりする

このカタログは、貴社のチームが貴社のデータを理解するのに役立ち、適切なデータを適切な用途で利用できるようにします。 データサイエンティストやその他のタイプのユーザーは、企業のアクセスおよびデータ保護ポリシーに準拠しながら、必要なデータを利用することができます。 彼らは、カタログからプロジェクトにデータ資産を追加し、そこで共同作業を行い、データの準備、分析、モデリングを行います。

使用できるもの できること 最適な使用のタイミング
カタログ 組織内の共同作業者間で共有できるように資産を整理します。

AI を活用したセマンティック検索と推奨を活用して、ユーザーが必要なものを見つけられるようにします。


データの可視性を高め、ビジネス・ユーザー間のコラボレーションを促進したい。

物理的な形式や場所を理解することなく、またデータを移動したりコピーしたりすることなく、データを表示、アクセス、操作、分析する必要がある。

資産評価およびレビューすることで、 資産強化したい。
グローバル検索 アクセスできるすべてのプロジェクト、カタログ、 デプロイメント・スペースにわたって資産を検索します。

アクセスできるカテゴリ全体でガバナンス成果物を検索します。
データやその他の資産、あるいはガバナンスの成果物を見つけ出す必要があります。
Data Product Hub データ製品を共有:データ作成者は、コミュニティ内のデータ消費者と共有するよう、精査されたデータ製品を公開することができます。また、データ消費者は、お客様のビジネスニーズに合わせたデータ製品に簡単にアクセスすることができます。 データが豊富な資産をパッケージ化し、製品化し、共有する必要があります。
Data Refinery データをクレンジングして、不正確、不完全、不適切なフォーマット、または重複しているデータを修正または削除します。

データをカスタマイズするために、フィルタリング、ソート、結合、またはカラムの削除などにより、データを整形します。
データの質や有用性を改善する必要があります。

例:ゴールデンバンクのカタログ

データサイエンティストは、必要なデータ資産カタログから探し出し、 資産プロジェクトにコピーします。 彼らのプロジェクトでは、データサイエンティストはデータを改良し、モデルのトレーニングに備えることができます。

データインテリジェンスのためのチュートリアル

チュートリアル 説明 チュートリアルの専門知識
高品質なデータをキュレーションする データを充実させ、データ品質分析を実行することで、高品質なデータ資産を作成します。 Metadata import とメタデータ強化ツールを実行します。
データの保護 Cloud Pak for Data as a Service 全体でデータへのアクセスを制御します。 データ保護ルールを作成します。
データを消費する データの検索、整形、分析。 カタログを調べて、 Data Refinery ツールを実行します。
仮想化されたデータを管理する 仮想化されたデータを強化し、仮想データが確実に保護されていることを確認します。 Data Virtualization インターフェース、プロジェクト、およびカタログを使用して、仮想化されたデータを管理します。
360 度ビューを構成する データをセットアップ、マッピング、モデリングして、顧客の統合ビューを作成します。 ドラッグ&ドロップ Match 360 インターフェースを使用して統合ビューを設定してください。

データインテリジェンスの詳細