データ・カタログ

データ・カタログは、メタデータとデータ管理ツールを活用して組織内にデータ資産のインベントリーを作成し、ユーザーが迅速かつ容易に情報を見つけ、アクセスできるようにします。

黒と青の背景

データ・カタログ

データ・カタログは、組織内のすべてのデータ資産の詳細なインベントリーであり、データの専門家が分析やビジネスの目的に応じて最適なデータを素早く見つけるのに役立つよう設計されています。


データ・カタログとは

データ・カタログは、データを記述または要約するデータである メタデータを使用して、組織内のすべてのデータ資産の有益で検索可能なインベントリーを作成します。 これらの資産には、以下が含まれます(ただし、これらに限定されるわけではありません)。

  • 構造化(表形式)データ
  • 文書、Webページ、Eメール、ソーシャル・メディア・コンテンツ、モバイル・データ、画像、音声、動画などの非構造化データ
  • レポートとクエリ結果
  • データの可視化とダッシュボード
  • 機械学習モデル
  • データベース間の接続

このインベントリーにより、 データ市民(data citizen:企業データへのアクセス権を持つデータ・アナリスト、データサイエンティスト、データ・スチュワード、その他のデータの専門家)は組織で利用可能なすべてのデータ資産を検索し、分析またはビジネスの目的に応じて最適なデータを自由に見つけることができるようになります。

データ・カタログには通常、それぞれの資産の適切な特定、評価、使用を容易にするために各データ資産と関係付けられたメタデータを収集し、継続的に拡充する、つまり キュレートする機能が含まれています。 また、ユーザーが以下を実行できるようにするツールも用意されています。

  • カタログを検索する
  • ユーザーが特に検索しなかったが、潜在的に関連のあるデータの検出を自動化する
  • 業界または政府の規制に準拠してデータの使用を管理する

メタデータとは

上記の簡単な定義をもう少し詳細に説明すると、メタデータは、データ資産を記述し、資産の検索、評価、理解を容易にするために、資産に関する情報を提供するデータです。

メタデータの典型的な、つまり最も一般的な例には、図書館のカード目録やオンライン目録があります。  このような目録では、各カードまたはリストに、読者が出版物を検索または評価しやすくする、出版物に関する情報(タイトル、著者、テーマ、刊行日、版、図書館内での置き場所、大要)が含まれています。 この情報により、読者は、例えば その出版物は新しいか古いか、 自分が探している情報が含まれているか、 著者は自分が信頼できる人か、またその作品を自分が好きかどうかなどを判断できます。

メタデータには多くのクラスがありますが、データ・カタログは主に、 テクニカル・メタデータ、プロセス・メタデータ、  ビジネス・メタデータに対応します。

テクニカル・メタデータ


テクニカル・メタデータ
 ( 「構造メタデータ」とも呼ばれる)では、テーブル、列、行、索引、接続などのデータ・オブジェクトの構造を説明することにより、データがどのように編成され、どのようにユーザーに表示されるかが説明されます。 テクニカル・メタデータにより、データの専門家は、分析したり統合する際にそのデータをそのまま処理できるか、あるいは変換する必要があるかなどの、データの処理方法を確認できます。

プロセス・メタデータ


プロセス・メタデータ 
( 「管理メタデータ」とも呼ばれる)では、データ資産の作成状況と、いつ、どのように、誰がデータ資産にアクセスしたか、およびそのデータ資産を使用、更新、または変更したかが説明されます。 また、誰がデータにアクセスして使用する権限を持っているのかについても記述されている必要があります。

プロセス・メタデータは、資産の履歴と リネージュに関する情報を提供します。これは、資産が目の前のタスクに対して十分に最近のものであるか、信頼できるソースからのものであるか、信頼できる個人によって更新されているかなどをアナリストが判断するのに役立ちます。 プロセス・メタデータは、クエリのトラブルシューティングにも使用できます。 プロセス・メタデータは、使用しているソフトウェアや受けているサービスのレベルなど、ソフトウェアのユーザーや顧客に関する情報を得るためにマイニングされるようになってきています。

ビジネス・メタデータ


ビジネス・メタデータ 
( 「外部メタデータ」と呼ばれることもある)では、その資産の組織にとってのビジネス価値、特定の目的またはさまざまな目的への適合性、規制順守に関する情報など、データ資産のビジネスの側面が説明されます。 ビジネス・メタデータは、データの専門家と事業部門のユーザーがデータ資産について互いに分かり合える場です。

データ・カタログを使用すると、少なくとも、組織内のデータ資産に関連付けられているすべての既存のメタデータを簡単に検索(または収集)して整理できるようになります。 また、データの専門家が、タグ、関連付け、評価、注釈、ユーザーがデータをより速く見つけて自信を持って使用できるようにするその他の情報やコンテキストを使用して、そのメタデータをキュレートおよび拡充するためのツールが提供されます。


データ・カタログ・ツールを選択する際の考慮点

データ・カタログの作成には、ソフトウェアとデータ市民の時間と労力への多額の投資が必要です。ほとんどの組織は、このような投資を一度しかしたくないでしょう。 データ・カタログ・ソリューションを評価する際は、(上記のメタデータ管理機能に加えて)以下の機能を考慮します。

  • データ・ディスカバリーを含む優れたデータの「ショッピング」エクスペリエンス: データ・カタログの目的は、すべてのデータ市民が必要なデータを自分で使用できるようにすることです。 誰もが検索するメタデータに基づいて結果を素早く見つけ、他のユーザーによる評価やレビューに基づいて関連性のある推奨事項や警告を受け取ることができる、NetflixやAmazonなどの、人気のある商用オンライン・エクスペリエンスと同等の検索エクスペリエンスを提供できなければなりません。
  • 簡素化されたコンプライアンス: 人間の能力では、データのコンプライアンスを維持することはほとんど不可能です。この記事を書いている時点で、107カ国が個人データのプライバシーのみを保護するための規制を制定しています。 データ・カタログでは、データ資産をプロファイルし、特定の規制との関連性を推測し、将来の参照のためにそれらを自動的に分類してタグ付けすることにより、コンプライアンスを簡素化すべきです。 この場合、機械学習機能を活用することで作業を大幅に簡素化できます。
  • さまざまなデータソースへの接続: 企業全体のデータ資産インベントリーとして機能させるには、データ・カタログを企業内のすべての資産に接続する必要があります。 現在所有しているすべての種類の資産への接続と、今後の接続を構築するための取り組みを考慮します。 また、オンプレミス、 パブリッククラウド、プライベートクラウド、 ハイブリッドクラウド、 ハイブリッド・マルチクラウド 環境など、いずれにデータを保存しているのかにかかわらずデプロイ可能なカタログの導入を考慮します。
  • 信頼できるデータを保証する品質とガバナンスのサポート: データ・カタログは、データ品質ルール、ビジネス用語集、ワークフローなど、使用する品質やガバナンスのプログラムおよびツールとシームレスに統合できなければなりません。
  • 「説明可能なAI」のサポート: 使用されるデータだけでなく、さまざまな入力が意思決定と結果に与える影響を理解する必要があるため、人工知能(AI)モデルの管理が、データ・ガバナンスの一部になりつつあります。 選択したデータ・カタログがデータ資産のタグ付けやその他の準備をサポートして、AIモデルがデータの最適な使用と透明性を実現するのを確認します。

データ・カタログのメリット

データの専門家が、ITの介入なしに、専門家や同僚のアドバイスに頼る必要なく、知っている資産だけに限定することなく、ガバナンスやコンプライアンスについて心配することなしに必要なデータを使用できるようになると、組織全体に以下のようなメリットがもたらされます。

  • コンテキストの改善による、より深いデータの理解: アナリストは、他のデータ市民のコメントなどの、データの詳細な説明を見つけて、データがビジネスにどのように関連しているかをよりよく理解できます。
  • 運用効率の向上: データ・カタログは、ユーザーとITスタッフ間に最適な 分業を生み出して、データ市民がより迅速にデータにアクセスして分析し、ITスタッフがより長時間優先度の高いタスクにフォーカスできるようにします。
  • リスクの低減: アナリストは、業界やデータ・プライバシーの規制に準拠し、特定の目的での使用が許可されているデータを使用していることにより自信を持てます。 また、注釈やメタデータを素早く確認して、分析に影響を与える可能性のあるnullフィールドや誤った値を見つけることもできます。
  • データ管理イニシアチブでの大きな成功: データ・アナリストがデータを検索、アクセス、準備、信頼するのが難しくなると、ビジネス・インテリジェンス(BI)のイニシアチブやビッグデータのプロジェクトが成功する可能性は下がります。
  • より優れたデータと、より優れた、より迅速な分析が競争上の優位性を提供: データの専門家は、組織内のすべての最適なコンテキスト・データに基づいた分析と回答により、問題、課題、オポチュニティーに迅速に対応できます。

データ・カタログは、組織が特定の技術的およびビジネス上の課題や目標を達成するのにも役立ちます。 また、顧客の包括的な単一ビューを提供して、アナリストがクロスセリング、アップセル、ターゲットを絞ったプロモーションなどの新しいオポチュニティーを発見するのに貢献します。 さらに、ガバナンスを促進、簡素化、自動化して、データスワンプを防ぎ、公平性、説明責任、安全性、透明性に重点を置いてAIモデルを設計、展開、監視するためのポリシー・フレームワークを提供する データレイクのガバナンス を展開するのを支援します。


データ・カタログとIBM Cloud

IBM Watson Knowledge Catalog は、エンタープライズ・データとAIモデルのガバナンス、品質、コラボレーションのためのオープンでインテリジェントなデータ・カタログです。 データ市民がデータ資産、データセット、分析モデル、組織の他のメンバーとの関係を素早く発見、キュレート、分類、共有するのに役立ちます。

 IBM Cloud Pak for Dataを採用したWatson Knowledge Catalogは、データ・エンジニア、データ・スチュワード、データサイエンティスト、ビジネス・アナリストが、信頼できるデータへのセルフサービス・アクセスを実現するための信頼できる唯一の情報源として機能します。 また、データのガバナンス、データ品質、アクティブなポリシー管理を提供して、組織による機密データの保護および管理、データ・リネージュの追跡、データレイクの管理、AIジャーニーの準備を支援します。

IBM Cloudアカウントを作成して、 IBMのデータ・カタログ・ソリューション の詳細をご覧いただき、今すぐお試しください 。


関連ソリューション

Watson Knowledge Catalog

アクティブなメタデータとポリシー管理に裏打ちされたインテリジェントなカタログ化により、AIと分析向けにビジネス対応のデータをアクティブ化します。


IBM Cloud Pak for Data

クラウドを含む、あらゆる場所に保存されたあらゆる種類のデータをユーザーの役に立つように検出、カタログ化、拡充する方法を自動化します。 より多くの人がビジネス対応のデータにアクセスできるようにします。