データ・カタログは、組織内のすべてのデータ資産の詳細なインベントリーであり、データの専門家が分析やビジネスの目的に応じて最適なデータを素早く見つけるのに役立つよう設計されています。
IBM Watson Knowledge Catalog
IBM Cloud Pak for Data
データ・カタログは、データを記述または要約するデータである メタデータを使用して、組織内のすべてのデータ資産の有益で検索可能なインベントリーを作成します。 これらの資産には、以下が含まれます(ただし、これらに限定されるわけではありません)。
このインベントリーにより、 データ市民(data citizen:企業データへのアクセス権を持つデータ・アナリスト、データサイエンティスト、データ・スチュワード、その他のデータの専門家)は組織で利用可能なすべてのデータ資産を検索し、分析またはビジネスの目的に応じて最適なデータを自由に見つけることができるようになります。
データ・カタログには通常、それぞれの資産の適切な特定、評価、使用を容易にするために各データ資産と関係付けられたメタデータを収集し、継続的に拡充する、つまり キュレートする機能が含まれています。 また、ユーザーが以下を実行できるようにするツールも用意されています。
上記の簡単な定義をもう少し詳細に説明すると、メタデータは、データ資産を記述し、資産の検索、評価、理解を容易にするために、資産に関する情報を提供するデータです。
メタデータの典型的な、つまり最も一般的な例には、図書館のカード目録やオンライン目録があります。 このような目録では、各カードまたはリストに、読者が出版物を検索または評価しやすくする、出版物に関する情報(タイトル、著者、テーマ、刊行日、版、図書館内での置き場所、大要)が含まれています。 この情報により、読者は、例えば その出版物は新しいか古いか、 自分が探している情報が含まれているか、 著者は自分が信頼できる人か、またその作品を自分が好きかどうかなどを判断できます。
メタデータには多くのクラスがありますが、データ・カタログは主に、 テクニカル・メタデータ、プロセス・メタデータ、 ビジネス・メタデータに対応します。
テクニカル・メタデータ ( 「構造メタデータ」とも呼ばれる)では、テーブル、列、行、索引、接続などのデータ・オブジェクトの構造を説明することにより、データがどのように編成され、どのようにユーザーに表示されるかが説明されます。 テクニカル・メタデータにより、データの専門家は、分析したり統合する際にそのデータをそのまま処理できるか、あるいは変換する必要があるかなどの、データの処理方法を確認できます。
プロセス・メタデータ ( 「管理メタデータ」とも呼ばれる)では、データ資産の作成状況と、いつ、どのように、誰がデータ資産にアクセスしたか、およびそのデータ資産を使用、更新、または変更したかが説明されます。 また、誰がデータにアクセスして使用する権限を持っているのかについても記述されている必要があります。
プロセス・メタデータは、資産の履歴と リネージュに関する情報を提供します。これは、資産が目の前のタスクに対して十分に最近のものであるか、信頼できるソースからのものであるか、信頼できる個人によって更新されているかなどをアナリストが判断するのに役立ちます。 プロセス・メタデータは、クエリのトラブルシューティングにも使用できます。 プロセス・メタデータは、使用しているソフトウェアや受けているサービスのレベルなど、ソフトウェアのユーザーや顧客に関する情報を得るためにマイニングされるようになってきています。
ビジネス・メタデータ ( 「外部メタデータ」と呼ばれることもある)では、その資産の組織にとってのビジネス価値、特定の目的またはさまざまな目的への適合性、規制順守に関する情報など、データ資産のビジネスの側面が説明されます。 ビジネス・メタデータは、データの専門家と事業部門のユーザーがデータ資産について互いに分かり合える場です。
データ・カタログを使用すると、少なくとも、組織内のデータ資産に関連付けられているすべての既存のメタデータを簡単に検索(または収集)して整理できるようになります。 また、データの専門家が、タグ、関連付け、評価、注釈、ユーザーがデータをより速く見つけて自信を持って使用できるようにするその他の情報やコンテキストを使用して、そのメタデータをキュレートおよび拡充するためのツールが提供されます。
データ・カタログの作成には、ソフトウェアとデータ市民の時間と労力への多額の投資が必要です。ほとんどの組織は、このような投資を一度しかしたくないでしょう。 データ・カタログ・ソリューションを評価する際は、(上記のメタデータ管理機能に加えて)以下の機能を考慮します。
データの専門家が、ITの介入なしに、専門家や同僚のアドバイスに頼る必要なく、知っている資産だけに限定することなく、ガバナンスやコンプライアンスについて心配することなしに必要なデータを使用できるようになると、組織全体に以下のようなメリットがもたらされます。
データ・カタログは、組織が特定の技術的およびビジネス上の課題や目標を達成するのにも役立ちます。 また、顧客の包括的な単一ビューを提供して、アナリストがクロスセリング、アップセル、ターゲットを絞ったプロモーションなどの新しいオポチュニティーを発見するのに貢献します。 さらに、ガバナンスを促進、簡素化、自動化して、データスワンプを防ぎ、公平性、説明責任、安全性、透明性に重点を置いてAIモデルを設計、展開、監視するためのポリシー・フレームワークを提供する データレイクのガバナンス を展開するのを支援します。
IBM Watson Knowledge Catalog は、エンタープライズ・データとAIモデルのガバナンス、品質、コラボレーションのためのオープンでインテリジェントなデータ・カタログです。 データ市民がデータ資産、データセット、分析モデル、組織の他のメンバーとの関係を素早く発見、キュレート、分類、共有するのに役立ちます。
IBM Cloud Pak for Dataを採用したWatson Knowledge Catalogは、データ・エンジニア、データ・スチュワード、データサイエンティスト、ビジネス・アナリストが、信頼できるデータへのセルフサービス・アクセスを実現するための信頼できる唯一の情報源として機能します。 また、データのガバナンス、データ品質、アクティブなポリシー管理を提供して、組織による機密データの保護および管理、データ・リネージュの追跡、データレイクの管理、AIジャーニーの準備を支援します。
IBM Cloudアカウントを作成して、 IBMのデータ・カタログ・ソリューション の詳細をご覧いただき、今すぐお試しください 。