IBM Watson Knowledge Catalogの概要

IBM Watson® Knowledge Catalogは、クラウド・ベースの企業向けメタデータ・リポジトリーで、機械学習モデルや構造化/非構造化データなどの知識資産と分析資産を、どこでもカタログ化することができます。これにより、アクセスが容易になり、データサイエンスやあらゆる形態のAIの活用のために使用できます。

選択したソース・タイプについて、Watson Knowledge Catalogは、指定された接続でデータ資産を自動的に検出し、登録できます。資産がカタログに追加されると、自動的に索引付けと分類が行われ、データ・エンジニア、データ・サイエンティスト、データ・スチュワード、ビジネス・アナリストなどのユーザーによる、資産の検索、理解、共有、使用が容易になります。AIを活用した検索やレコメンデーションは、資産どうしの関係性、それらの資産の使用方法、ユーザー間の社会的つながりについての理解に基づいて、カタログ内の最も関連性の高い資産をユーザーに提示します。

Watson Knowledge Catalogは、インテリジェントかつ堅固なガバナンス・フレームワークも提供し、データ・ポリシーとアクセス・ポリシーを定義、適用し、確実に正しいデータが適切なユーザーのもとに到達できるようにします。 

Watson Knowledge Catalog Business Glossaryを使用して、ユーザーは共通のビジネス・ボキャブラリーを構築し、それらを資産、ポリシー、ルールに関連付けて、ビジネス・ドメインと技術資産を仲立ちします。

Watson Knowledge Catalogをデプロイできる地域

地域のデータ制限がある場合は、以下のいずれかの都市にデプロイできます:ダラス、ロンドン(英語)フランクフルト(英語)、または東京(英語)

Watson Knowledge Catalogは、世界の他の場所でも使用できますか?

はい。米国のほか、英国ドイツ、および日本のWatson Knowledge Catalogに登録できます。

データをWatson Knowledge Catalogに移動する必要がありますか?

いいえ。既存のリポジトリーにあるデータをそのまま使用できます。Watson Knowledge Catalogは、資産のメタデータ を保管します。

サポートされているデータ・ソースと資産タイプを教えてください。

IBMは、お客様のリモート・データ資産への接続を可能にするクラウドとオンプレミスのデータ・ソース・タイプへの、30を超えるコネクターを提供します。例えば、クラウドあるいはオンプレミスのIBM Db2®、IBM Cloudant®、IBM Cloud™ Object Storage、Oracle、Microsoft SQL Server、Microsoft Azure、Amazon S3、Salesforce.com、Hortonworks HDFS、Sybase、その他多数へのコネクターを提供しています。

Watson Knowledge Catalogは、リモート・データ・ソースからの資産のほか、構造化データ(行/列)、半構造化データ、非構造化データなどの資産タイプをサポートします。例えば、CSV、Microsoft Excel、PDF、テキスト、Microsoft Word、Jupyter Notebook (IPYNB)、画像、HTMLなどのファイルをカタログに追加して、プロファイルを作成したり、他のユーザーと共有したりできます。

Watson Knowledge Catalogに保持できる資産の最大数を教えてください。

Professionalプランでは、Knowledge Catalogに保持できる資産の数に制限はありません。 StandardプランとLiteプランでは、資産はそれぞれ500個までと50個までに制限されています。

Watson Knowledge Catalogではガバナンス・サービスは提供されますか?

Watson Knowledge Catalogには、ポリシーと実行されたアクションに基づいて結果を判定する、自動化されたポリシー適用エンジンが組み込まれています。Watson Knowledge Catalogでは、システム内でガバナンス・ポリシーをセットアップする機能を搭載しており、データへのアクセスを制限したり、機密コンテンツをマスキングしてデータを変換したりできます。 

データをマスクするデータ・ポリシーを使用してデータの元のソースを削除または変更できますか?

いいえ。データ保護ポリシーによってカタログ内の機密データが匿名化される場合は、アプリケーションによって管理されているプレビュー・データだけが変換されます。元のソース・データは変更されません。

Watson Knowledge Catalogには分類サービスはありますか?

データ資産がカタログに追加されると、Watson Knowledge Catalogは自動的にデータ資産内の列を分類できます。標準装備のコンポーネントには、名前、Eメール、住所、クレジット・カード番号、運転免許証番号、政府識別番号、生年月日、人口統計情報、Data Universal Numbering System (DUNS) 番号などを含む160個以上の属性分類方法が提供されています。また、カタログは、非構造化データ資産のプロファイルを作成し、コンテンツからカテゴリー、概念、評価、感情などのメタデータを抽出します。データ資産のプロファイルを参照してください。

Watson Knowledge Catalogにはデータ準備機能はありますか?

はい。 データ準備機能は、Watson Knowledge Catalogの一部であるData Refineryで使用できます。Data Refineryは、組み込まれた操作によりデータのディスカバリー、クレンジング、変換を可能にする充実した機能セットを提供します。また、強力なプロファイリングおよび視覚化ツール(チャート、グラフ、統計など)も搭載され、データとの対話と理解を支援します。Watson Knowledge Catalogで定義されたデータ・アクセスと変換のポリシーはData Refineryでも適用され、管理対象カタログからの機密データは保護されたままで維持されます。

さまざまなユーザーの業務別にアクセス権グループをセットアップできますか?

はい。 アクセス権グループは、IBM Cloud Identity and Asset Managementでセットアップできます。Watson Knowledge CatalogのAccess Controlモジュールで、コラボレーターまたはユーザー・グループを追加できます。

キャパシティー・ユニット時間 (CUH) とは何ですか?

Data Refineryフロー、Data Refinery対話式UI、プロファイリング・ジョブは、キャパシティー・タイプごとに、その総数と1時間当たりに必要とされるキャパシティー・ユニット数 (CUH) の積に対して課金されます。

  • Data Refineryフローには、デフォルトのSpark環境で1.5 CUHが必要です。その他のカスタム環境では、計算は、Sparkドライバーと実行プログラムのために使用される実行プログラムとリソースの数によって異なります。
  • Data Refinery対話式UIには、1.5 CUHが必要です。課金は、Refinery UIの開始時に開始され、終了時に終了します。
  • プロファイリング・ジョブには、6 CUHが必要です。各ジョブの実行には、0.96(10分に相当)の最小料金が適用されます。

各プランには、月ごとに所定の数の無料のCUHが含まれています。StandardプランとProfessionalプランの場合、その月のプラン制限に達すると、料金が課されます。Liteプランの場合、その月のプラン制限に達すると、翌月まで、またはプランがStandardプランまたはProfessionalプランにアップグレードされるまで、Data Refineryフローもプロファイリング・ジョブも実行できません。

デフォルトのキャパシティー・タイプ3を使用したData Refineryフローの例:

  1. 1時間にわたる1回のData Refineryフロー実行:1.5 CUH
  2. それぞれ1時間にわたる2回のData Refineryフロー実行:2時間* 1.5 CUH = 3 CUH
  3. 30分にわたる1回のData Refineryフロー実行:0.5時間* 1.5 CUH = 0.75 CUH
  4. 1時間にわたる対話式Data Refinery UI使用:1.5 CUH

プロファイリングの例(プロファイリング・ジョブは、自動または手動で起動できます):

  1. 30分にわたる1回のプロファイリング・ジョブ実行:0.5時間* 6 CUH = 3 CUH
  2. 9分にわたる1回のプロファイリング・ジョブ実行(このシナリオでは、最小料金が適用されます):0.16時間* 6 CUH = 0.96 CUH

StandardプランまたはProfessionalプランを購入した後で、製品を最大限活用するにはどの程度のセットアップが必要ですか?

Watson Knowledge Catalogの運用はすべてセルフ・サービスです。管理者は最初にカタログを作成し、その後すぐに資産の追加とキュレーションを行うことができます。以下のような追加タスクが必要になることがあります。

  • ビジネス・グロッサリーの構築
  • データへのアクセスを管理するためのデータ保護ポリシーの定義
  • カタログへのユーザーの招待

IBM Cloud Pak for Data上で使用できますか?

はい。 IBMの最新の統合データ・プラットフォームをさらに掘り下げるIBM Cloud Pak™ for Dataの詳細をご覧ください。(英語)

Watson Knowledge Catalogを試す

機械学習とAIを駆使してデータを分析することができます。データをカタログ化することにより、データの検索と利用が容易になります。

データとAIの活用にお困りですか?