IBM Watson Knowledge Catalogの概要
IBM Watson® Knowledge Catalogは、クラウド・ベースの企業向けメタデータ・リポジトリーで、機械学習モデルや構造化/非構造化データなどの知識資産と分析資産を、それらがどこにあろうとカタログ化することができます。これにより、アクセスが容易になり、データサイエンスやあらゆる形態のAIの活用のために使用できます。
選択したソース・タイプについて、Watson Knowledge Catalogは、指定された接続でデータ資産を自動的に検出し、登録できます。資産がカタログに追加されると、自動的に索引付けと分類が行われ、データ・エンジニア、データ・サイエンティスト、データ・スチュワード、ビジネス・アナリストなどのユーザーによる、資産の検索、理解、共有、使用が容易になります。AIを活用した検索やレコメンデーションは、資産どうしの関係性、それらの資産の使用方法、ユーザー間の社会的つながりについての理解に基づいて、カタログ内の最も関連性の高い資産をユーザーに提示します。
Watson Knowledge Catalogは、インテリジェントかつ堅固なガバナンス・フレームワークも提供し、データ・ポリシーとアクセス・ポリシーを定義、適用し、確実に正しいデータが適切なユーザーのもとに到達できるようにします。
Watson Knowledge Catalog Business Glossaryを使用して、ユーザーは共通のビジネス・ボキャブラリーを構築し、それらを資産、ポリシー、ルールに関連付けて、ビジネス・ドメインと技術資産を仲立ちします。
データをWatson Knowledge Catalogに移動する必要がありますか?
いいえ。既存のリポジトリーにあるデータをそのまま使用できます。Watson Knowledge Catalogは、資産のメタデータ を保管します。
サポートされているデータ・ソースと資産タイプを教えてください。
IBMは、お客様のリモート・データ資産への接続を可能にするクラウドとオンプレミスのデータ・ソース・タイプへの、30を超えるコネクターを提供します。例えば、クラウドあるいはオンプレミスのIBM Db2®、IBM Cloudant®、IBM Cloud™ Object Storage、Oracle、Microsoft SQL Server、Microsoft Azure、Amazon S3、Salesforce.com、Hortonworks HDFS、Sybase、その他多数へのコネクターを提供しています。
Watson Knowledge Catalogは、リモート・データ・ソースからの資産のほか、構造化データ(行/列)、半構造化データ、非構造化データなどの資産タイプをサポートします。例えば、CSV、Microsoft Excel、PDF、テキスト、Microsoft Word、Jupyter Notebook (IPYNB)、画像、HTMLなどのファイルをカタログに追加して、プロファイルを作成したり、他のユーザーと共有したりできます。
Watson Knowledge Catalogに保持できる資産の最大数を教えてください。
Professionalプランでは、Knowledge Catalogに保持できる資産の数に制限はありません。標準プランとライト・プランでは、資産はそれぞれ500個までと50個までに制限されています。
Watson Knowledge Catalogではガバナンス・サービスは提供されますか?
Watson Knowledge Catalogには、ポリシーと実行されたアクションに基づいて結果を判定する、自動化されたポリシー適用エンジンが組み込まれています。Watson Knowledge Catalogでは、システム内でガバナンス・ポリシーをセットアップする機能を搭載しており、データへのアクセスを制限したり、機密コンテンツをマスキングしてデータを変換したりできます。
データをマスクするデータ・ポリシーを使用してデータの元のソースを削除または変更できますか?
いいえ。データ保護ポリシーによってカタログ内の機密データが匿名化される場合は、アプリケーションによって管理されているプレビュー・データだけが変換されます。元のソース・データは変更されません。
Watson Knowledge Catalogには分類サービスはありますか?
データ資産がカタログに追加されると、Watson Knowledge Catalogは自動的にデータ資産内の列を分類できます。標準装備のコンポーネントには、名前、Eメール、住所、クレジット・カード番号、運転免許証番号、政府識別番号、生年月日、人口統計情報、Data Universal Numbering System (DUNS) 番号などを含む160個以上の属性分類方法が提供されています。また、カタログは、非構造化データ資産のプロファイルを作成し、コンテンツからカテゴリー、概念、評価、感情などのメタデータを抽出します。データ資産のプロファイルを参照してください。
Watson Knowledge Catalogにはデータ準備機能はありますか?
はい。 データ準備機能は、Watson Knowledge Catalogの一部であるData Refineryで使用できます。Data Refineryは、組み込まれた操作によりデータのディスカバリー、クレンジング、変換を可能にする充実した機能セットを提供します。また、強力なプロファイリングおよび視覚化ツール(チャート、グラフ、統計など)も搭載され、データとの対話と理解を支援します。Watson Knowledge Catalogで定義されたデータ・アクセスと変換のポリシーはData Refineryでも適用され、管理対象カタログからの機密データは保護されたままで維持されます。
さまざまなユーザーの業務別にアクセス権グループをセットアップできますか?
はい。 アクセス権グループは、IBM Cloud Identity and Asset Managementでセットアップできます。Watson Knowledge CatalogのAccess Controlモジュールで、コラボレーターまたはユーザー・グループを追加できます。
キャパシティー・ユニット時間 (CUH) とは何ですか?
Data Refineryフロー、Data Refinery対話式UI、プロファイリング・ジョブは、キャパシティー・タイプごとに、その総数と1時間当たりに必要とされるキャパシティー・ユニット数 (CUH) の積に対して課金されます。
- Data Refineryフローには、デフォルトのSpark環境で1.5 CUHが必要です。その他のカスタム環境では、計算は、Sparkドライバーと実行プログラムのために使用される実行プログラムとリソースの数によって異なります。
- Data Refinery対話式UIには、1.5 CUHが必要です。課金は、Refinery UIの開始時に開始され、終了時に終了します。
- プロファイリング・ジョブには、6 CUHが必要です。各ジョブの実行には、0.96(10分に相当)の最小料金が適用されます。
各プランには、月ごとに所定の数の無料のCUHが含まれています。標準プランとプロフェッショナル・プランの場合、その月のプラン制限に達すると、料金が課されます。ライト・プランの場合、その月のプラン制限に達すると、翌月まで、またはプランが標準プランまたはプロフェッショナル・プランにアップグレードされるまで、Data Refineryフローもプロファイリング・ジョブも実行できません。
デフォルトのキャパシティー・タイプ3を使用したData Refineryフローの例:
- 1時間にわたる1回のData Refineryフロー実行:1.5 CUH
- それぞれ1時間にわたる2回のData Refineryフロー実行:2時間* 1.5 CUH = 3 CUH
- 30分にわたる1回のData Refineryフロー実行:0.5時間* 1.5 CUH = 0.75 CUH
- 1時間にわたる対話式Data Refinery UI使用:1.5 CUH
プロファイリングの例(プロファイリング・ジョブは、自動または手動で起動できます):
- 30分にわたる1回のプロファイリング・ジョブ実行:0.5時間* 6 CUH = 3 CUH
- 9分にわたる1回のプロファイリング・ジョブ実行(このシナリオでは、最小料金が適用されます):0.16時間* 6 CUH = 0.96 CUH
標準プランまたはプロフェッショナル・プランを購入した後で、製品を最大限に活用するにはどの程度のセットアップが必要ですか?
Watson Knowledge Catalogの運用はすべてセルフ・サービスです。管理者は最初にカタログを作成し、その後すぐに資産の追加とキュレーションを行うことができます。以下のような追加タスクが必要になることがあります。
- ビジネス・グロッサリーの構築
- データへのアクセスを管理するためのデータ保護ポリシーの定義
- カタログへのユーザーの招待
IBM Cloud Pak for Data上で使用できますか?
はい。 IBMの最新の統合データ・プラットフォームをさらに掘り下げるIBM Cloud Pak™ for Dataの詳細をご覧ください。