IBM Cloud Blog

Watson StudioとKnowledge Catalogを使ってデータレイクを作成してみよう ②

記事をシェアする:

第2回 データを登録してみよう

→ 第1回はこちら

今回は、実際にデータをKnowledge Catalogに登録してみます。大きな流れは以下となります。

  1. サービスとカタログを作成
  2. データの登録
    1. ローカルPC上のCSVファイル (構造化データ)
    2. Object Storage (Cloud)上のPDFファイル(非構造化データ)
    3. PostgreSQLのテーブル (データベース)
  3. データを検索する

では、実際に進めてみましょう。(この記事の内容は、全て無料でご利用いただくことが可能です。ぜひ一度お試しください)

 

1. Knowledge Catalogサービスの作成します

1.1 カタログ機能を利用するために、IBM Cloudの管理画面より、Knowledge Catalogサービスを作成します。デプロイする地域は4箇所(ダラス、東京、ロンドン、フランクフルト)から選択します。

 

1.2 プラン(Lite、Standard、Enterprise)を選択し、作成ボタンをクリックします。注)Liteを選択して進めます。各プランの詳細は以下のURLを参照してください。

 

1.3 画面の様に表示されたら、「Get Started」をクリックして、Knowledge Catalogを開始しましょう。

 

1.4 Watson Studioが起動され、下の画面が表示されます。

1.5 実際にファイル(データ)を登録するカタログを作成します。CreateCatalogをクリックし、必要事項を入力・選択します。

  1. Catalog名を入力します。
  2. 使用するObject Storageを選択します。Object Storageが存在しない場合は、この画面から作成することが可能です。
  3. 右下のCreateをクリックしてカタログを作成します。

以上でカタログが使用できるようになりました。続けて、データ(ファイル)を登録していきましょう。

 

2. データ(ファイル)の登録

2.1 ローカルPC上のファイルを登録します。

  1. Add to Catalog -> Local filesをクリックします。
  2. データを登録します。

    Selected Files:
    領域にファイルをドラッグ&ドロップします。ファイルは複数でも構いません。

    • Tags:このデータに付与するタグを指定します。カタログ登録後は、タグでデータを検索できるようになります。
    • Privacy:このデータの参照をPublic/Privateのどちらにするか選択します。
    • Members:PrivacyでPrivateを選択した場合に、参照可能なユーザーを登録します。

    必要事項を入力・選択したらAddをクリックすると、カタログにデータが登録されます。設定項目は、登録後も変更可能です。データのアップロードが始まるので、完了まで少し待ちます。

  3. ローカルPC上のファイルがカタログに登録されました。

 

2.2 Object Storage(Cloud)上のPDFファイルを登録してみましょう。
Knowledge Catalogは多くのデータソースに接続し、カタログ化することが可能です。すでに、クラウド上でObject Storageを使用しているケースを想定して、実際にデータを登録してみます。Object StorageはIBM CloudのICOSを利用します。

  1. 接続情報の作成
      1. Add to Catalog -> Connection をクリックします。
      2. 接続するデータソースを選択します。
        現在、以下のサービスに対して接続することが可能です。グレーアウトされているサービスは、Liteプランで使用できないため、使用する場合にはStandardプランに変更する必要があります。
      3. 接続に必要な情報を入力し、Createをクリックします。
      4. 接続が作成されました。

    では、この接続を利用して、ICOSのデータを登録してみます。

  2. ICOSのデータを登録します。
    1. Add to Catalog -> Connected Asset -> Select Sourceをクリックします。
    2. Folder(バケット)-> Files の順に登録するファイルを選択し、selectをクリックします。
    3. ローカルファイルの時と同様に、その他の設定を入力・選択します。
      このPDFファイルはIBMのオンラインマニュアルのため、タグにマニュアルを設定しました。
    4. データが登録されたことを確認します。

2.3 PostgreSQL上のテーブルを登録してみましょう。

  1. 接続情報の作成
    1. 2.2の1と 同様に接続情報を作成します。今回は、PostgreSQLになりますので、Third party service のPostgreSQLを選択します。
    2. 必要事項を入力し、Createをクリックします。(*の項目は必須です)
    3.  以降も2.2同様に進めます。
  2.  PostgreSQLのテーブルを登録します。(基本操作は2.2の2と同様です)
    1. Add to Catalog -> Connected Asset -> Select Sourceをクリックします。
    2. 先ほど登録したPostgreSQLの接続を選択し、スキーマ -> テーブル の順に登録するテーブルを決定してselectをクリックします。
    3. ローカルファイルの時と同様に、その他の設定を入力・選択します。
    4. テーブルが登録されたことを確認します。
    5. 登録されたテーブルを開いてみます。サンプルデータのため、1レコードしかデータがありませんが、データのプレビューが可能です。

3つのパターンでデータを登録してみました。ローカルPC、クラウド、オンプレミスDBのデータが1つのカタログから参照できるようになりましたので、次はカタログからデータを探してみましょう。

 

3. Knowledge Catalogでデータを探してみよう

Knowledge Catalogに登録されたデータは、主にタグ、およびファイル名で検索することが可能です。検索の例を2つ記載します。

  1. 検索バーにタグ、タグの一部、もしくはファイル名を入力する
    例)「マニュアル」というキーワードを入力
  2. フィルターにチェックを入れる
    登録されているタグは、左に一覧が表示されます。探したいタグにチェックを入れると登録されたAssetがフィルターされます。

 

今回は以上になります。

Knowledge Catalogを使用すると、オンプレミス/クラウドを問わず、多くのデータソースに存在するデータを一元的に検索することが可能になり、分析やAIに活用するデータの準備の負荷を低減してくれます。

[参考] 接続可能なデータソース

 

それ以外の用途としても、多くの利用ケースが考えられるのではないかと思います。

例えば、部門のファイルサーバーから目的のファイルを探す際に苦労したことはありませんか?ファイルサーバーにObject Storageを活用し、Knowledge Catalogでメタデータ管理をするといった活用をしていただくと、ファイルの検索を容易にするだけでなく、Object Storageによるコストメリットや拡張性、堅牢性も享受することが可能です。

次回は、Knowledge Catalogの他の機能(データクレンジング、Profile、Rating)、登録を自動化する方法について触れたいと思います。

More IBM Cloud Blog stories

2022年6月21日 15時43分頃に発生したIBM Cloud Internet Servicesの障害について

IBM Cloud Blog, IBM Cloud News

日本時間2022年6月21日 15時43分頃よりIBM Cloud Internet Servicesで障害が発生しました。 これにより同サービスをご利用いただいているお客様では、IBM Cloudに接続できない事象が生 ...続きを読む


IBM Cloud の ISMAP 対応状況について(2022年6月)

IBM Cloud Blog, IBM Cloud News

IBM Cloud の ISMAP * への最新の対応状況をお伝えいたします。 *ISMAP は、政府情報システムのためのセキュリティ評価制度(Information system Security Management ...続きを読む


IBM Cloudにも入ってる「インテルOptane」とは?

IBM Cloud Blog, IBM Cloud News

 ハイブリッドクラウド&AI戦略において、IBMはインテルとのパートナーシップ・アライアンスのもと、オンプレミス、エッジ、パブリッククラウドに至るまで、多くのソリューションを展開しています。今回、ソリューション・ブログ連 ...続きを読む