データ・ソースの作成

データ・ソースとは、アプリケーションやシステムで使用するデータを保存・提供するリポジトリやシステムのことである。 AIワークフローで使用するデータを提供する保管場所である。 データパイプラインに情報を送り込むための土台となる。 Amazon S3 、 IBM Storage Scale ファイルシステムなどのオプションがあります。

開始前に

  • このデータ・ソースに関連付けられているクラスタに対して、 Kafka にアクセスするための手動設定が構成されているかどうかを確認します。 設定の詳細については、 Kafka ブローカーに接続するための手動設定を参照のこと。 Kafka ブローカーの証明書をローテートするたびに、この設定を行う必要がある。
  • S3 型データ・ソースの前提条件については、 S3 型データ・ソースの前提条件を参照のこと。

このタスクについて

  • IBM Fusion Content-Aware Storage (CAS )は、 ストレージ・プロバイダと直接インターフェイスすることはありません。 S3 IBM Storage Scale S3 ファイルシステムを通じて S3 ストレージにアクセスし、アクティブファイル管理(AFM)機能を有効にすることで、 S3 コンテンツのキャッシュコピーを提供する。
  • 最大25の CAS データソースに対応。 各データ・ソースは以下のいずれかである:
    • IBM Storage Scale AFM ファイルセットを使用して、 S3 コンテンツをインジェストする外部 S3 バケット。
    • CAS (AFMなし)に接続された IBM Storage Scale ファイルシステムに存在するファイルセット。
  • IBM Fusion Global Data Platform サービス(AFM なし)でリモートマウントされた IBM Storage Scale ファイルシステムに存在するファイルセットの変更通知には、以下の制約があります:
    • ファイルセットあたり最大1,000万ファイル
    • 合計1億ファイルまで監視可能
  • 独立ファイルセットのみ対応。

手順

  1. メニューから、 Content-aware storage > Data sourceと進む。
  2. データ・ソース・ページで、 データ・ソースの接続をクリックする。
  3. データソースの名前を入力します。
  4. ストレージタイプを選択し、 Nextをクリックする。
    利用可能なストレージタイプは以下の通り。 IBM CloudIBM Storage スケールAWSS3 準拠
  5. 接続の詳細ページに以下の詳細を入力する。
    接続の詳細ページは、選択したストレージタイプによって異なります。
    • IBM Cloud, AWS または S3 準拠
      • エンドポイントを入力します。

        バケツとその中身にアクセスできる URL を指します。 Endpoint ルールの詳細については、 AWS のドキュメントを参照してください。

      • S3 バケットの名前を入力します。

        バケツの命名ガイドラインの詳細については、 AWS ドキュメントを参照してください。

      • AWS の場合、 地域を入力する。 バケットがあるのは Amazon Web Services。
      • アクセスキーと シークレットアクセスキーを入力

        これらは、バケツの中身にアクセスするために必要なセキュリティ認証情報です。

      • 証明書の設定セクションで、 証明書のシークレット名を入力する。

        これはオプション・パラメーターです。 SSL で保護されたオブジェクト・ストレージ・ロケーションには、認証用の証明書が必要です。 ネームスペース ibm-storage-fusion-ns または Fusion ネームスペースに OpenShift TLS シークレットを作成します。 クレデンシャルの秘密の名前を指定する。

    • IBM Storage Scale

      パスに入る。 ジャンクション・パスだ。

  6. Caching filesystem セクションで、このデータ・ソースのキャッシュを保存するファイル・システムを選択します。
    検出されたリモートファイルシステムが1つだけの場合、自動的に選択され、このフィールドは選択できません。
  7. Connect をクリックして情報を送信し、 CAS をデータソースで有効にします。

次の作業

IBM Storage Scale タイプのデータソースの場合、 CAS がそのファイルを読み込んでディレクトリを表示できるように、ジャンクションパスの読み取り権限と実行権限を持つグループオーナーを決定します。
Scaleクラスタにログインして権限を確認します。 例えば、ジャンクション・パスが /gpfs/gpfs3/my-data/ の場合、以下のコマンドを実行してパスを変更する:
cd /gpfs/gpfs3/
ls -la
出力例:
drwxr-x--- 2 root cas 4096 May 22 19:50 my-data
[ root@tc11scale1 gpfs3 ]# getent group cas | cut -d : -f3
310
グループオーナーがrootでない場合は、以下のコマンドを実行して、先に作成したデータソースにアノテーションを追加します。 この例では、グループオーナーは cas である。
oc annotate DataSource datasource-name group-id='310' --overwrite

ここで、 datasource-name310 は、データソース名とScaleで設定されたGIDによって変わりうる値の例である。