データ・ソースの作成
データ・ソースとは、アプリケーションやシステムで使用するデータを保存・提供するリポジトリやシステムのことである。 AIワークフローで使用するデータを提供する保管場所である。 データパイプラインに情報を送り込むための土台となる。 Amazon S3 、 IBM Storage Scale ファイルシステムなどのオプションがあります。
開始前に
- このデータ・ソースに関連付けられているクラスタに対して、 Kafka にアクセスするための手動設定が構成されているかどうかを確認します。 設定の詳細については、 Kafka ブローカーに接続するための手動設定を参照のこと。 Kafka ブローカーの証明書をローテートするたびに、この設定を行う必要がある。
- S3 型データ・ソースの前提条件については、 S3 型データ・ソースの前提条件を参照のこと。
このタスクについて
- IBM Fusion Content-Aware Storage (CAS )は、 ストレージ・プロバイダと直接インターフェイスすることはありません。 S3 IBM Storage Scale S3 ファイルシステムを通じて S3 ストレージにアクセスし、アクティブファイル管理(AFM)機能を有効にすることで、 S3 コンテンツのキャッシュコピーを提供する。
- 最大25の CAS データソースに対応。 各データ・ソースは以下のいずれかである:
- IBM Storage Scale AFM ファイルセットを使用して、 S3 コンテンツをインジェストする外部 S3 バケット。
- CAS (AFMなし)に接続された IBM Storage Scale ファイルシステムに存在するファイルセット。
- IBM Fusion Global Data Platform サービス(AFM なし)でリモートマウントされた IBM Storage Scale ファイルシステムに存在するファイルセットの変更通知には、以下の制約があります:
- ファイルセットあたり最大1,000万ファイル
- 合計1億ファイルまで監視可能
- 独立ファイルセットのみ対応。
手順
次の作業
Scaleクラスタにログインして権限を確認します。 例えば、ジャンクション・パスが /gpfs/gpfs3/my-data/ の場合、以下のコマンドを実行してパスを変更する:
cd /gpfs/gpfs3/ls -la出力例:drwxr-x--- 2 root cas 4096 May 22 19:50 my-data [ root@tc11scale1 gpfs3 ]# getent group cas | cut -d : -f3 310
グループオーナーがrootでない場合は、以下のコマンドを実行して、先に作成したデータソースにアノテーションを追加します。 この例では、グループオーナーは
cas である。oc annotate DataSource datasource-name group-id='310' --overwriteここで、 datasource-name と 310 は、データソース名とScaleで設定されたGIDによって変わりうる値の例である。