IBM watsonx.data ・データの複製

Data Replication サービスを使用して、他のデータベースから IBM watsonx.data にデータを複製できます。

IBM watsonx.data は、オープンでハイブリッドで、統制された目的に合ったデータ・ストアであり、すべてのデータ、分析、および AI のワークロードをスケーリングして、分析エコシステムからより多くの価値を引き出すように最適化されています。

サポートされているバージョン

IBM watsonx.data 2.1.0 は、 Data Replication がインストールされている Red Hat OpenShift クラスター上にあります。

Data Replication と watsonx.data は、以下をサポートするだけです。

IBM watsonx.data ユーザー名と API キーを使用する接続
重要:複製資産のセットアップ時に、ユーザー名と API キーを使用しない IBM watsonx.data 接続は使用できません。
IBM watsonx.data Iceberg カタログ
Amazon S3 互換ストレージ

制限

IBM watsonx.data は、 Data Replication のターゲット・データ・ストアとしてのみ使用できます。

始める前に

IBM watsonx.data にデータを複製する前に、 watsonx.data ・インスタンスが使用できる Iceberg ・カタログおよび S3-compatible ・ストレージを構成します。 watsonx.data の構成について詳しくは、 IBM watsonx.data の資料を参照してください。

プロジェクト内の IBM watsonx.data への接続

プロジェクト内の IBM watsonx.data に接続するには、 IBM watsonx.data Presto 接続を参照してください。

IBM watsonx.data を使用した複製資産の作成

Data Replication 資産を作成するには、以下のようにします。

プロジェクトの資産タブをクリックします。
「新規資産」 > 「データの複製」 をクリックします。
名前を入力します。
「接続」 をクリックします。
ソース・オプション ページで、接続のリストからソース接続を選択するか、 接続の追加 をクリックして新規接続を作成します。
データの選択 をクリックし、スキーマを選択し、オプションでスキーマから表を選択します。
ターゲット・オプション ページで、リストから watsonx.data を選択するか、 接続の追加 をクリックして新規接続を作成します。

watsonx.data 接続には、以下のような追加パラメーターが必要です。
1. 複製ジョブが使用する watsonx.data ・ターゲット内の Iceberg ・カタログを選択します。
2. Data Replication がデータをコミットするタイミングと方法を決定する、複製データ・ファイルの接頭部やさまざまなしきい値などの追加パラメーターを設定します。
3. 特定の表の集約バッファー・サイズを設定して、ファイル・フォーマットにデータを保存する前にソース・データに対する変更を結合するためにレプリケーション・プロセスで使用されるメモリー量 (メガバイト単位) を制御できます。 Apache Parquet
  
  集約バッファーを使用して、ソース・データ・ストア内の大きなファイルに対する変更を管理します。集約バッファーを構成すると、挿入操作と競合する削除操作を確実に複製できます。挿入操作は、 S3 ファイル・システムに変更をコミットする前にバッファーに保持されます。バッファーに入れられた挿入操作と競合する削除操作は、バッファーから除去されます。
  
  集約効果を無効にするには、バッファー・サイズを 0 に設定します。
確認ページで、要約を確認してから、作成をクリックします。

デフォルトでは、 Data Replication はソース・スキーマと同じ名前のネーム・スペースを作成します。ターゲット・スキーマの値を指定すると、 Data Replication は、指定されたスキーマ名をターゲット・ネーム・スペースに使用します。

次のステップ

レプリケーション・ジョブの実行