非構造化データ統合の設定
特定の構成値をプリセットするには、プロジェクト内のすべての非構造化データ統合フローのデフォルト設定を定義します。
設定の変更は、新しい非構造化データ統合フローおよび設定変更後に実行される非構造化データ統合ジョブに適用されます。
アクセス制御リスト
アクセス制御リスト(ACL)は、取り込まれるファイルの所有権とアクセス権の詳細を提供する。 このプロジェクトの非構造化データ統合フローでその情報を使用するかどうかを制御できます。
- アクセス制御リストの検索を有効にする
- データ取り込み時にファイルレベルのパーミッションの詳細を取得し、保持する。 生成された文書セットには、後で同じアクセス権が適用される。
- 接続元からのアクセス制御リストがサポートされていない場合でも、文書を取り込む
- ソースの所有権やアクセス権に関する情報が取得できなくても、ドキュメントは取り込まれる。
詳しくは、 取り込まれた文書のアクセス・コントロール・リストの取得を参照してください。
文書セットの保管
非構造化データ統合フローで生成されるドキュメント・セットのデフォルト・ストレージを定義します。 インポートしたメタデータを含むIcebergテーブルを保存する接続とスキーマを選択します。 これらの接続タイプから選ぶことができる:
- Icebergメタストア
- Presto
- watsonx.data Presto
デフォルトの埋め込みモデル
埋め込みを生成するためのデフォルトモデルを設定します。 非構造化データ統合フローを設定する際、利用可能な別のモデルを選択することで、設定を上書きすることができます。
カスタム・オペレーター
プロジェクト内のすべての非構造化データ統合フローで、カスタム演算子を使用できるようにします。
カスタムオペレータを追加するには、オペレータの名前と説明を指定し、これらのファイルをアップロードします:
- カスタムオペレータ用の Python 設定ファイル (.py)
- オプション:オペレータの依存関係を含むアーカイブ (.zip)
カスタム演算子の作成の詳細については、 ユーザー生成ノードを参照してください
環境
デフォルトの実行環境を選択してください:
- Python リソース使用量が少ない単純なフローの場合。
- リソース使用量が高い複雑なフロー向けのスパーク。 さらに、Sparkインスタンスとランタイムを選択します。
プロジェクトで定義されているすべての実行時環境から選択できます。
Sparkジョブのアセット
Sparkランタイム環境で非構造化データ統合フローを実行したい場合は、このオプションを有効にしてください。 Sparkジョブ向けにコードと依存関係を永続ボリュームにバンドルするセットアップジョブが作成されます。 サービスインスタンス内の任意のプロジェクトからセットアップを実行できます。 設定はサービスインスタンス全体に対して行われるため、インスタンスごとに一度だけ実行します。