비정형 데이터 통합 설정
특정 구성 값을 미리 설정하려면 프로젝트의 모든 비정형 데이터 통합 흐름에 대한 기본 설정을 정의합니다.
설정 변경 사항은 새 비정형 데이터 통합 흐름과 설정이 변경된 후 실행되는 비정형 데이터 통합 작업에 적용됩니다.
액세스 제어 목록
ACL(액세스 제어 목록)은 수집된 파일의 소유권 및 액세스 권한에 대한 세부 정보를 제공합니다. 이 프로젝트의 비정형 데이터 통합 흐름에서 해당 정보를 사용할지 여부를 제어할 수 있습니다.
- 액세스 제어 목록 검색 사용
- 데이터 수집 중에 파일 수준 권한 세부 정보를 검색하고 보존합니다. 나중에 생성된 문서 세트에도 동일한 액세스 권한이 적용됩니다.
- 소스의 액세스 제어 목록이 연결에서 지원되지 않는 경우에도 문서 수집
- 소스의 소유권 및 액세스 권한에 대한 정보를 검색할 수 없는 경우에도 문서가 수집됩니다.
자세한 내용은 수집된 문서에 대한 액세스 제어 목록 검색하기를 참조하세요.
문서 세트 스토리지
비정형 데이터 통합 흐름에서 생성되는 문서 세트의 기본 저장소를 정의합니다. 가져온 메타데이터가 있는 빙산 테이블을 저장할 연결과 스키마를 선택합니다. 다음 연결 유형 중에서 선택할 수 있습니다:
- Iceberg 메타스토어
- Presto
- watsonx.data Presto
기본 임베딩 모델
임베딩 생성을 위한 기본 모델을 설정합니다. 비정형 데이터 통합 흐름을 구성할 때, 사용 가능한 다른 모델을 선택하여 해당 설정을 재정의할 수 있습니다.
사용자 정의 연산자
프로젝트의 모든 비정형 데이터 통합 흐름에서 사용자 지정 연산자를 사용할 수 있도록 설정하세요.
사용자 지정 운영자를 추가하려면 운영자의 이름과 설명을 입력하고 이러한 파일을 업로드합니다:
- 사용자 지정 연산자를 위한 Python 구성 파일(.py)
- 선택 사항입니다: 오퍼레이터에 대한 종속성이 포함된 아카이브(.zip)입니다
사용자 정의 연산자 생성에 대한 자세한 내용은 사용자 생성 노드를 참조하세요
환경
기본 런타임 환경을 선택하십시오:
- Python 리소스 사용량이 낮은 간단한 흐름의 경우.
- 복잡한 흐름에서 리소스 사용량이 높은 경우 스파크를 활용하십시오. 또한 Spark 인스턴스와 런타임을 선택하십시오.
프로젝트에 정의된 모든 런타임 환경 중에서 선택할 수 있습니다.
Spark 작업 자산
Spark 런타임 환경에서 비정형 데이터 통합 플로우를 실행하려면 이 옵션을 켭니다. Spark 작업을 위해 코드와 종속성을 영구 볼륨에 묶는 설정 작업이 생성됩니다. 서비스 인스턴스의 모든 프로젝트에서 설정을 실행할 수 있습니다. 설정은 전체 서비스 인스턴스에 대해 수행되므로 인스턴스당 한 번만 실행하면 됩니다.