매치 사양 설계 DataStage
QualityStage 단계로 데이터를 그룹화할 때는 레코드 일치에 사용할 기준을 반드시 지정해야 합니다. 새로운 매치 사양 자산을 생성하고 매치 디자이너로 테스트하십시오.
다음 섹션에서는 경험에서 IBM Cloud Pak® for Data 매치 사양을 설계하는 방법을 설명합니다. 매칭 프로세스 자체에 대한 보다 상세한 개념적 정보는 《 DataStage 》의 '데이터 매칭' 부분을 참조하십시오.
매치 사양 자산 생성
작업에서 DataStage 재사용 가능한 구성 요소로 매치 사양을 생성할 수 있습니다.
- 기존 프로젝트를 열거나 프로젝트를 작성하십시오.
- 자산 에서 새 자산 +를 클릭하고 사용 가능한 자산 유형에서 재사용 가능한 DataStage 컴포넌트 생성을 선택합니다.
- DataStage 의 구성 요소 유형으로 '매치 사양(Match specification)'을 선택하십시오.
- 매치 유형을 선택하고 '생성'을 클릭하여 매치 디자이너를 엽니다. 매치 유형에 대한 자세한 내용은 다음 을 참조하십시오: One-source Match stage 용 매치 유형 Two-source Match stage 용 매치 유형
데이터 준비
매치 사양을 테스트하기 전에 샘플 데이터, 빈도 및 메타데이터가 포함된 파일을 업로드하거나 생성해야 합니다.
- 매치 사양의 구성 설정을 열려면 구성을 클릭하십시오.
- 데이터 샘플 데이터 세트로 사용할 순차 파일 또는 데이터 세트를 선택하십시오. 순차 파일에서 DOS 개행과 UNIX 개행이 레코드 구분자로 지원됩니다.
- 데이터 주기 데이터 세트로 사용할 순차 파일 또는 데이터 세트를 선택하십시오. 순차 파일에서 DOS 개행과 UNIX 개행이 레코드 구분자로 지원됩니다. 자세한 내용은 을 참조하십시오 Match Frequency stage. 저장을 클릭하고 돌아가세요.
- 샘플의 메타데이터를 구성하려면 입력 스키마를 클릭하세요.
- 데이터 소스를 선택하십시오. 샘플 데이터에서 메타데이터를 추출할 수 있지만, 데이터 정의를 사용하면 더 자세한 내용을 포함할 수 있습니다. DataStage 에서 데이터 정의 정의하기를 참조하십시오.
- 누락된 가중치에 대한 기본 처리 방식을 선택하십시오. 누락된 값을 0으로 처리하거나, 동의로 처리하거나, 불일치로 처리하거나, 동의와 불일치 가중치의 평균으로 처리하도록 설정할 수 있습니다.
- 최대 주파수 값 을 선택하십시오. 기본값은 100입니다.
- 테스트 실행 환경에서 테스트할 매치 사양의 실행 환경을 지정하십시오.
- 특정 열에 대해 수행할 작업을 지정하려면 '변수 특수 처리' 탭을 클릭하십시오. 해당 조치는 이 사양에 대한 모든 경기 패스에 적용됩니다.
패스 추가
데이터에 대해 실행하려는 각 매칭 프로세스에 대해 매치 사양에 패스를 추가하십시오. 패스의 차단 열, 일치 명령어 및 컷오프 값을 지정하십시오. 자세한 내용은 DataStage 의 "매치 사양에 패스 추가하기"를 참조하십시오.
테스트 통과
매칭 패스를 테스트하여 매칭 목표를 얼마나 효과적으로 충족하는지 확인하고 필요에 따라 조정할 수 있습니다. 통계와 기록 가중치를 살펴봄으로써 테스트 결과에 대한 통찰력을 얻을 수 있습니다. 자세한 내용은 DataStage 의 "테스트 패스가 매치 사양을 통과하는 경우"를 참조하십시오.
프로비저닝
프로비전을 클릭하면 일대일 매칭 단계, 일대다 매칭 단계, 매칭 빈도 단계와 같은 매칭 단계에서 매칭 사양을 사용할 수 있습니다.