Join stage in DataStage

조인 스테이지는 이 스테이지에 대한 둘 이상의 데이터 세트 입력에 대해 조인 오퍼레이션을 수행한 후 결과 데이터 세트를 출력합니다.

조인 스테이지는 처리 스테이지로서, 이 스테이지에 대한 둘 이상의 데이터 세트 입력에 대해 조인 오퍼레이션을 수행한 후 결과 데이터 세트를 출력합니다. 조인 스테이지는 키 컬럼 값에 따라 테이블을 결합하는 세 개 스테이지 중 하나입니다. 다른 두 개 스테이지는 다음과 같습니다.

세 스테이지의 주된 차이점은 사용하는 메모리, 일치하지 않는 키가 있는 행의 처리, 입력 데이터에 대한 요구사항(예: 정렬 여부)입니다. 사용할 스테이지를 결정하는 데 대한 도움이 필요한 경우 "조인 대 검색"을 참조하십시오.

조인 스테이지에서 입력 데이터 세트는 "오른쪽" 세트, "왼쪽" 세트 및 "중간" 세트로 식별됩니다. 이들을 각각 지정할 수 있습니다. 여기에는 여러 개의 입력 링크와 하나의 출력 링크가 있습니다.

이 스테이지는 네 가지 조인 오퍼레이션 중 하나를 수행할 수 있습니다.

  • 내부는 키 컬럼에 동일한 값이 포함된 입력 데이터 세트의 레코드를 출력 데이터 세트로 전송합니다. 키 컬럼에 동일한 값이 포함되지 않은 레코드는 삭제됩니다. 내부 조인의 서로 다른 입력 링크에서 동일한 이름의 열을 전파하려고 하면 단계가 컴파일되지 않습니다. Join stage 앞에 Modify 또는 Transformer stage 를 추가하여 열 이름을 변경할 수 있습니다. 전체 외부 조인으로 전환할 수도 있습니다.
  • 왼쪽 외부는 왼쪽 데이터 세트의 모든 값을 전송하지만 오른쪽 데이터 세트 및 중간 데이터 세트의 값은 키 컬럼이 일치하는 경우에만 전송합니다. 스테이지에서 오른쪽 및 중간 데이터 세트의 키 컬럼을 삭제합니다.
  • 오른쪽 외부는 오른쪽 데이터 세트의 모든 값을 전송하지만 왼쪽 데이터 세트 및 중간 데이터 세트의 값은 키 컬럼이 일치하는 경우에만 전송합니다. 스테이지에서 왼쪽 및 중간 데이터 세트의 키 컬럼을 삭제합니다.
  • 전체 외부는 키 컬럼의 컨텐츠가 왼쪽 및 오른쪽 입력 데이터 세트와 동일한 레코드를 출력 데이터 세트로 전송합니다. 또한 키 컬럼에 동일하지 않은 값이 포함되어 있는 레코드도 두 입력 데이터 세트에서 출력 데이터 세트로 전송합니다. 전체 외부 조인은 입력 링크를 세 개 이상 지원하지 않습니다.
입력 데이터에 대한 요구 사항은 다음과 같습니다:
  • 입력 링크의 열 메타데이터는 데이터베이스 테이블의 값과 일치해야 합니다.
  • 조인 스테이지에 입력되는 데이터 세트는 키 파티셔닝되고 오름차순으로 정렬되어야 합니다. 그러면 키 컬럼 값이 동일한 행을 동일한 파티션에 배치하고 동일한 노드에서 처리할 수 있습니다. 또한 한 번에 메모리에 있어야 하는 행 수가 줄기 때문에 메모리 요구사항도 최소화됩니다. 자동 파티셔닝 방법을 선택하면 파티셔닝 및 정렬이 확실히 수행됩니다. 정렬 및 파티션 분할이 자동 모드에서 ` Join stage `, ` IBM® `, ` DataStage® ` 실행 전에 별도의 단계로 수행된 경우, 해당 도구는 이를 감지하여 재파티션하지 않습니다(또는 명시적으로 동일한 파티션 분할 방법을 지정할 수도 있습니다).

조인 스테이지 편집기에는 세 개의 페이지가 있습니다.

  • 스테이지. 항상 표시되며 스테이지에 대한 일반 정보를 지정하는 데 사용됩니다.
  • 입력. 여기서 결합할 데이터 세트에 대한 세부사항을 지정할 수 있습니다.
  • 출력. 여기서 스테이지에서 출력되는 결합된 데이터에 대한 세부사항을 지정할 수 있습니다.

Join stage DataStage 사용 방법을 보여주는 다음 동영상을 시청하세요.

이 동영상은 본 문서의 개념과 작업을 시각적으로 학습할 수 있는 방법을 제공합니다.

입력 탭

컬럼 섹션은 수신 데이터의 컬럼 정의를 지정합니다. 고급 섹션에서는 입력 링크의 기본 버퍼링 설정을 변경할 수 있습니다.

출력 탭

결합 스테이지에는 하나의 출력 링크만 있을 수 있습니다.

컬럼 섹션은 데이터의 컬럼 정의를 지정합니다. 컬럼 섹션에서 편집을 클릭하면 표시되는 입력 컬럼의 맵 섹션에서는 조인 스테이지에 입력되는 컬럼과 출력 컬럼 간의 관계를 지정할 수 있습니다. 고급 섹션에서는 출력 링크의 기본 버퍼링 설정을 변경할 수 있습니다.