Compress stage in DataStage
Compress 스테이지는 UNIX compress 또는 GZIP 유틸리티를 사용하여 데이터 세트를 압축합니다. 이 스테이지는 레코드 시퀀스의 데이터 세트를 원시 2진 데이터 스트림으로 변환합니다.
Compress 스테이지는 처리 스테이지입니다. 이 스테이지에는 단일 입력 링크와 단일 출력 링크가 있을 수 있습니다.
Compress stage 의 보완체는 Expand stage 이며, 이는 DataStage 의 Expand stage 에서 설명됩니다.
압축된 데이터 세트는 원래 데이터 세트와 유사하며 데이터 세트 스테이지별로 지속적 양식으로 저장 가능합니다. 그러나 압축 데이터 세트는 펼쳐지기 전에, 즉 해당 행이 정상 형식으로 복원되기 전에는 여러 스테이지에서 처리할 수 없습니다. 열 기반 처리를 수행하지 않거나 행을 재정렬하는 스테이지는 압축 데이터 세트를 처리할 수 없습니다. 예를 들어, Copy 스테이지를 사용하여 압축 데이터 세트의 사본을 작성할 수 있습니다.
데이터 세트를 압축하면 정규 레코드 경계가 제거되므로 압축된 데이터 세트를 확장하기 전에 다시 파티셔닝해서는 안 됩니다.
DataStage® 기존 데이터 세트 스키마를 일반 압축 스키마의 하위 레코드로 배치합니다. 예를 들어 다음과 같은 스키마가 있는 데이터 세트가 있다고 가정합니다.
a:int32;
b:string[50];압축 데이터 세트의 스키마는 다음과 같습니다.record
( t: tagged {preservePartitioning=no}
( encoded: subrec
( bufferNumber: dfloat;
bufferLength: int32;
bufferData: raw[32000];
);
schema: subrec
( a: int32;
b: string[50];
);따라서 압축된 파일을 재사용하려면 압축에 들어간 스키마가 아니라 '압축된 스키마'를 사용하여 파일을 읽어야 합니다.압축 스테이지를 두 번 클릭하면 특성 패널이 열립니다. 특성 패널에는 다음 세 가지 탭이 있습니다.
- 스테이지. 항상 표시되며 스테이지에 대한 일반 정보를 지정하는 데 사용됩니다.
- 입력. 압축할 데이터 세트에 대한 세부사항을 지정할 수 있습니다.
- 출력. 이 페이지에서는 스테이지에서 출력되는 압축된 데이터에 대한 세부사항을 지정합니다.
입력 탭
컬럼 섹션은 수신 데이터의 컬럼 정의를 지정합니다. 고급 섹션에서는 입력 링크의 기본 버퍼링 설정을 변경할 수 있습니다.
출력 탭
컬럼 섹션은 데이터의 컬럼 정의를 지정합니다. 고급 섹션에서는 출력 링크의 기본 버퍼링 설정을 변경할 수 있습니다.