데이터 스큐

시스템의 성능은 시스템의 모든 데이터 슬라이스에서 사용자 데이터의 분배를 균등하게 하는 데 직접적으로 연결됩니다. 테이블을 작성한 후 데이터를 시스템으로 로드하는 경우 테이블 행은 모든 데이터 슬라이스 사이에서 균등하게 분배되어야 합니다. 일부 데이터 슬라이스에 다른 테이블보다 더 많은 행이 있는 경우 더 많은 데이터가 있는 데이터 슬라이스와 이를 관리하는 SPU는 더 열심히, 더 오래 작업하며 작업을 완료하는 데 더 많은 자원과 시간이 필요합니다. 이러한 데이터 슬라이스와 이를 관리하는 SPU는 쿼리에 대한 병목 현상으로 성능이 저하됩니다. 데이터가 균등하지 않게 분배된 경우를 스큐라고 합니다. 최적의 테이블 분배에는 스큐가 없습니다.

중요: 무작위 청크 분포를 사용하도록 시스템을 구성하는 경우 할당된 공간을 줄이기 위해 무작위로 배포를 사용하여 만든 테이블은 의도적으로 하나 또는 적은 수의 범위로 왜곡됩니다. 이러한 청크형 테이블은 일반적으로 한 개 또는 몇 개의 범위 내에 들어가는 매우 작은 테이블이므로 수백만 개의 행이 있는 큰 테이블만큼 왜곡의 영향을 받지 않습니다.
다음 유형의 테이블로 데이터를 분배하거나 로드하는 동안 스큐가 발생할 수 있습니다.
기본 테이블
데이터베이스 관리자는 사용자 데이터를 위해 데이터베이스 내에 테이블을 정의합니다.
세션 내부 테이블
애플리케이션 또는 SQL 사용자는 임시 테이블을 작성합니다.