분위수(동일 개수 또는 합계)

분위수 구간화 방법은 각 그룹에 동일한 수의 레코드가 있거나 각 그룹에 있는 값의 합계가 동일하도록 스캐닝된 레코드를 백분위수 그룹(또는 사분위수, 십분위수 등)으로 분할하는 데 사용할 수 있는 명목 필드를 작성합니다. 레코드는 지정된 구간 필드의 값에 기반하여 오름차순으로 순위가 지정되므로 선택된 구간 변수의 최저 값이 있는 레코드에 1순위가 지정되고 다음 레코드 세트에 2순위가 지정되는 등과 같습니다. 각 구간의 임계값은 사용된 데이터 및 분위수 지정 방법에 기반하여 자동으로 생성됩니다.

분위수 이름 확장자. 표준 p-분위수를 사용하여 생성되는 필드에 사용되는 확장자를 지정하십시오. 기본 확장자는 _TILE 더하기 N으로, N은 분위수 번호입니다. 확장자가 필드 이름의 처음(접두어) 또는 끝(접미어)에 추가되는지 여부를 지정할 수도 있습니다. 예를 들어, income_BIN4라는 새 필드를 생성할 수 있습니다.

사용자 정의 분위수 확장자. 사용자 정의 분위수 범위에 사용되는 확장자를 지정하십시오. 기본값은 _TILEN입니다. 이 케이스의 N은 사용자 정의 수로 대체되지 않는다는 점을 참고하십시오.

사용 가능한 p-tile은 다음과 같습니다.

  • 사분위수. 각각 케이스의 25%를 포함하는 네 개의 구간을 생성하십시오.
  • 5분위수. 각각 케이스의 20%를 포함하는 다섯 개의 구간을 생성하십시오.
  • 십분위수. 각각 케이스의 10%를 포함하는 10개의 구간을 생성하십시오.
  • 20분위수. 각각 케이스의 5%를 포함하는 20개의 구간을 생성하십시오.
  • 백분위수. 각각 케이스의 1%를 포함하는 100개의 구간을 생성하십시오.
  • 사용자 정의 N. 구간 수를 지정하려면 이를 선택하십시오. 예를 들어, 값 3은 각각 케이스의 33.3%를 포함하는 세 개의 연결된 범주(두 개의 절단점)를 생성합니다.

데이터에 지정된 분위수보다 적은 이산 값이 있는 경우 모든 분위수가 사용되지 않는다는 점을 참고하십시오. 이러한 경우 새 분포에 데이터의 원래 분포가 반영될 가능성이 높습니다.

분위수 지정 방법. 구간에 레코드를 지정하는 데 사용되는 방법을 지정합니다.

  • 레코드 개수. 각 구간에 동일한 수의 레코드를 지정합니다.
  • 값 합계. 각 구간의 값의 합계가 동일하도록 구간에 레코드를 지정합니다. 예를 들어, 영업 성과를 목표로 할 때 이 방법을 사용하면 최고 값 가능성이 맨 위 구간에 있을 때 레코드 당 값에 기반하여 십분위수 그룹에 가능성을 지정할 수 있습니다. 예를 들어, 제약 회사는 작성하는 처방전 수에 기반하여 십분위수 그룹으로 내과 의사의 순위를 지정할 수 있습니다. 각 십분위수에 대략적으로 동일한 수의 스크립트가 포함되지만 이러한 스크립트에 기여하는 개인 수는 동일하지 않으며 개인은 십분위수 10에 집중된 대부분의 스크립트를 작성합니다. 이러한 방법에서는 모든 값이 0보다 크다고 가정하고 이 경우에 해당하지 않는 경우 예상하지 않은 결과가 나타날 수 있다는 점을 참고하십시오.

등순위. 절단점의 한 쪽에 있는 값이 동일한 경우 경계값 조건 결과입니다. 예를 들어, 십분위수를 지정하며 레코드의 10% 이상에 구간 필드에 대해 동일한 값이 있는 경우 임계값을 한 방향 또는 다른 방향으로 강제 실행하지 않고 이러한 모든 레코드를 동일한 구간에 넣을 수 없습니다. 경계값이 위로 다음 구간으로 이동되거나 현재 구간에서 유지될 수 있지만 동일한 값의 모든 레코드가 동일한 구간에 속하도록 분석해야 합니다(이로 인해 일부 구간에 예상보다 많은 레코드가 있는 경우에도). 따라서 이후 구간의 임계값도 조정할 수 있으므로 경계값을 분석하는 데 사용되는 방법에 기반하여 동일한 번호 세트에 대해 다르게 값이 지정됩니다.

  • 다음에 추가. 위로 다음 구간으로 경계값을 이동하려면 이를 선택하십시오.
  • 현재구간에 유지. 등순위 값을 현재(더 낮은) 구간에 유지합니다. 이 방법을 사용하면 더 적은 수의 총 구간이 작성될 수 있습니다.
  • 무작위 지정. 한 구간에 경계값을 무작위로 할당하려면 이를 선택하십시오. 각 구간에서 레코드 수를 동일한 양으로 유지하려고 합니다.

예: 레코드 수별 분위수 지정

다음 표는 레코드 수별로 분위수를 지정할 때 간단해진 필드 값이 분위수로 순위가 지정되는 방식을 나타냅니다. 결과는 선택된 경계값 옵션에 따라 다를 수 있다는 점을 참고하십시오.

표 1. 레코드 수별 분위수 지정 예
다음에 추가 현재에서 유지
10 1 1
13 2 1
15 3 2
15 3 2
20 4 3

구간 당 항목 수는 다음과 같이 계산됩니다.

총 값 수 / 분위수

위의 간단한 예에서 구간 당 원하는 항목 수는 1.25(5개의 값 / 4 사분위수)입니다. 값 13(값 번호 2)은 1.25 원하는 개수 임계값을 스트래들하므로 선택된 경계값 옵션에 따라 다르게 처리됩니다. 다음에 추가 모드에서는 구간 2에 추가됩니다. 현재에서 유지 모드에서는 구간 1에 계속 남아 있어서 구간 4에 대한 값의 범위를 기존 데이터 값의 범위 외부에 넣습니다. 따라서 세 개의 구간만 작성되며 각 구간의 임계값이 적절하게 조정됩니다(다음 표 참조).

표 2. 구간화 예 결과
구간 하한 상한
1 >=10 <15
2 >=15 <20
3 >=20 <=20

참고: 분위수별로 구간화하는 속도는 병렬 처리를 사용할 경우 빨라질 수 있습니다.