分位数(相等计数或总和)
分位数分级方法用于创建名义字段,这些字段可用于将扫描到的记录分割为百分位数(或四分位数、十分位数等)组,使每个组包含相同数量的记录,或使每个组中值的总和相等。记录根据指定的分级字段值按升序排列,因此所选分级变量的值最低的记录将获得等级 1,下一组记录等级为 2,依此类推。每个分级的阈值将根据所用的数据和分位方法自动生成。
分位数名称扩展。指定用于使用标准 p 分位数生成的字段的扩展名。缺省扩展名为 _TILE 加上 N ,其中 N 是分位数。您还可以指定将扩展部分添加到字段名的开头(前缀)还是末尾(后缀)。例如,可以生成名为 income_BIN4 的新字段。
定制分位数扩展名。指定用于定制分位数范围的扩展名。缺省值为 _TILEN 。请注意,此处的 N 将不会被定制数字替换。
可用的 p 分位数如下:
- 四分位数。生成 4 个分级,每个包含 25% 的观测值。
- 五分位数。生成 5 个分级,每个包含 20% 的观测值。
- 十分位数。生成 10 个分级,每个包含 10% 的观测值。
- 二十分位数。生成 20 个分级,每个包含 5% 的观测值。
- 百分位数。生成 100 个分级,每个包含 1% 的观测值。
- 定制 N。选择此选项可指定分级数。例如,值为 3 将产生 3 个划分类别(2 个割点),每个包含 33.3% 的观测值。
请注意,如果数据中的离散值少于指定的分位数,那么不会使用任何分位数。在这种情况下,新的分布很可能反映数据的原始分布。
分位方法。指定用于为分级分配记录的方法。
- 记录计数。尽量为每个分级分配相等数目的记录。
- 值的总和。为分级分配记录时,尽量使每个分级中值的总和相等。例如,以销售业绩为目标时,此方法可用于根据每条记录的值为十分位数组分配预期业绩,最高分级获得价值最高的预期业绩。例如,某制药公司可根据所开处方的数量将医师分入十分位数组。尽管每个十分位数包含的底方数大致相同,但各人在其中拥有的底方数并不相同,所开底方最多的个人集中在十分位数 10 中。请注意,此方法会假定所有值均大于零,如果实际情况不是这样则可能产生意外结果。
结。当分割点两侧的值相同时,将产生结条件。例如,如果是分配十分位数,且超过 10% 的记录的分级字段具有相同值,那么除非对阈值进行向上或向下的强制转换,否则无法将这些记录全部分配至同一分级。可以将结上移至下一个分级,也可以保留在当前分级中,但必须将其解决,使具有相同值的所有记录位于同一分级内,即使这样会导致某些分级的记录数超过预期值也是如此。后续分级的阈值可能也会因此发生调整,导致对相同数字集合进行不同的值分配,具体取决于用于解决结的方法。
- 添加到下一个分级。选择此选项可将结值上移至下一个分级。
- 保留在当前分级中。将值保留在当前(较低)分级中。此方法可能会减少创建的分级总数。
- 随机分配。选择此选项可将同数值随机分配至一个分级。这将试图使每个分级中的记录数量相等。
示例:按记录计数分位
下表说明了按记录计数进行分位时如何将简单字段值分为四分位数。请注意,结果将随选择的结选项而变化。
| 值(V) | 添加到下一个 | 保留在当前分级中 |
|---|---|---|
| 10 | 1 | 1 |
| 13 | 2 | 1 |
| 15 | 3 | 2 |
| 15 | 3 | 2 |
| 20 | 4 | 3 |
每个分级的项数的计算方法如下:
值的总数/分位数
在上面的简单示例中,每个分级的所需项数为 1.25(5 个值 / 4 个四分位数)。值 13(值编号为 2)跨越 1.25 的所需计数阈值,因此将根据所选的结选项进行不同处理。在添加到下一个模式下,会将其添加到分级 2 中。在保留在当前分级中模式下,会将其留在分级 1 中,从而将分级 4 的值范围不在现有数据值的范围内。结果是,仅创建三个分级,每个分级的阈值将进行相应调整,如下表中所示。
| 分级 | 下限 | 上限 |
|---|---|---|
| 1 | >=10 | <15 |
| 2 | >=15 | <20 |
| 3 | >=20 | <=20 |
注意:启用并行处理可提高按分位数分级的速度。