分位数(相等计数或总和)

分位数分级方法用于创建名义字段,这些字段可用于将扫描到的记录分割为百分位数(或四分位数、十分位数等)组,使每个组包含相同数量的记录,或使每个组中值的总和相等。记录根据指定的分级字段值按升序排列,因此所选分级变量的值最低的记录将获得等级 1,下一组记录等级为 2,依此类推。每个分级的阈值将根据所用的数据和分位方法自动生成。

分位数名称扩展。指定用于使用标准 p 分位数生成的字段的扩展名。缺省扩展名为 _TILE 加上 N ,其中 N 是分位数。您还可以指定将扩展部分添加到字段名的开头(前缀)还是末尾(后缀)。例如,可以生成名为 income_BIN4 的新字段。

定制分位数扩展名。指定用于定制分位数范围的扩展名。缺省值为 _TILEN 。请注意,此处的 N不会被定制数字替换。

可用的 p 分位数如下:

  • 四分位数。生成 4 个分级,每个包含 25% 的观测值。
  • 五分位数。生成 5 个分级,每个包含 20% 的观测值。
  • 十分位数。生成 10 个分级,每个包含 10% 的观测值。
  • 二十分位数。生成 20 个分级,每个包含 5% 的观测值。
  • 百分位数。生成 100 个分级,每个包含 1% 的观测值。
  • 定制 N。选择此选项可指定分级数。例如,值为 3 将产生 3 个划分类别(2 个割点),每个包含 33.3% 的观测值。

请注意,如果数据中的离散值少于指定的分位数,那么不会使用任何分位数。在这种情况下,新的分布很可能反映数据的原始分布。

分位方法。指定用于为分级分配记录的方法。

  • 记录计数。尽量为每个分级分配相等数目的记录。
  • 值的总和。为分级分配记录时,尽量使每个分级中值的总和相等。例如,以销售业绩为目标时,此方法可用于根据每条记录的值为十分位数组分配预期业绩,最高分级获得价值最高的预期业绩。例如,某制药公司可根据所开处方的数量将医师分入十分位数组。尽管每个十分位数包含的底方数大致相同,但各人在其中拥有的底方数并不相同,所开底方最多的个人集中在十分位数 10 中。请注意,此方法会假定所有值均大于零,如果实际情况不是这样则可能产生意外结果。

。当分割点两侧的值相同时,将产生结条件。例如,如果是分配十分位数,且超过 10% 的记录的分级字段具有相同值,那么除非对阈值进行向上或向下的强制转换,否则无法将这些记录全部分配至同一分级。可以将结上移至下一个分级,也可以保留在当前分级中,但必须将其解决,使具有相同值的所有记录位于同一分级内,即使这样会导致某些分级的记录数超过预期值也是如此。后续分级的阈值可能也会因此发生调整,导致对相同数字集合进行不同的值分配,具体取决于用于解决结的方法。

  • 添加到下一个分级。选择此选项可将结值上移至下一个分级。
  • 保留在当前分级中。将值保留在当前(较低)分级中。此方法可能会减少创建的分级总数。
  • 随机分配。选择此选项可将同数值随机分配至一个分级。这将试图使每个分级中的记录数量相等。

示例:按记录计数分位

下表说明了按记录计数进行分位时如何将简单字段值分为四分位数。请注意,结果将随选择的结选项而变化。

表 1. 按记录计数分位的示例
值(V) 添加到下一个 保留在当前分级中
10 1 1
13 2 1
15 3 2
15 3 2
20 4 3

每个分级的项数的计算方法如下:

值的总数/分位数

在上面的简单示例中,每个分级的所需项数为 1.25(5 个值 / 4 个四分位数)。值 13(值编号为 2)跨越 1.25 的所需计数阈值,因此将根据所选的结选项进行不同处理。在添加到下一个模式下,会将其添加到分级 2 中。在保留在当前分级中模式下,会将其留在分级 1 中,从而将分级 4 的值范围不在现有数据值的范围内。结果是,仅创建三个分级,每个分级的阈值将进行相应调整,如下表中所示。

表 2. 分级示例结果
分级 下限 上限
1 >=10 <15
2 >=15 <20
3 >=20 <=20

注意:启用并行处理可提高按分位数分级的速度。