分级节点(B)
使用 Binning 节点,可以根据一个或多个现有连续(数值范围)字段的值自动创建新的名义字段。例如,可以将连续收入字段转换为包含若干等宽收入组的新的分类字段,或转换为与均值之间的偏差。或者,也可以选择一个“主管”分类字段,以保持两个字段之间原始关联的强度。
分级的实用性源于以下几个原因:
- 算法要求。某些特定算法(如朴素贝叶斯、Logistic 回归)要求分类输入。
- 性能。如果减少输入字段的不同值数量,算法(如多项 Logistic)的性能可能会提高。例如,对每个分级使用中位数或均值,而不使用原始值。
- 数据隐私。敏感类个人信息(如工资)可采用范围的报告形式,而不使用实际工资数字,以保护个人隐私。
提供了一些分级方法。一旦创建新字段分级后,即可根据割点创建“衍生”节点。
何时使用分箱节点
在使用分级节点之前,请考虑是否有更适用于当前任务的其他技术:
- 要为类别手动指定特定(如特定的预定义工资范围),请使用 Derive 节点。有关更多信息,请参阅“派生”节点主题。
- 要为现有集合创建新类别,请使用重新分类节点。有关更多信息,请参阅重新分类节点(C)主题。
缺失值处理
分级节点处理缺失值的方法如下:
- 用户指定的空白值。转换过程中将包括指定为空白值的缺失值。例如,若使用 Type 节点指定 –99 表示空白值,那么会在分级过程中包括此值。要在分级过程中忽略空白值,应使用 Filler 节点将空白值替换为系统空值。
- 系统缺失值 ($null$)。在分级转换过程中,空值将被忽略,并在转换之后保持空值。
“设置”选项卡提供了有关适用技术的选项。“视图”选项卡将显示针对先前通过节点的数据建立的割点。