转换字段(自动数据准备)
为提高数据预测能力,您可以转换输入字段。
转换建模字段。取消选择该选项将在保持选择的同时禁用所有其他“转换字段”控件。
分类输入字段 以下选项可用:
- 合并松散类别以最大化与目标的关联。选中此选项,可以减少与目标关联的需处理的字段数目,得到更简约的模型。通过输入与目标间的关系可以确定类似的类别。无显著差异(即 p 值大于指定值)的类别则被合并。指定一个大于 0 且小于或等于 1 的值。如果将所有类别合并为单个类别,则会从进一步分析中排除字段的原始和派生版本,因为它们没有值作为预测变量。
- 没有目标时,根据以下计数合并松散类别。如果数据集没有目标,您可以选择合并有序和名义字段的松散类别。等频法用于合并具有低于指定的总记录数最小百分比的类别。指定一个大于等于 0 且小于等于 100 的值。缺省值为 10。当不存在具有低于指定最小个案百分比的类别,或只剩下两个类别时,合并停止。
连续输入字段。如果数据集包含类别目标,则可以采用强关联对连续输入分级,以改进处理性能。分箱是根据“齐次子集”的属性来创建,后者通过 Scheffe 方法进行确定,并使用指定的 p 值作为确定齐次子集的临界值 alpha。指定一个大于 0 且小于或等于 1 的值。缺省值为 0.05。如果特定字段的分箱化结果为单个分箱,则会排除字段的原始和分级版本,因为它们没有值作为预测变量。
注:ADP 中的分箱化与最佳分箱化不同。最佳分箱化使用熵信息将连续字段转换为分类字段。这需要在内存中对全部数据进行排序和存储。ADP 使用齐次子集来分箱化连续字段,这意味着 ADP 分箱化不需要在内存中对全部数据进行排序和存储。通过使用齐次子集方法分箱化连续字段,分箱化后的类别数总是小于或等于目标中的类别数。