填补缺失值

审核报告列出每个字段完整记录的百分比以及有效值、空值和空白值的数目。您可以根据情况选择填补特定字段的缺失值,然后生成超节点以应用这些变换。

  1. 填补缺失值列中,指定要填补的值的类型(如果有)。您可以选择填补空白值和/或空值,或指定用于选择待填补值的定制条件或表达式。

    IBM® SPSS® Modeler 可识别的缺失值类型有以下几种:

    • 空值或系统缺失值。这两种类型是数据库或源文件中留空、并且尚未在源节点或类型节点中专门定义为“缺失”的非字符串值。系统缺失值显示为 $null$。请注意,空字符串在 IBM SPSS Modeler 中不被视为空值,但它们可能会被某些数据库视为空值。
    • 空字符串和空白。空字符串值和空白(带有不可见字符的字符串)不被视为空值。对于大多数用途,空字符串都视为相当于空白。例如,如果您选择在源节点或类型节点中将空白视为空白值的选项,则此设置也应用于空字符串。
    • 空白值或用户定义的缺失值。这些是在源节点或类型节点中被明确定义为缺失的值(例如 unknown99–1)。您还可以将空和空白视为空白值,这样将使得它们被标记为进行特殊处理并排除在大多数计算之外。例如,您可以使用 @BLANK 函数将这些值以及其他类型的缺失值处理为空白值。
  2. 方法列中,指定要使用的方法。

    下列方法可用于输入缺失值:

    固定。替换为固定值(可以字段平均值、范围中间值,或者您指定的常数)。

    随机。替换为基于正态分布或均匀分布产生的随机值。

    表达式。用于指定定制表达式。例如,您可以使用设置全局量节点创建的全局变量替换值。

    算法。基于 C&RT 算法替换为模型预测的值。对于使用此方法输入的每个字段,都会有一个单独的 C&RT 模型,还有一个填充节点会使用该模型预测的值替换空白值和空值。然后使用过滤节点删除该模型生成的预测字段。

  3. 要生成缺失值超节点,请从菜单中选择:

    生成 > 缺失值超节点

    这将显示“缺失值超节点”对话框。

  4. 选择所有字段仅选定字段,并根据需要指定样本大小。(指定的样本是百分比,缺省情况,将对所有记录取 10% 的样本。)
  5. 单击确定将生成的超节点添加到流工作区中。
  6. 将超节点附加到流中以应用变换。

在超节点中,将根据情况使用由模型块、填充和过滤节点形成的组合。要了解超节点如何工作,可以编辑超节点并单击放大,并且可以在超节点中添加、编辑或删除特定节点以对行为进行微调。