MISSING 关键字 (MODEL HANDLE 命令)

MISSING 关键字控制在评分过程中迂到的缺失值对模型中定义的预测变量的处理。 评分过程中的缺失值指下列值之一:

  • 预测变量不包含值。 对于数值字段(变量),预测变量表示系统缺失值。 对于字符串字段,预测变量表示空字符串。
  • 在模型中,已将给定预测变量的值定义为用户缺失值。 在活动数据集中(而未在模型中)定义为用户缺失的值在得分过程中并不被视为缺失值。
  • 预测变量是分类变量,且其值不是模型中所定义的某个类别。

SYSMIS对具有缺失值的个案进行评分时返回系统缺失值。

替补对具有缺失值的观测值进行评分时使用值替换。 这是缺省值。

确定要替换缺失值的值的方法取决于预测模型的类型:

  • IBM® SPSS® Statistics 模型。 对于线性回归 (REGRESSION 命令) 和判别 (DISCRIMINANT 命令) 模型中的自变量,如果在构建和保存模型时指定了缺失值的平均值替换,那么将使用此平均值来代替评分计算中的缺失值,然后继续进行评分。 如果平均值不可用,那么 APPLYMODELSTRAPPLYMODEL 将返回系统缺失值。
  • IBM SPSS AnswerTree models & TREE command models. 对于 CHAID 和穷举 CHAID 算法,将为缺失的分割变量选择最大的子节点。 最大子节点由算法确定为使用学习样本个案的子节点中具有最大总体的子节点。 For C&RT and QUEST algorithms, surrogate split variables (if any) are used first. (替代拆分是使用替代预测变量尽可能匹配原始拆分的拆分。) 如果没有指定替代拆分或者所有替代拆分变量都缺失,那么使用最大的子节点。
  • IBM SPSS Modeler 模型。 线性回归模型如 IBM SPSS Statistics 模型中所述进行处理。 将按照 "Logistic 回归" 模型下的描述来处理 Logistic 回归模型。 C&R Tree models are handled as described for C&RT models under AnswerTree models.
  • Logistic 回归模型。 对于 Logistic 回归模型中的协变量,如果预测变量的平均值作为保存的模型的一部分包含在其中,那么在评分计算中将使用此平均值代替缺失值,评分过程继续。 如果预测变量是分类变量 (例如, Logistic 回归模型中的因子) ,或者如果平均值不可用,那么 APPLYMODELSTRAPPLYMODEL 将返回系统缺失值。

示例

MODEL HANDLE NAME=twostep1 FILE=’twostep1.mml’
   /OPTIONS MISSING=SYSMIS.
  • 在此示例中,评分期间迂到的缺失值会导致系统缺失结果。