插补缺失数据值(多重插补)
插补缺失数据值用于产生多重插补。 可以使用支持多重插补数据集的过程来分析完整的数据集。 请参阅 分析多重插补数据 ,以获取有关分析多重插补数据集以及支持这些数据的过程列表的信息。 这是 多重插补 过程。
示例。 电信供应商想更好理解客户数据库中的服务用途模式。 他们拥有客户所使用的服务的完整数据,但是公司收集的人口统计信息有大量缺失值。 此外,这些值并未随机完全缺失,因此多重插补将用于完成数据集。
从菜单中选择:
- 在插补模型中选择至少两个变量。 该过程插补这些变量缺失数据的多个值。
- 指定要计算插补的数量。 缺省情况下,该值为 5。
- 指定应将插补数据写入的数据集或 IBM® SPSS® Statistics格式的数据文件。
输出数据集由带有缺失数据的原始数据和带有每次插补的插补值的一组个案组成。 例如,如果原始数据集有 100 个个案并且您有五个插补,那么输出数据集将有 600 个个案。 输入数据集中的所有变量被包括在输出数据集中。 字典属性 (名称,标签等) 将现有变量复制到新数据集。 文件也包含一个新变量 Imputation_,它是一个指示插补的数字变量(原始数据为 0,或具有插补值的个案为 1..n)。
创建输出数据集时,该过程会自动将 Imputation_ 变量定义为拆分变量 (请参阅 拆分文件) 。 如果过程执行时拆分生效,则输出数据集包括拆分变量值每个组合的一个插补集合。
可选设置
分析权重。 此变量包含分析(回归或抽样)权重。 该过程在用于插补缺失值的回归和分类模型中融入了分析权重。 分析权重也用在插补值概要中;例如平均值、标准差和标准误差。 排除分析权重为负值或零值的个案。
具有未知测量级别的字段
当数据集中的一个或多个变量(字段)的测量级别未知时,将显示测量级别警告。 由于测量级别会影响该过程的计算结果,因此所有变量必须都定义有测量级别。
扫描数据。 读取活动数据集中的数据,并分配缺省测量级别给任何具有当前未知测量级别的字段。 如果数据集较大,该过程可能需要一些时间。
手动分配。 打开列出了所有具有未知测量级别的字段的对话框。 您可以使用该对话框将测量级别分配给这些字段。 您也可以在数据编辑器的变量视图中分配测量级别。
由于测量级别对该过程很重要,因此您无法访问运行该过程的对话框,除非所有字段均定义了测量级别。
此过程将粘贴 MULTIPLE IMPUTATION 命令语法。