缺失值分析

“缺失值分析”过程执行三个主要功能:

缺失值分析有助于解决由不完整的数据造成的若干问题。如果带有缺失值的个案与不带缺失值的个案有着根本的不同,则结果将被误导。此外,缺失的数据还可能降低所计算的统计的精度,因为计算时的信息比原计划的信息要少。另一个问题是,很多统计过程背后的假设都基于完整的个案,而缺失值可能使所需的理论复杂化。

示例。在评估白血病治疗方式时,将测量几个变量。但是,并不是针对每个患者都进行所有的测量。缺失数据的模式以表格形式显示出来,表现为随机的。EM 分析用于估计平均值、相关性和协方差。它还用来确定数据正在随机完全缺失。缺失值然后将由插补值替换,并保存到新的数据文件中以供进一步分析。

统计。 单变量统计,包括非缺失值个数、平均值、标准差、缺失值个数以及极值个数。使用列表法、成对法、EM 法或回归法的估计平均值、协方差矩阵以及相关性矩阵。对 EM 结果进行的 Little 的 MCAR 检验。按各种方法进行的平均值总计。对于按缺失和非缺失值定义的组:t 检验。 对于所有变量:按个案与变量显示的缺失值模式。

数据注意事项

数据。数据可以是分类数据或定量数据(刻度或连续)。尽管如此,您只能为定量变量估计统计数据并插补缺失数据。对于每个变量,必须将未编码为系统缺失值的缺失值定义为用户缺失值。例如,如果将对问卷项的回答不知道编码为 5,并且您希望将其视为缺失,则对于此项应将 5 编码为用户缺失值。请参阅缺失值主题以获取更多信息。

频率权重。 此过程接受频率(重复)权重。忽略重复权重为负值或零值的个案。非整数权重被截断。

假设。列表法、成对法和回归法估计都基于这样的假设:缺失值的模式不依赖于数据值。(此条件又称为完全随机缺失,即 MCAR。)因此,当数据为 MCAR 时,所有估算方法(包括 EM 法)提供相关性和协方差的一致无偏估计。违反 MCAR 假设可能导致由列表法、成对法和回归法生成的有偏差的估计。如果数据不是 MCAR,则您需要使用 EM 估计。

EM 估计依赖于这样的假设:缺失数据的模式仅与观察数据相关。(此条件又称为随机缺失,即 MAR。)此假设允许通过可用信息对估计值进行调整。例如,在一项教育与收入的调查中,受教育程度低的对象可能会有更多收入缺失值。在这种情况下,该数据为 MAR,而不是 MCAR。换句话说,就 MAR 而言,收入被记录的概率取决于对象的受教育水平。概率可能因受教育程度而异但不因在教育水平内的收入而异。如果收入被记录的概率同样因属于每一教育水平的收入而异(例如,高收入人群不报告其收入),则该数据既不是 MCAR 也不是 MAR。这是一种很普遍的情况,且一旦发生,没有一种方法适合。

相关过程。很多过程都允许您使用列表或成对估计。“线性回归和因子分析”允许用平均值替换缺失值。预测附加模块提供了几种方法,可用于按时间序列替换缺失值。

获取缺失值分析

此功能需要 Statistics Base Edition。

  1. 从菜单中选择:

    分析 > 缺少值分析...

  2. 至少选择一个定量(刻度)变量用于估计统计数据并根据需要插补缺失值。

根据需要,您可以: