缺失值分析
“缺失值分析”过程执行三个主要功能:
- 描述缺失值的模式。缺失值所在位置。其范围。变量对是否往往在多个个案中具有缺失值?日期值是否为极值?值是否为随机缺失?
- 为不同缺失值方法估计平均值、标准差、协方差和相关性:列表法、成对法、回归法或 EM(期望最大化)。 成对法还可显示成对完整个案的计数。
- 使用回归法或 EM 法用估计值填充(插补)缺失值。但多重插补通常被认为可以提供更准确的结果。
缺失值分析有助于解决由不完整的数据造成的若干问题。如果带有缺失值的个案与不带缺失值的个案有着根本的不同,则结果将被误导。此外,缺失的数据还可能降低所计算的统计的精度,因为计算时的信息比原计划的信息要少。另一个问题是,很多统计过程背后的假设都基于完整的个案,而缺失值可能使所需的理论复杂化。
示例。在评估白血病治疗方式时,将测量几个变量。但是,并不是针对每个患者都进行所有的测量。缺失数据的模式以表格形式显示出来,表现为随机的。EM 分析用于估计平均值、相关性和协方差。它还用来确定数据正在随机完全缺失。缺失值然后将由插补值替换,并保存到新的数据文件中以供进一步分析。
统计。 单变量统计,包括非缺失值个数、平均值、标准差、缺失值个数以及极值个数。使用列表法、成对法、EM 法或回归法的估计平均值、协方差矩阵以及相关性矩阵。对 EM 结果进行的 Little 的 MCAR 检验。按各种方法进行的平均值总计。对于按缺失和非缺失值定义的组:t 检验。 对于所有变量:按个案与变量显示的缺失值模式。
数据注意事项
数据。数据可以是分类数据或定量数据(刻度或连续)。尽管如此,您只能为定量变量估计统计数据并插补缺失数据。对于每个变量,必须将未编码为系统缺失值的缺失值定义为用户缺失值。例如,如果将对问卷项的回答不知道编码为 5,并且您希望将其视为缺失,则对于此项应将 5 编码为用户缺失值。请参阅缺失值主题以获取更多信息。
频率权重。 此过程接受频率(重复)权重。忽略重复权重为负值或零值的个案。非整数权重被截断。
假设。列表法、成对法和回归法估计都基于这样的假设:缺失值的模式不依赖于数据值。(此条件又称为完全随机缺失,即 MCAR。)因此,当数据为 MCAR 时,所有估算方法(包括 EM 法)提供相关性和协方差的一致无偏估计。违反 MCAR 假设可能导致由列表法、成对法和回归法生成的有偏差的估计。如果数据不是 MCAR,则您需要使用 EM 估计。
EM 估计依赖于这样的假设:缺失数据的模式仅与观察数据相关。(此条件又称为随机缺失,即 MAR。)此假设允许通过可用信息对估计值进行调整。例如,在一项教育与收入的调查中,受教育程度低的对象可能会有更多收入缺失值。在这种情况下,该数据为 MAR,而不是 MCAR。换句话说,就 MAR 而言,收入被记录的概率取决于对象的受教育水平。概率可能因受教育程度而异但不因在教育水平内的收入而异。如果收入被记录的概率同样因属于每一教育水平的收入而异(例如,高收入人群不报告其收入),则该数据既不是 MCAR 也不是 MAR。这是一种很普遍的情况,且一旦发生,没有一种方法适合。
相关过程。很多过程都允许您使用列表或成对估计。“线性回归和因子分析”允许用平均值替换缺失值。预测附加模块提供了几种方法,可用于按时间序列替换缺失值。
获取缺失值分析
此功能需要 Statistics Base Edition。
- 从菜单中选择:
- 至少选择一个定量(刻度)变量用于估计统计数据并根据需要插补缺失值。
根据需要,您可以:
- 选择分类变量(数值或字符串)并输入类别个数限制(最大类别)。
- 单击模式将缺失数据模式制表。请参阅 显示缺失值模式主题以获取更多信息。
- 单击描述显示缺失值的描述统计。请参阅 显示缺失值的描述统计主题以获取更多信息。
- 选择一种估计统计(平均值、相关性和协方差)和可能插补缺失值的方法。请参阅 估计统计与插补缺失值主题以获取更多信息。
- 如果选择 EM 或回归法,请单击变量以指定将在估计中使用的子集。请参阅 预测的变量与预测变量主题以获取更多信息。
- 选择一个个案标签变量。此变量用于在显示个别个案的模式表格中标注个案。