缺失值分析
“缺失值分析”过程执行三个主要功能:
- 描述缺失值的模式。 缺失值所在位置。 其范围。 变量对是否往往在多个个案中具有缺失值? 日期值是否为极值? 值是否为随机缺失?
- 为不同缺失值方法估计平均值、标准差、协方差和相关性:列表法、成对法、回归法或 EM(期望最大化)。 成对法还可显示成对完整个案的计数。
- 使用回归法或 EM 法用估计值填充(插补)缺失值。但多重插补通常被认为可以提供更准确的结果。
缺失值分析有助于解决由不完整的数据造成的若干问题。 如果带有缺失值的个案与不带缺失值的个案有着根本的不同,则结果将被误导。 此外,缺失的数据还可能降低所计算的统计的精度,因为计算时的信息比原计划的信息要少。 另一个问题是,很多统计过程背后的假设都基于完整的个案,而缺失值可能使所需的理论复杂化。
示例。 在评估白血病治疗方式时,将测量几个变量。 但是,并不是针对每个患者都进行所有的测量。 缺失数据的模式以表格形式显示出来,表现为随机的。 EM 分析用于估计平均值、相关性和协方差。 它还用来确定数据正在随机完全缺失。 缺失值然后将由插补值替换,并保存到新的数据文件中以供进一步分析。
统计。 单变量统计,包括非缺失值个数、平均值、标准差、缺失值个数以及极值个数。 使用列表法、成对法、EM 法或回归法的估计平均值、协方差矩阵以及相关性矩阵。 对 EM 结果进行的 Little 的 MCAR 检验。 按各种方法进行的平均值总计。 对于按缺失和非缺失值定义的组:t 检验。 对于所有变量:按个案与变量显示的缺失值模式。
数据注意事项
数据。 数据可以是分类数据或定量数据(刻度或连续)。 尽管如此,您只能为定量变量估计统计数据并插补缺失数据。 对于每个变量,必须将未编码为系统缺失值的缺失值定义为用户缺失值。 例如,如果将对问卷项的回答不知道编码为 5,并且您希望将其视为缺失,则对于此项应将 5 编码为用户缺失值。 请参阅 缺失值 主题以获取更多信息。
频率权重。 此过程接受频率(重复)权重。 忽略重复权重为负值或零值的个案。 非整数权重被截断。
假设。 列表法、成对法和回归法估计都基于这样的假设:缺失值的模式不依赖于数据值。 (此条件又称为完全随机缺失,即 MCAR。) 因此,当数据为 MCAR 时,所有估算方法(包括 EM 法)提供相关性和协方差的一致无偏估计。 违反 MCAR 假设可能导致由列表法、成对法和回归法生成的有偏差的估计。 如果数据不是 MCAR,则您需要使用 EM 估计。
EM 估计依赖于这样的假设:缺失数据的模式仅与观察数据相关。 (此条件称为随机缺失或 MAR。) 此假设允许使用可用信息来调整估算值。 例如,在一项教育与收入的调查中,受教育程度低的对象可能会有更多收入缺失值。 在这种情况下,该数据为 MAR,而不是 MCAR。 换句话说,就 MAR 而言,收入被记录的概率取决于对象的受教育水平。 概率可能因受教育程度而异但不因在教育水平内的收入而异。 如果收入记录的概率也因每个教育水平的收入值而异( 例如,高收入的人不报告),那么数据既不是 MCAR,也不是 MAR。 这并非不寻常的情况,如果适用的话,任何方法都不合适。
相关过程。 很多过程都允许您使用列表或成对估计。 “线性回归和因子分析”允许用平均值替换缺失值。 预测附加模块提供了几种方法,可用于按时间序列替换缺失值。
获取缺失值分析
此功能需要“缺失值”选项。
- 从菜单中选择:
- 至少选择一个定量(刻度)变量用于估计统计数据并根据需要插补缺失值。
根据需要,您可以:
- 选择分类变量(数值或字符串)并输入类别个数限制(最大类别)。
- 单击模式将缺失数据模式制表。 请参阅主题 显示缺失值的模式 以获取更多信息。
- 单击描述显示缺失值的描述统计。 请参阅主题 显示缺失值的描述性统计信息 以获取更多信息。
- 选择一种估计统计(平均值、相关性和协方差)和可能插补缺失值的方法。 请参阅主题 估算统计和插补缺失值 以获取更多信息。
- 如果选择 EM 或回归法,请单击变量以指定将在估计中使用的子集。 请参阅 预测变量和预测变量 主题以获取更多信息。
- 选择一个个案标签变量。 此变量用于在显示个别个案的模式表格中标注个案。