缺失值分析

“缺失值分析”过程执行三个主要功能：

描述缺失值的模式。缺失值所在位置。其范围。变量对是否往往在多个个案中具有缺失值？日期值是否为极值？值是否为随机缺失？
为不同缺失值方法估计平均值、标准差、协方差和相关性：列表法、成对法、回归法或 EM（期望最大化）。成对法还可显示成对完整个案的计数。
使用回归法或 EM 法用估计值填充（插补）缺失值。但多重插补通常被认为可以提供更准确的结果。

缺失值分析有助于解决由不完整的数据造成的若干问题。如果带有缺失值的个案与不带缺失值的个案有着根本的不同，则结果将被误导。此外，缺失的数据还可能降低所计算的统计的精度，因为计算时的信息比原计划的信息要少。另一个问题是，很多统计过程背后的假设都基于完整的个案，而缺失值可能使所需的理论复杂化。

示例。在评估白血病治疗方式时，将测量几个变量。但是，并不是针对每个患者都进行所有的测量。缺失数据的模式以表格形式显示出来，表现为随机的。EM 分析用于估计平均值、相关性和协方差。它还用来确定数据正在随机完全缺失。缺失值然后将由插补值替换，并保存到新的数据文件中以供进一步分析。

统计。 单变量统计，包括非缺失值个数、平均值、标准差、缺失值个数以及极值个数。使用列表法、成对法、EM 法或回归法的估计平均值、协方差矩阵以及相关性矩阵。对 EM 结果进行的 Little 的 MCAR 检验。按各种方法进行的平均值总计。对于按缺失和非缺失值定义的组：t 检验。对于所有变量：按个案与变量显示的缺失值模式。

数据注意事项

数据。数据可以是分类数据或定量数据（刻度或连续）。尽管如此，您只能为定量变量估计统计数据并插补缺失数据。对于每个变量，必须将未编码为系统缺失值的缺失值定义为用户缺失值。例如，如果将对问卷项的回答不知道编码为 5，并且您希望将其视为缺失，则对于此项应将 5 编码为用户缺失值。请参阅缺失值主题以获取更多信息。

频率权重。 此过程接受频率（重复）权重。忽略重复权重为负值或零值的个案。非整数权重被截断。

假设。列表法、成对法和回归法估计都基于这样的假设：缺失值的模式不依赖于数据值。（此条件又称为完全随机缺失，即 MCAR。）因此，当数据为 MCAR 时，所有估算方法（包括 EM 法）提供相关性和协方差的一致无偏估计。违反 MCAR 假设可能导致由列表法、成对法和回归法生成的有偏差的估计。如果数据不是 MCAR，则您需要使用 EM 估计。

EM 估计依赖于这样的假设：缺失数据的模式仅与观察数据相关。（此条件又称为随机缺失，即 MAR。）此假设允许通过可用信息对估计值进行调整。例如，在一项教育与收入的调查中，受教育程度低的对象可能会有更多收入缺失值。在这种情况下，该数据为 MAR，而不是 MCAR。换句话说，就 MAR 而言，收入被记录的概率取决于对象的受教育水平。概率可能因受教育程度而异但不因在教育水平内的收入而异。如果收入被记录的概率同样因属于每一教育水平的收入而异（例如，高收入人群不报告其收入），则该数据既不是 MCAR 也不是 MAR。这是一种很普遍的情况，且一旦发生，没有一种方法适合。

相关过程。很多过程都允许您使用列表或成对估计。“线性回归和因子分析”允许用平均值替换缺失值。预测附加模块提供了几种方法，可用于按时间序列替换缺失值。

获取缺失值分析

此功能需要 Statistics Base Edition。

从菜单中选择：
分析 > 缺少值分析...
至少选择一个定量（刻度）变量用于估计统计数据并根据需要插补缺失值。

根据需要，您可以：

选择分类变量（数值或字符串）并输入类别个数限制（最大类别）。
单击模式将缺失数据模式制表。请参阅显示缺失值模式主题以获取更多信息。
单击描述显示缺失值的描述统计。请参阅显示缺失值的描述统计主题以获取更多信息。
选择一种估计统计（平均值、相关性和协方差）和可能插补缺失值的方法。请参阅估计统计与插补缺失值主题以获取更多信息。
如果选择 EM 或回归法，请单击变量以指定将在估计中使用的子集。请参阅预测的变量与预测变量主题以获取更多信息。
选择一个个案标签变量。此变量用于在显示个别个案的模式表格中标注个案。