Bootstrap 简介

在收集数据时,您通常对从中抽取样本的总体的属性感兴趣。您通过从样本计算得到的估计值来做出有关这些总体参数的推论。例如,如果随产品附带的 Employee data.sav 数据集为来自更大的职员总体的随机样本,则当前工资的样本平均值 $34,419.57 为职员总体的当前平均工资的估计值。并且,此估计值对大小为 474 的样本具有标准误差 $784.311,因此职员总体当前平均工资的 95% 置信区间为 $32,878.40 至 $35,960.73。但是这些估计量有多可靠呢?对于某些“已知”总体和表现良好的参数,我们非常了解样本估计值的属性,因此可以相信这些结果。Bootstrap 寻求发现有关“未知”总体和异常参数的估计量的更多属性信息。

Bootstrap 的工作原理

考虑最简单的情况,对于样本大小为 N 的数据集,您可以通过放回方式从原始数据集中取得 B 个 bootstrap 样本(大小为 N),并为这 B 个 bootstrap 样本中的每个样本计算估计量。这 B 个 bootstrap 估计值为大小为 B 的样本,您可从中做出有关估计量的推论。例如,如果从 Employee data.sav 数据集取得 1000 个 bootstrap 样本,则当前工资样本平均值的 bootstrap 估计标准误差 $778.76 可以替代估计值 $784.311。

此外,Bootstrap 可进一步提供标准误差和中位数的置信区间,而参数估计则对此不适用。

产品对 Bootstrap 的支持

Bootstrap 作为子对话框包含在支持 bootstrap 的过程中。请参阅 支持 Bootstrap 的过程 以获取关于哪些过程支持 bootstrap 的信息。

当在对话框中请求 bootstrap 时,将在对话框生成的常规语法外粘贴新的单独 BOOTSTRAP 命令。BOOTSTRAP 命令按照您的指定创建 bootstrap 样本。产品内部对这些 bootstrap 样本的处理方式与拆分类似,尽管它们不会明确显示在“数据编辑器”中。这意味着,内部有效存在 B*N 个个案,因此在 bootstrap 期间处理数据时,状态栏上的个案计数器将从 1 计数到 B*N。输出管理系统 (OMS) 用于收集在每个“bootstrap 拆分”上运行分析的结果。这些 bootstrap 结果在汇聚后与过程生成的其余常规输出一起显示在“查看器”中。在某些个案中,您可能会看到对“bootstrap 拆分 0”的引用;这是原始数据集。