模型选择(线性模型)
模型选择方法。 选择一种模型选择方法(下面将详细介绍)或包括所有预测变量,后者简单地输入所有可用预测变量作为主效应模型项。缺省使用向前步进。
向前步进选择。 在开始时模型中没有任何效应,然后在每个步骤中添加和删除效应,直到根据逐步选择标准不能再添加或删除效应为止。
- 输入/除去条件。 此为用于决定是将某个效应添加到还是剔除出模型的统计量。信息准则 (AICC) 基于模型中给定训练集合的似然估计,并可调整以惩罚过度复杂模型。F 统计量基于有关模型错误改进情况的某个统计量检验。调整 R 方基于训练集合的拟合度,并可调整以惩罚过度复杂模型。防止过度拟合准则 (ASE) 基于防止过度拟合集合的拟合度(平均方差,或 ASE)。防止过度拟合集合是一个随机子样本,与未用于训练模型的原始数据集的比例大约为 30%。
如果选择了 F 统计量以外的标准,那么在每步中将对应于选择标准的最大正增长的效应添加到模型。将除去模型中任何与标准降低相关的效应。
如果选择了 F 统计量作为标准,那么在每步中将具有低于指定阈值(纳入 p 值小于此值的效应)的最小 p 值的效应添加到模型。缺省值为 0.05。任何具有大于指定阈值移除 p 值大于此值的效应的 p 值的模型效应将被移除。缺省值为 0.10。
- 定制最终模型中的最大效应数。 缺省情况下,所有可用效应都将被输入模型中。另外,如果步进算法在具有最大指定效应数的步骤结束,那么此算法将在当前效应集停止。
- 定制最大步骤数。 逐步选择算法在达到特定步骤数后停止。缺省情况下,这是可用效应数的三倍。另外,请指定表示最大步骤数的正整数。
最佳子集选择。 这将检查“所有可能的”模型,或至少检查可能模型的较大子集(大于“向前步进”方法),以选择满足相应标准的最佳子集。 信息准则 (AICC) 基于模型中给定训练集合的似然估计,并可调整以惩罚过度复杂模型。调整 R 方基于训练集合的拟合度,并可调整以惩罚过度复杂模型。防止过度拟合准则 (ASE) 基于防止过度拟合集合的拟合度(平均方差,或 ASE)。防止过度拟合集合是一个随机子样本,与未用于训练模型的原始数据集的比例大约为 30%。
选择具有最大标准值的模型作为最佳模型。
注: 与向前步进选择相比,最佳子集选择涉及更密集的计算。 连同增强、组装或超大型数据集一起执行最佳子集时,与使用向前步进选择构建的标准模型相比,构建此子集花费的时间相当长。