线性套索回归

Linear Lasso 使用 Python sklearn.linear_model.Lasso 类来估算一个或多个自变量上因变量的 L1 损失规则化线性回归模型,并包含用于显示跟踪图和基于交叉验证选择 alpha 超参数值的可选方式。 当拟合单个模型或使用交叉验证来选择 alpha 时,可使用保留数据分区来估算样本外性能。

除了将模型与 alpha 规则化参数的指定值拟合之外,线性拉索还可以显示一系列 alpha 值的系数值的跟踪图,或者通过在指定的值网格上进行 k-fold 交叉验证来促进超参数值的选择。 如果拟合单个模型或执行通过交叉验证的 alpha 选择,那么可以将最终模型应用于由输入数据分区创建的保留数据,以获取模型的样本外性能的有效估计。

获取线性套索回归分析

  1. 从菜单中选择:

    分析 > 回归 > 线性 OLS 替代方法 > 套索

    变量 对话框允许您指定一个变量,该变量将活动数据集中的每个个案分配给训练样本或坚持样本。

    注意: 红色标记的字段为必填项。 在所有必填字段中输入有效值后," 粘贴 "和 "确定 "按钮将被启用。
  2. 选择数字目标变量。 仅需要一个目标变量仅可运行分析。
  3. 指定依赖于数字的值。
  4. 至少指定一个分类因子变量或数字协变量。

(可选) 分区 提供一种方法来创建输入数据的暂挂或测试子集,以估算指定或所选模型的样本外性能。 在对过程所使用的任何变量具有无效数据的任何个案进行成列删除之后,将执行所有分区。 请注意,对于交叉验证,将在 Python中创建训练数据的折叠或分区。 无论生效方式如何,都不会在估算中使用分区创建的保留数据。

可以通过指定随机分配给每个样本的个案比率 (在 训练和保留分区下) 来定义分区,也可以通过将每个个案分配给训练或保留样本的变量来定义分区。 不能同时指定训练和变量。 如果未指定分区,那么将创建大约 30% 的输入数据的保留样本。

训练% 指定活动数据集中要随机分配给训练样本的观测值的相对数量。 缺省训练为 70%。

此过程将粘贴 LINEAR LASSO REGRESSION 命令语法。