逻辑回归根据给定的自变量数据集估算事件发生的概率,如投票或不投票。
这类统计模型(也称为 logit 模型)通常用于分类和预测分析。由于结果是概率,因此因变量的边界介于 0 和 1 之间。在逻辑回归中,对几率(即成功概率除以失败概率)应用 logit 变换。这通常也称为对数几率或几率的自然对数,此逻辑函数由以下公式表示:
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
在这个逻辑回归方程中,logit(pi) 是因变量或响应变量,x 是自变量。此模型中的 beta 参数或系数,通常通过最大似然估计 (MLE) 进行估算。此方法通过多次迭代测试不同的 beta 值,以优化对数几率的最佳拟合。所有这些迭代都会产生对数似然函数,逻辑回归旨在最大化该函数以找到最佳参数估计值。一旦找到最佳系数(如果存在多个自变量,则有多个系数),就可以计算、记录每个观测值的条件概率并将其相加,以产生预测概率。对于二元分类,小于 0.5 的概率将预测 0,而大于 0 的概率将预测 1。计算模型后,最佳做法是评估模型预测因变量的准确程度,这称为拟合优度。Hosmer–Lemeshow 检验是评估模型拟合度的常用方法。
了解采用 AI 的障碍,特别是缺乏 AI 治理和风险管理解决方案。
在 Presto 上注册以获取电子书
在逻辑回归数据分析中,对数几率可能很难理解。因此,通常将 beta 估算值指数化,将结果转化为几率比 (OR),从而简化结果的解释。OR 表示在特定事件发生的情况下发生某种结果的几率与在没有该事件的情况下发生该结果的几率之比。如果 OR 大于 1,则该事件与生成特定结果的更高几率相关。相反,如果 OR 小于 1,则该事件与该结果发生的较低几率相关。根据上述等式,几率比的解释可以表示为:x 每增加 c 个单位,成功的几率就会变化 exp(cB_1) 倍。举个例子,假设我们要估计泰坦尼克号上的生存几率,且这个人是男性,男性的几率比是 0.0810。我们可以把几率比解释为,与女性相比,在所有其他变量不变的情况下,男性的存活几率降低了 0.0810 倍。
线性回归和逻辑回归都是数据科学中最流行的模型,而 Python 和 R 等开源工具可以使它们的计算变得快速而简单。
线性回归模型用于识别连续因变量与一个或多个自变量之间的关系。当只有一个自变量和一个因变量时,这称为简单线性回归,但若自变量的数量增加,则为多元线性回归。对于每种类型的线性回归,都试图通过一组数据点绘制一条最佳拟合线,拟合线通常使用最小二乘法计算。
与线性回归类似,逻辑回归也用于估计因变量与一个或多个自变量之间的关系,但它用于对分类变量比照连续变量进行预测。分类变量可以是真或假、是或否、1 或 0 等等。计量单位也与线性回归不同,因为线性回归产生的是概率,而 logit 函数将 S 曲线转换为直线。
虽然这两个模型都用于回归分析,以预测未来结果,但线性回归通常更容易理解。线性回归也不需要那么大的样本量,而逻辑回归需要足够的样本来表示所有响应类别的值。如果没有较大的代表性样本,该模型可能没有足够的统计功效来检测显著效应。
逻辑回归模型有三种类型,它们是根据分类响应定义的。
在机器学习中,逻辑回归属于监督式机器学习模型家族。它也被认为是一种判别模型,这意味着它试图分类(或类别)。与生成算法(如朴素贝叶斯)不同,顾名思义,它不能生成它试图预测的类的信息,例如图像(例如猫的图片)。
前面,我们提到了逻辑回归如何最大化对数似然函数以确定模型的 beta 系数。在机器学习的背景下这种情况略有变化。在机器学习中,负对数似然用作损失函数,使用梯度下降过程来找到全局最大值。这只是得出上述估算结果的另一种方法。
逻辑回归也容易出现过拟合,尤其是当模型中存在大量预测变量时。正则化通常用于在模型遭受高维时惩罚大参数系数。
Scikit-learn(ibm.com 外部链接)为了解有关逻辑回归机器学习模型的更多信息提供了有价值的文档。
逻辑回归通常用于预测和分类问题。其中一些用例包括:
二元逻辑回归可以帮助银行业者评估信用风险。了解如何使用随机样本创建逻辑回归模型,并将客户分类为好风险或坏风险。
First Tennessee Bank 使用 IBM SPSS 软件执行预测分析和逻辑回归研究,提高了盈利能力,并在交叉销售活动中实现了高达 600% 的增长。First Tennessee 正在分析解决方案中使用预测分析和逻辑分析方法,以更深入地了解其所有数据。