这种类型的统计模型(也称为 Logit 模型)通常用于分类和预测性分析。 逻辑回归根据给定的自变量数据集来估计事件的发生概率,如投票或未投票。 由于结果是一个概率,因此因变量的范围在 0 和 1 之间。 在逻辑回归中,对几率应用 Logit 变换,即成功概率除以失败概率。 这通常也称为对数几率,或几率的自然对数,该逻辑函数由以下公式来表示:
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
在这个逻辑回归方程中,logit(pi) 是因变量或响应变量,x 是自变量。 该模型中的 beta 参数或系数通常通过最大似然估计 (MLE) 方法进行估算。 此方法通过多次迭代测试不同的 beta 值,从而优化对数几率的最佳拟合。 所有这些迭代都会产生对数似然函数,逻辑回归会试图最大化该函数,从而找到最佳参数估计值。 一旦找到了最佳系数(具有多个自变量时找到多个系数),就可以计算、记录每个观测值的条件概率,并将它们相加在一起,得出预测概率。 对于二元分类,小于 .5 的概率将预测为 0,而大于 0 的概率则将预测为 1。 计算模型过后,最佳做法是对模型的因变量预测情况进行评估,这称为拟合优度。 Hosmer-Lemeshow 检验是评估模型拟合情况的流行方法。
在逻辑回归数据分析中,对数几率可能难以理解。 因此,通常会对 beta 估计值求幂,将结果转换为优势率 (OR),便于对结果加以解释。 OR 表示与未发生特定事件时出现结果的几率相比,发生该事件时产生结果的几率。 如果 OR 大于 1,那么该事件产生特定结果的几率较高。 反之,如果 OR 小于 1,那么该事件产生该结果的几率较低。 根据上面的等式,优势率的解释可以表示如下:x 每增加一个 c 单位,成功的几率就会改变 exp(cB_1) 倍。 举个例子,假设我们要估计泰坦尼克号上的生存几率,由于这个人是男性,男性的优势率为 .0810。 我们将优势率解释为与女性相比,男性的生存几率降低了 .0810 倍,同时保持所有其他变量不变。
线性回归和逻辑回归都是数据科学中最流行的模型之一,Python 和 R 等开源工具则让它们的计算变得既快速又简单。
线性回归模型用于识别连续因变量与一个或多个自变量之间的关系。 当只有一个自变量和一个因变量时,称为简单线性回归,而随着自变量数目的增加,则被称为多元线性回归。 对于每种线性回归,都会力求绘制一条通过一组数据点的最佳拟合线,这通常使用最小二乘法来计算。
与线性回归类似,逻辑回归也用于估计因变量与一个或多个自变量之间的关系,只是其作用是对分类变量与连续变量进行预测。 分类变量可以为 true 或 false、yes 或 no、1 或 0 等等。 此外,度量单位也不同于线性回归,因为它会产生一个概率,而 Logit 函数则将 S 形曲线转换为直线。
虽然这两种模型都用于回归分析,以便预测未来结果,但线性回归通常更容易理解。 线性回归也不像逻辑回归那样需要足够大的样本来表示各类响应中的值。 如果没有较大的代表性样本,这种模型可能没有足够的统计能力来检测显著效果。
逻辑回归模型分为三种类型,它们基于分类响应而定义。
在机器学习中,逻辑回归属于监督式机器学习模型系列。 它被视为判别模型,这意味着它试图区分不同的类(或类别)。 与生成算法(例如朴素贝叶斯)不同,顾名思义,它不能生成试图预测的类别信息,例如图像(如猫的图片)。
先前,我们提到了逻辑回归如何最大化对数似然函数来确定模型的 beta 系数。 这在机器学习的背景下略有变化。 在机器学习中,负对数似然用作损失函数,使用梯度下降的过程来找到全局最大值。 这只是获得上述相同估计值的另一种方法。
逻辑回归也容易出现过度拟合,特别是在模型中有大量预测变量的情况下。 当模型遭遇高维时,正则化通常用于以较大系数对参数进行惩罚。
Scikit-learn(链接位于 IBM 外部)提供有价值的文档,用于了解有关逻辑回归机器学习模型的更多信息。
逻辑回归通常用于预测和分类问题。 其中一些用例包括:
二元 Logistic 回归可以帮助银行家评估信用风险。 假设您是银行的贷款专员,想要识别可能对贷款违约的人的特征。 然后您想使用这些特征来识别好和坏的信用风险。 您有 850 个客户的数据。 前 700 个是已经收到贷款的客户。 看看您可以如何使用这 700 个客户的随机样本创建一个逻辑回归模型,并将剩下的 150 个客户分类为好或坏的风险。
First Tennessee Bank 利用 IBM SPSS 软件提升了利润率,并在交叉销售营销活动中实现了最高 600% 的增加。 这家美国区域性银行的领导者想要以合适的产品和服务接触合适的客户。 他们并不缺有用的数据,但很难跨越从获取数据到采取行动的鸿沟。 First Tennessee 使用分析解决方案中的预测性分析和 Logistic 分析技术,获得对其所有数据的更好洞察。 结果,决策得以改进,从而优化了客户互动。 (1 MB)
在使用单变量和多变量建模技术分析复杂关系时,得出更准确的结论。
使用拖放数据科学工具提升投资收益率。
预测分类结果并应用一系列非线性回归过程。
构建并训练 AI 与机器学习模型,准备并分析数据 - 一切都在灵活的混合云环境中完成。
借助认知探索、强大的文本分析和机器学习功能,以智能且便捷的方式挖掘和探索全部非结构化数据。