什么是 Logistic 回归?
了解逻辑回归如何帮助进行预测,进而完善决策
Project Manager Does Motivational Presentation or Team of Electronics Development Engineers, he Uses Digital Whiteboard with Neural Network, AI and Machine Learning.
什么是 Logistic 回归?

这种类型的统计模型(也称为 Logit 模型)通常用于分类和预测性分析。 逻辑回归根据给定的自变量数据集来估计事件的发生概率,如投票或未投票。 由于结果是一个概率,因此因变量的范围在 0 和 1 之间。 在逻辑回归中,对几率应用 Logit 变换,即成功概率除以失败概率。 这通常也称为对数几率,或几率的自然对数,该逻辑函数由以下公式来表示:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

在这个逻辑回归方程中,logit(pi) 是因变量或响应变量,x 是自变量。 该模型中的 beta 参数或系数通常通过最大似然估计 (MLE) 方法进行估算。 此方法通过多次迭代测试不同的 beta 值,从而优化对数几率的最佳拟合。 所有这些迭代都会产生对数似然函数,逻辑回归会试图最大化该函数,从而找到最佳参数估计值。 一旦找到了最佳系数(具有多个自变量时找到多个系数),就可以计算、记录每个观测值的条件概率,并将它们相加在一起,得出预测概率。 对于二元分类,小于 .5 的概率将预测为 0,而大于 0 的概率则将预测为 1。  计算模型过后,最佳做法是对模型的因变量预测情况进行评估,这称为拟合优度。 Hosmer-Lemeshow 检验是评估模型拟合情况的流行方法。

解释逻辑回归

 

在逻辑回归数据分析中,对数几率可能难以理解。 因此,通常会对 beta 估计值求幂,将结果转换为优势率 (OR),便于对结果加以解释。 OR 表示与未发生特定事件时出现结果的几率相比,发生该事件时产生结果的几率。 如果 OR 大于 1,那么该事件产生特定结果的几率较高。 反之,如果 OR 小于 1,那么该事件产生该结果的几率较低。 根据上面的等式,优势率的解释可以表示如下:x 每增加一个 c 单位,成功的几率就会改变 exp(cB_1) 倍。 举个例子,假设我们要估计泰坦尼克号上的生存几率,由于这个人是男性,男性的优势率为 .0810。 我们将优势率解释为与女性相比,男性的生存几率降低了 .0810 倍,同时保持所有其他变量不变。

 

 

阅读白皮书 (776 KB)
线性回归与逻辑回归

线性回归和逻辑回归都是数据科学中最流行的模型之一,Python 和 R 等开源工具则让它们的计算变得既快速又简单。

线性回归模型用于识别连续因变量与一个或多个自变量之间的关系。 当只有一个自变量和一个因变量时,称为简单线性回归,而随着自变量数目的增加,则被称为多元线性回归。 对于每种线性回归,都会力求绘制一条通过一组数据点的最佳拟合线,这通常使用最小二乘法来计算。

与线性回归类似,逻辑回归也用于估计因变量与一个或多个自变量之间的关系,只是其作用是对分类变量与连续变量进行预测。 分类变量可以为 true 或 false、yes 或 no、1 或 0 等等。 此外,度量单位也不同于线性回归,因为它会产生一个概率,而 Logit 函数则将 S 形曲线转换为直线。  

虽然这两种模型都用于回归分析,以便预测未来结果,但线性回归通常更容易理解。 线性回归也不像逻辑回归那样需要足够大的样本来表示各类响应中的值。 如果没有较大的代表性样本,这种模型可能没有足够的统计能力来检测显著效果。

逻辑回归的类型

逻辑回归模型分为三种类型,它们基于分类响应而定义。

  • 二元逻辑回归:在这种方法中,响应变量或因变量本质上为二分法,即它只有两种可能的结果(如 0 或 1)。 它的一些流行使用示例包括预测电子邮件是否为垃圾邮件,或者肿瘤是恶性还是良性。 在逻辑回归中,这是最常见的使用方法,更概括地说,它是二元分类最常见的分类器之一。
  • 多项逻辑回归:在这种类型的逻辑回归模型中,因变量具有三个或更多可能的结果;但是,这些值并没有指定的顺序。  例如,电影制片厂想要预测影院观众可能会看什么类型的电影,从而更有效地推销电影。 多项逻辑回归模型可以帮助制片厂确定一个人的年龄、性别和约会状态对他们喜欢的电影类型所产生的影响程度。 然后,制片厂可以锁定潜在观众人群,向他们发布特定电影的广告。
  • 序数逻辑回归:当响应变量具有三个或更多可能的结果时,会利用这种类型的逻辑回归模型,但在这种情况下,这些值确实具有定义的顺序。 序数响应的示例包括从 A 到 F 的分级量表或从 1 到 5 的评分量表。 
一窥数据研究员思维 (776 KB)
逻辑回归与机器学习

机器学习中,逻辑回归属于监督式机器学习模型系列。 它被视为判别模型,这意味着它试图区分不同的类(或类别)。 与生成算法(例如朴素贝叶斯)不同,顾名思义,它不能生成试图预测的类别信息,例如图像(如猫的图片)。

先前,我们提到了逻辑回归如何最大化对数似然函数来确定模型的 beta 系数。 这在机器学习的背景下略有变化。 在机器学习中,负对数似然用作损失函数,使用梯度下降的过程来找到全局最大值。 这只是获得上述相同估计值的另一种方法。

逻辑回归也容易出现过度拟合,特别是在模型中有大量预测变量的情况下。 当模型遭遇高维时,正则化通常用于以较大系数对参数进行惩罚。

Scikit-learn(链接位于 IBM 外部)提供有价值的文档,用于了解有关逻辑回归机器学习模型的更多信息。

逻辑回归的用例

逻辑回归通常用于预测和分类问题。  其中一些用例包括:

  • 欺诈检测:逻辑回归模型可以帮助团队识别数据异常,这可以预测欺诈行为。 某些行为或特征可能与欺诈活动有着密切的关联,这对银行和其他金融机构保护其客户特别有帮助。 基于 SaaS 的公司也开始采用这些做法,在围绕业务绩效进行数据分析时,可从其数据集中剔除虚假用户帐户。
  • 疾病预测:在医学上,这种分析方法可用于预测给定人群罹患某种疾病的可能性。 医疗保健组织可以为更有可能患特定疾病的个人提供预防性护理服务。
  • 流失预测:特定行为可能表明组织不同职能部门的员工流失情况。 例如,人力资源和管理团队可能想知道公司内是否有高绩效人员可能会离职;这种类型的洞察可以促进对话,了解公司内部的问题领域,例如文化或薪酬。 或者,销售组织可能想了解他们的哪些客户有可能会将业务转移到其他地方。 这可以促使团队制定维系策略,避免收入损失。
Logistic 回归成功示例 评估信用风险

二元 Logistic 回归可以帮助银行家评估信用风险。 假设您是银行的贷款专员,想要识别可能对贷款违约的人的特征。 然后您想使用这些特征来识别好和坏的信用风险。 您有 850 个客户的数据。 前 700 个是已经收到贷款的客户。 看看您可以如何使用这 700 个客户的随机样本创建一个逻辑回归模型,并将剩下的 150 个客户分类为好或坏的风险。

提高银行业的利润

First Tennessee Bank 利用 IBM SPSS 软件提升了利润率,并在交叉销售营销活动中实现了最高 600% 的增加。 这家美国区域性银行的领导者想要以合适的产品和服务接触合适的客户。 他们并不缺有用的数据,但很难跨越从获取数据到采取行动的鸿沟。 First Tennessee 使用分析解决方案中的预测性分析和 Logistic 分析技术,获得对其所有数据的更好洞察。 结果,决策得以改进,从而优化了客户互动。 (1 MB)

相关解决方案
IBM SPSS Advanced Statistics

在使用单变量和多变量建模技术分析复杂关系时,得出更准确的结论。

探索 SPSS 高级统计
IBM SPSS Modeler

使用拖放数据科学工具提升投资收益率。

探索 SPSS Modeler
IBM SPSS Regression

预测分类结果并应用一系列非线性回归过程。

探索 SPSS 回归
IBM Watson Studio

构建并训练 AI 与机器学习模型,准备并分析数据 - 一切都在灵活的混合云环境中完成。

探索 Watson Studio
IBM Watson Discovery

借助认知探索、强大的文本分析和机器学习功能,以智能且便捷的方式挖掘和探索全部非结构化数据。

探索 Watson Discovery
资源 IBM SPSS Statistics 14 天免费试用 IBM SPSS Statistics 统计学分析演示 了解有关 IBM Watson Studio Local 的更多信息