逻辑回归

预测结果并做出更好的决策

Project Manager Does Motivational Presentation or Team of Electronics Development Engineers, he Uses Digital Whiteboard with Neural Network, AI and Machine Learning.

什么是 Logistic 回归?

这种类型的统计分析(也称为 Logit 模型)常用于预测性分析和建模,并延伸到机器学习中的应用。 在这种分析方法中,因变量是有限变量或分类变量:要么是 A 或 B(二元回归),要么是一系列有限选项 A、B、C 或 D(多项回归)。 它在统计软件中用于了解因变量和一个或更多自变量之间的关系,方法是使用 Logistic 回归方程来估算概率。 

这种类型的分析可以帮助您预测发生某个事件或做出某个选择的可能性。 例如,您可能想知道访问者选择您 Web 站点上提供的优惠与否的可能性(因变量)。 您的分析可以查看访问者的已知特性,如他们所来自的站点、对您站点的重复访问、您站点上的行为(自变量)。 Logistic 回归模型帮助您确定哪种类型的访问者可能接受该优惠与否的概率。 因此,您可以就提出优惠做出更好决策,或就优惠本身做出决策。


机器学习和预测模型

机器学习使用统计概念来支持机器(计算机)在没有显式编程的情况下“学习”。 机器正在学习的任务基于两个值或二元分类时,Logistic 方法最适合。 使用上述示例,您的计算机可以使用这种类型的分析,自行做出有关提出优惠和执行操作的决定。 此外,随着提供更多数据, 它可以学习如何随时间推移更好地执行此操作。

使用 Logistic 分析的一些类型的预测模型:

  • 广义线性模型
  • 离散选项
  • 多项 Logit
  • 混合 Logit
  • Probit
  • 多项 Probit
  • 有序 Logit

为什么 Logistic 回归很重要

使用此方法构建的预测模型可以在您的企业或组织中产生积极的影响。 由于这些模型可帮助您理解关系并预测结果,因此您可以采取行动来改善决策。 例如,制造商的分析团队可以使用 Logistic 回归分析 作为统计软件包的一部分,发现机器中的部件故障与那些部件停留在存货中的时长之间的概率。 利用从此分析收到的信息,团队可以决定调整交付计划或安装时间,以消除未来的故障。

在医学上,这种分析方法可以用来预测疾病对于给定人群的发生可能性,从而可以相应采取预防措施。 企业可以使用此方法,通过分析买方行为,发现导致更高员工保留率或创造更赚钱产品的模式。 在商业世界,此类型的分析由 数据科学家应用,以实现清晰的目标:分析并解释复杂的数字数据。


统计概念和应用

当然,多项分析也有助于检查一系列分类结果:A、B、C 或 D。但二元分析(是或否,存在或不存在)更常使用。 虽然结果是有限的,但可能性却是无限的。 二元 Logistic 回归可用于检查各种事项,从棒球统计到滑坡敏感性,再到笔迹分析,应有尽有。

此分析方法对于一系列统计概念和应用也很有用:

  • 文本分析
  • 卡方自动交互检测 (CHAID)
  • 联合分析
  • 自举统计
  • 非线性回归
  • 聚类统计和聚类分析软件
  • 蒙特卡罗模拟
  • 描述性统计

使用统计分析软件,可以为 Logistic 回归分析、多变量分析、神经网络、决策树和线性回归等方法带来极大价值。 但请记住:如果需要在本地、云中或混合云配置中容纳大型数据集,还应该考虑硬件和云计算解决方案。


有效 Logistic 回归的关键假设

此方法何时最有效或最无效?

虽然二元 Logistic 回归更常得到使用和讨论,考虑每种类型何时最有效会很有帮助。

多项 可以用于基于预测行为的一系列分类变量,将受试者分类为各个组。 例如,您可以执行一项调查,要求参与者从几个竞争产品中选择自己最喜欢的一个。 您可以创建最有可能对您的产品感兴趣的人的个人资料,并相应地计划您的广告策略。

二元 在您期望对有两种结果的分类响应变量的事件概率建模时最有用。 一个贷款专员想知道下一位客户是否可能对贷款违约。 二元分析可以帮助评估将信用延伸到该特定客户的风险。


潜在危险

 

了解此类型的分析何时可能无效也很有帮助, Classroom – The Disadvantages of Logistic Regression(链接位于 ibm.com 外部)如是说。 以下是一些需要注意的危险:

  • 自变量必须有效。 不正确或不完整的变量会削弱模型的预测值的可信度。
  • 避免连续的结果。 温度、时间或任何没有限制的东西都会使模型的精确度低得多。
  • 不要使用相互关联的数据。 如果某些观测值彼此相关,模型将倾向于高估其显著性。
  • 谨防过度拟合或夸大。 这些统计分析模型是精确的,但精度并非一毫不差或一成不变。

工具和比较

工具
您可以在 Microsoft Excel 中执行此分析方法,但对于几乎所有应用,包括条件 Logistic 回归、多 Logistic 回归和多变量 Logistic 回归,都建议使用开源(Logistic 回归 R)或商业(Logistic 回归 SPSS)软件包来更高效地分析数据和应用 技术。 您可以在 Microsoft Excel 中执行分析,或使用统计软件包(比如 IBM SPSS® Statistics)大大简化使用 Logistic 回归方程、Logistic 回归模型和 Logistic 回归公式的过程。

与线性回归比较
何时使用线性或 Logistic 分析是一种常见的问询。 基本上,在因变量是开放式或连续的(例如,天文距离或温度)时,应用线性回归分析更有效。 因变量仅限于一系列值或者是分类的(A 或 B... 或者 A、B、C 或 D)时,请使用 Logistic 方法。


Logistic 回归成功示例


相关解决方案

IBM SPSS Advanced Statistics

在使用单变量和多变量建模技术分析复杂关系时,得出更准确的结论。


IBM SPSS Modeler

使用拖放数据科学工具提升投资收益率。


IBM SPSS Regression

预测分类结果并应用一系列非线性回归过程。


IBM Watson Studio

构建并训练 AI 与机器学习模型,准备并分析数据 - 一切都在灵活的混合云环境中完成。


IBM Watson Discovery

借助认知探索、强大的文本分析和机器学习功能,以智能且便捷的方式挖掘和探索全部非结构化数据。