什么是线性回归?

线性回归分析用于根据一个变量的值来预测另一个变量的值。要预测的变量称为因变量。用于预测变量值的变量称为自变量。

这种形式的分析可以预估线性方程的系数,涉及一个或多个能够最佳预测因变量值的自变量。线性回归适用于使预测和实际输出值之间的差异最小化的线或面。有一些简单线性回归计算器使用“最小二乘”法来发现一组成对数据的最佳拟合线。然后从 Y(自变量)估算 X(因变量)的值。

线性回归散点图示例

更轻松地生成预测

您可以在 Microsoft Excel 中执行线性回归,或使用统计软件包(比如 IBM SPSS® Statistics)大大简化使用线性回归方程、线性回归模型和线性回归公式的过程。SPSS Statistics 可以用于简单线性回归和多元线性回归等技术。

您可以在各种程序和环境中执行线性回归方法,包括:

  • R 线性回归
  • MATLAB 线性回归
  • Sklearn 线性回归
  • 线性回归 Python
  • Excel 线性回归

为什么线性回归很重要

线性回归模型相对简单,并且提供易于解释的数学公式用于生成预测。线性回归可以应用于商业和学术研究的各个领域。

您会发现线性回归的应用范围极其广泛,涵盖生物、行为、环境、社会科学和商业等领域。线性回归模型已经成为科学、可靠地预测未来的方法。因为线性回归是一个长期建立的统计过程,线性回归模型的属性得到了很好的理解,并且可以非常快速地进行训练。

久经验证的科学、可靠地预测未来的方法。

企业和组织领导者可以借助线性回归技术做出更明智的决策。组织收集大量数据,而线性回归可以帮助他们利用这些数据更好地管理实际运营,而不是依靠经验和直觉。您可以获取大量原始数据,并将其转换为切实可行的信息。

您还可以使用线性回归,通过了解同事先前可能看到并认为已了解的模式和关系来提供更好的洞察。例如,执行销售和采购数据分析,可以帮助您发现特定日期或特定时间的特定采购模式。从回归分析中收集的洞察可以帮助业务领导者预测其产品需求旺盛的时间。

有效线性回归的关键假设

成功进行线性回归分析需要考虑的假设:

  • 对于每个变量:考虑有效案例数量、平均值和标准差。 
  • 对于每个模型:考虑回归系数、相关矩阵、部分和偏相关、多个 R、R2、调整后的 R2、R2 中的变化、估计的标准误差、方差分析表、预测值和残差。另外,考虑每个回归系数的 95% 置信区间、方差-协方差矩阵、方差膨胀因子、容差、 Durbin-Watson 检验、距离测度(Mahalanobis、Cook 和杠杆值)、DfBeta、DfFit、预测区间和观测值诊断信息。 
  • 图:考虑散点图、部分图、直方图和正态概率图。
  • 数据:因变量和自变量应该是定量的。分类变量(例如,宗教、主要研究领域或居住区域)需要重新编码为二元(虚拟)变量或其他类型的对比变量。 
  • 其他假设:对于自变量的每个值,因变量的分布必须是正态的。因变量分布的方差对于自变量的所有值都应该是常量。因变量与每个自变量之间的关系应该是线性的,并且所有观测值都应该是独立的。

确保数据满足线性回归假设

在尝试执行线性回归之前,需要确保可以使用此过程分析数据。您的数据必须经过某些必要的假设。

以下是检验这些假设的方法:

  1. 变量应该在连续的水平上测量。连续变量的示例包括时间、销售额、重量和测试得分。 
  2. 使用散点图快速找出这两个变量之间是否存在线性关系。
  3. 观察应该彼此独立(也就是说,不应该有依赖性)。
  4. 您的数据不应有显著的异常值。 
  5. 检查同方差性 - 一种统计概念,在这个概念中,沿最佳拟合线性回归线的方差在整个线上保持相似。
  6. 最佳拟合回归线的残差(错误)遵循正态分布。

评估趋势和销售预测

您还可以使用线性回归分析,尝试从年龄、教育经历和工作经验年限等自变量中预测销售人员的年度销售总量(因变量)。

分析价格弹性

价格的变化通常会影响消费者的行为,而线性回归可以帮助您分析产生影响的方式。例如,如果特定产品的价格不断变化,您可以使用回归分析来确定消费是否会随价格的上涨而下降。如果消费不会随着价格的上涨而大幅下降呢?买方在什么价位停止购买产品?这些信息对于零售业的领导者来说非常有用。

评估保险公司的风险

线性回归技术可用于分析风险。例如,保险公司拥有的用于调查房主保险索赔的资源可能非常有限;通过线性回归,公司团队可以构建一个估算索赔成本的模型。该分析可以帮助公司领导者就可能面临的风险作出重要业务决策。

体育赛事分析

线性回归并非总是关于业务。它在体育赛事领域也能发挥重要作用。例如,您可能想知道,一个篮球队在一个赛季中获胜的比赛次数是否与球队每场比赛的平均得分有关。散点图表明这些变量是线性相关的。获胜比赛次数和对手的平均得分也呈线性相关。这些变量之间存在负相关关系。随着获胜比赛数量的增加,对手得分平均减少。通过线性回归,您可以对这些变量之间的关系建模。一个好的模型可以用来预测球队将会赢得几场比赛。

线性回归产品

IBM SPSS Statistics 软件

利用这个快速、强大的解决方案推动研究和分析。

IBM SPSS Statistics Grad Pack 和 Faculty Pack

学生、教师和研究人员能够以经济实惠的价格获得预测性分析软件。

IBM Cognos Statistics

这款久经检验的自助服务分析解决方案可以帮助您混合并匹配数据,创建具有说服力的可视化结果。