何謂線性迴歸?

線性迴歸分析用於根據另一個變數的值來預測某個變數的值。您要預測的變數稱為應變數。您用來預測其他變數值的變數稱為自變數。

這種分析形式可預估線性方程的係數,其中涉及一或多個可最佳預測應變數值的自變數。線性迴歸是指可將預測輸出值與實際輸出值之間差異最小化的直線或曲面擬合。簡單的線性迴歸演算器使用「最小平方」方法來找出一組配對資料的最佳擬合線。然後從 Y(自變數)估計 X(應變數)的值。

線性迴歸散佈平面圖範例

更容易產生預測

您可以在 Microsoft Excel 中執行線性迴歸,或使用統計軟體套件,例如 IBM SPSS® Statistics,它們可大幅簡化使用線性迴歸方程式、線性迴歸模型及線性迴歸公式的流程。SPSS Statistics 可以用來處理簡單線性迴歸和多元線性迴歸等技術。

您可以在各種程式和環境中執行線性迴歸方法,包括:

  • R 線性迴歸
  • MATLAB 線性迴歸
  • Sklearn 線性迴歸
  • 線性迴歸 Python
  • Excel 線性迴歸

為何線性迴歸很重要

線性迴歸模型相對簡單,而且提供可產生預測的易解讀數學公式。線性迴歸適用於商業和學術研究的各種領域。

您會發現,從生物、行為、環境和社會等科學到商業領域都會用到線性迴歸。線性迴歸模型已成為通過考驗的方法,能夠以科學與可靠的方式預測未來。線性迴歸是久經考驗的統計程序,因此線性迴歸模型的內容很好理解,而且可以快速培訓。

經過驗證能夠以科學與可靠方式預測未來的方法

企業和組織領導人可以利用線性迴歸技術來制定更好的決策。組織收集大量資料,而線性迴歸可協助他們運用該資料,以便更充分地管理現實,而不是靠經驗和直覺。您可以取得大量原始資料,然後將其轉換為可據以採取行動的資訊。

您也可以使用線性迴歸,來發掘您公司同事之前可能已經看出來並且認為他們已經瞭解的模式和關係,藉此提供更充分的洞察見解。例如,分析銷售和購買資料可協助您找出特定日期或特定時間的特定購買模式。從迴歸分析收集的洞察見解可協助企業領導人預測公司產品何時會出現高度需求。

有效線性迴歸的主要假設

成功的線性迴歸分析會考量下列假設:

  • 對於每個變數:考量有效觀察值的數目、平均數及標準差。 
  • 對於每個模型:考量迴歸係數、相關矩陣、部分與偏相關、多個 R、R2、調整後的 R2、R2 中的變化、預估的標準差、變異數分析表格、預測值與殘差。另外,針對每個迴歸係數、變異數-共變異數矩陣、變異數膨脹因素、公差、德 - 華檢定、距離測量(Mahalanobis 距離、Cook 距離及槓桿值)、DfBeta、DfFit、預測間隔及每個觀察值的診斷資訊,考量 95% 信賴區間。 
  • 圖:考量散佈平面圖、殘差散佈圖、直方圖及常態機率圖。
  • 資料:應變數和自變數應為定量。類別變數(例如,宗教、主修領域或居住地區)需要重新編碼成二進位(虛擬)變數或其他類型的對照變數。 
  • 其他假設:對於自變數的每個值,應變數的分佈必須是常態。應變數的分佈方差對於自變數的所有值應保持不變。應變數與每個自變數之間的關係應該是線性的,而且所有觀察值應該都是獨立的。

確保您的資料符合線性迴歸假設

在您嘗試執行線性迴歸之前,需要確保您的資料可以使用此程序進行分析。您的資料必須通過特定的必要假設。

以下是檢查這些假設的方法:

  1. 變數應該要連續測量。連續變數的範例有時間、銷售、加權和測驗分數。 
  2. 如果這兩個變數之間存在線性關係,請使用散佈平面圖以便快速瞭解。
  3. 觀察值應該互為獨立(亦即不應該有相依關係)。
  4. 您的資料不應該有顯著的離群值。 
  5. 檢查是否有等分散性 - 一種統計概念,其中沿著最佳擬合線性迴歸線出現的變異數,呈現在整條線上都保持類似。
  6. 最佳擬合迴歸線的殘差(誤差)遵循常態分配。

評估趨勢和銷售預估

您也可以使用線性迴歸分析,嘗試從自變數(例如,年齡、教育程度及年資)預測銷售人員的全年銷售(應變數)。

分析價格彈性

價格變化常會影響消費者行為,而線性迴歸可以協助您分析其影響方式。例如,如果特定產品的價格不斷變化,那麼您可以使用迴歸分析來看看消費是否隨着價格增加而下降。如果消費並未隨價格增加而顯著下降,那樣會如何?到了哪個價格點買方便停止購買產品?這類資訊對於零售業主管而言很有用。

評估保險公司的風險

線性迴歸技術可用來分析風險。例如,保險公司用來調查屋主保險理賠的資源可能有限,有了線性迴歸,公司的團隊即可建立模型以預估理賠成本。這類分析可協助公司主管,針對風險承擔做出重要商業決策。

運動分析

線性迴歸未必總是與商業有關。它在運動領域中也很重要。例如,您可能會思考,一支籃球隊在一季當中的贏球場數是否與每場比賽的平均得分相關。散佈平面圖指出這些變數呈現線性相關。贏球場數與對手的平均得分也呈現線性相關。這些變數呈現負相關。贏球場數增加時,對手的平均得分隨之減少。您可以使用線性迴歸,對這些變數的關係進行建模。良好模型可以用來預測球隊將會贏得多少場比賽。

線性迴歸產品

IBM SPSS Statistics 軟體

利用此快速又強大的解決方案來推動研究與分析。

IBM SPSS Statistics Grad Pack 和 Faculty Pack

學生、教師和研究人員可透過經濟實惠的方式取得預測分析軟體。

IBM Cognos Statistics

此通過考驗的自助式分析解決方案可協助您混合與比對資料,並且建立吸睛的視覺化。