探索式資料分析

menu icon

探索式資料分析

瞭解「探索式資料分析」的一切須知,它是一種用來分析與彙總資料集的方法。

何謂「探索式資料分析」?

資料科學家利用「探索式資料分析 (EDA)」來分析與調查資料集,然後歸納出其主要特徵,其中經常採用資料視覺化方法。 它可協助判斷如何以最佳方式操作資料來源,藉此取得您需要的答案,讓資料科學家更容易找出模式、發現異常、檢測假設或檢查假設。

EDA 主要用來在正規建模或假設檢定作業之外瞭解有哪些資料可以揭示,並提供對於資料集變數及其之間相互關係的進一步瞭解。 它還可以協助判斷您考慮用來進行資料分析的統計技術是否適當。 由美國數學家 John Tukey 在 1970 年代原創的 EDA 技術,始終是當今資料探索過程中廣泛使用的方法。

為何探索式資料分析對資料科學來說很重要?

EDA 的主要目的是協助先探索資料然後才做出任何假設。它可以協助識別明顯錯誤,並且更充分地瞭解資料當中的模式、偵測偏離值或異常事件、尋找變數之間的有趣關係。

資料科學家可使用探索式分析來確保,所產生的結果不但有效還適用於任何所需的商業成果和目標。 EDA 還協助利害關係人確認他們所提出的問題是適當的。 EDA 可協助回答標準差、類別變數及信賴區間的相關問題。 完成 EDA 並找出洞察,即可使用其功能來進行更細膩的資料分析或建模,包括機器學習

探索式資料分析工具

您可以使用 EDA 工具來執行特定的統計功能和技術,包括:

  • 集群分析和維度縮減技術可協助針對包含眾多變數的高維度資料建立圖形顯示。
  • 原始資料集中每一個欄位的單變量視覺化,其中包含摘要統計。
  • 雙變量視覺化和摘要統計可讓您評估資料集當中每個變數與所探討目標變數之間的關係。
  • 多變量視覺化用於對映與瞭解資料當中不同欄位之間的互動。
  • K 平均集群分析是無監督學習中的集群分析方法,其中資料點會根據每個群組的重心,將資料點指派給 K 群組,即集群數目。 最接近特定重心的資料點將會集中在相同類別下。 K 平均集群分析通常用於市場區隔、模式識別及影像壓縮。
  • 預測模型,例如線性迴歸,使用統計分析和資料來預測結果。

探索式資料分析的類型

EDA 的主要類型有四種:

  • 單變量非圖形。這是最簡單的資料分析形式,其中所分析的資料只包含一個變數。 既然是單一變數,就不會處理原因或關係。 單變量分析的主要目的是描述資料,並找出其中存在的模式。
  • 單變量圖形。非圖形方法無法提供資料全貌。 因此,需要圖形方法。 單變量圖形的常見類型包括:
    • 莖葉圖:顯示所有資料值和分佈形狀。
    • 直方圖(一種長條圖):每個長條代表某個值範圍當中觀察值的頻率(計數)或比例(計數 / 總計數)。
    • 盒形圖:以圖形方式描繪最小值、第一個四分位數、中位數、第三個四分位數及最大值等五個數值的摘要。
  • 多變量非圖形:來自單變數的多變量資料。 多變量非圖形 EDA 技術通常透過交叉列表或統計分析來顯示兩個或多個資料變數之間的關係。
  • 多變量圖形:多變量資料使用圖形來顯示兩個或多個資料集之間的關係。 最常使用的圖形是分組長條圖或長條圖,其中每個群組代表其中一個變數的一個階層,而群組中的每個長條代表其他變數的不同階層。

其他常見的多變量圖形包括:

  • 散佈圖:用來在水平軸和垂直軸上繪製資料點,以顯示某個變數受到另一個變數的影響程度。
  • 多變量圖:以圖形表示多個因素與某個回應之間的關係。
  • 運行圖:一種根據時間推移繪製資料的線圖。
  • 泡泡圖:用來在二維繪圖中顯示多個圓圈(泡泡)的資料視覺化。
  • 熱圖:一種以顏色來描繪值的資料圖形表示法。

探索式資料分析工具

用於建立 EDA 的一些常見資料科學工具包括:

  • Python:一種使用動態語意學的解譯物件導向程式設計語言。 其高階內建資料結構與動態型別及動態連結相結合,這使得它對於快速應用程式開發而言極具吸引力,同時也可做為將現有元素連接在一起的 Scripting 或緊連語言。 Python 和 EDA 可以一起用來識別資料集中的遺漏值,這很重要,如此您才能決定如何處理機器學習的遺漏值。
  • R:一種開放原始碼程式設計語言和免費軟體環境,用於處理 R Foundation for Statistical Computing 所支援的統計運算與圖形。 在發展統計觀測和資料分析的資料科學中,R 語言受到統計人員的廣泛使用。

如需深入瞭解這些方法之間的差異,請參考「Python 與 R 比較:有何不同?

IBM 與探索式資料分析

IBM 的「探索程序」提供各種視覺化和數值式的資料摘要,適用於整體觀察值或個別的觀察值群組。 應變數必須是尺度變數,而分組變數可以是次序變數或名目變數。

有了 IBM 的「探索程序」,您可以:

  • 篩選資料
  • 識別離群值
  • 檢查假設
  • 描述觀察值群組之間的差異

透過這裡進一步瞭解 IBM 的「探索程序」。 如需「探索式資料分析」的相關資訊,請註冊 IBMid 並建立您的 IBM Cloud 帳戶