探索性数据分析

menu icon

探索性数据分析

了解有关探索性数据分析的全部须知内容,掌握这种用于分析和汇总数据集的方法。

什么是探索性数据分析?

探索性数据分析 (EDA) 被数据科学家用于分析和调查数据集并总结其主要特征,通常采用数据可视化方法。 它有助于确定如何最有效地处理数据源,以获得所需的答案,使数据科学家能够更轻松地发现模式、找出异常、检验猜测或验证假设。

EDA 主要用于查看哪些数据可以揭示超出常规建模或假设检验任务的洞察,帮助更好地理解数据集变量以及它们之间的关系。 它还可以帮助确定您所考虑用于数据分析的统计方法是否合适。 EDA 方法最初由美国数学家 John Tukey 于 1970 年代开发,在当今的数据发现流程中仍然得到广泛使用。

为什么探索性数据分析对于数据科学如此重要?

EDA 的主要用途是在做出任何假设之前,帮助理解数据。它有助于发现明显的错误,更好地了解数据中的模式,检测离群值或异常事件,发现变量之间的重要关系。

数据科学家可使用探索性分析,确保所生成的结果有效而且适用于任何期望的业务成果和目标。 EDA 还通过确认利益相关方回答合适的问题,为他们提供帮助。 EDA 可帮助回答有关标准偏差、分类变量和置信区间的问题。 完成 EDA 并获得洞察后,就可以使用它的功能进行更复杂的数据分析或建模,包括机器学习

探索性数据分析工具

可使用 EDA 工具执行的特定统计功能和方法包括:

  • 聚类和维度削减方法,帮助创建包含许多变量的高维数据的图形显示。
  • 原始数据集中每个字段的单变量可视化,包含汇总统计。
  • 双变量可视化和汇总统计,帮助评估数据集中每个变量与您研究的目标变量之间的关系。
  • 多变量可视化,用于映射和了解数据中不同字段之间的相互作用。
  • K-均值聚类是无监督式学习中的聚类方法,根据距离每个组的质心的远近,将数据点分配到 K 个组(K 就是聚类的数量)。 距离特定质心最近的数据点将汇聚到同一类别中。 K-均值聚类通常用于市场细分、模式识别和图像压缩。
  • 包括线性回归在内的预测模型使用统计信息和数据来预测结果。

探索性数据分析的类型

共有四种主要类型的 EDA:

  • 单变量非图形:这是最简单的数据分析形式,所分析的数据仅包含一个变量。 因为是单变量,所以不会处理原因或关系。 单变量分析的主要用途是描述数据并找出其中存在的模式。
  • 单变量图形:非图形方法无法提供数据的全貌。 因此需要图形方法。 常见的单变量图形类型包括:
    • 茎叶图 - 显示所有数据值和分布的形状。
    • 直方图 - 一种条形图,每个条形代表案例中一系列值的频率(计数)或比例(计数/总计数)。
    • 框图 - 以图形方式描绘五个数的摘要:最小数、第一四分位数、中位数、第三四分位数和最大数。
  • 多变量非图形:多变量数据来自多个变量。 多变量非图形 EDA 方法通常使用交叉表或统计数据来表示数据的两个或更多变量之间的关系。
  • 多变量图形:多变量数据使用图形来展示两组或多组数据之间的关系。 使用最频繁的图形是分组条形图或条形图,每个组表示一个变量的一个级别,组内的每个条形表示另一个变量的级别。

其他常见的多变量图形类型包括:

  • 散点图 - 用于绘制水平和垂直轴上的数据点,以显示一个变量受另一个变量影响的程度。
  • 多变量图表 - 这是因子与响应之间关系的图形表示。
  • 运行图表 - 这是一段时间内绘制的数据折线图。
  • 气泡图 - 在二维图中显示多个圆圈(气泡)的数据可视化。
  • 热图 - 这是按颜色描绘值的数据的图形表示法。

探索性数据分析工具

用于创建 EDA 的一些最常用的数据科学工具包括:

  • Python:具有动态语义的解释型面向对象的编程语言。 它的高级内置数据结构与动态类型和动态绑定相结合,使其非常适合用于快速应用开发,以及用作脚本编制或粘合语言,以将现有组件连接在一起。 Python 和 EDA 可结合使用,以确定数据集中的缺失值,这很重要,这样您就可以决定如何处理机器学习的缺失值。
  • R:用于统计计算和图形的开源编程语言和免费软件环境,由 R Foundation for Statistical Computing 提供支持。 R 语言得到数据科学领域中统计学家的广泛使用,用于开发统计观测和数据分析。

要深入了解这些方法之间的差异,请查看“Python vs. R:有何区别?

IBM 和探索性数据分析

IBM Explore 过程为所有案例或单独为各个案例组提供各种可视和数字形式的数据摘要。 因变量必须是比例变量,而分组变量可以是有序变量或名义变量。

通过使用 IBM Explore 过程,您可以:

  • 屏幕数据
  • 发现离群值
  • 检验假设
  • 确定案例组之间差异的特征

在此了解有关 IBM Explore 过程的更多信息。 要了解有关探索性数据分析的更多信息,请注册 IBMid 并创建 IBM Cloud 帐户