探索性数据分析
黑蓝背景
什么是探索性数据分析?

全面了解要学习探索性数据分析(一种用于分析和汇总数据集的方法)而需要具备的所有知识。 

数据科学家使用探索性数据分析 (EDA) 来分析和调查数据集并总结其主要特征,通常采用数据可视化方法。 EDA 有助于确定如何最好地操作数据源以获得所需的答案,使数据科学家更容易发现模式、发现异常、检验假设或检查假设。

EDA 主要用于查看超出正式建模或假设检验任务的数据可以揭示什么,并更深刻理解数据集变量及其之间关系。 EDA 还可以帮助确定您正在考虑用于数据分析的统计技术是否合适。 EDA 技术最初由美国数学家 John Tukey 在 1970 年代开发,今天仍然是数据发现过程中广泛使用的方法。

为什么探索性数据分析在数据科学中很重要?

EDA 的主要目的是在做出任何假设之前帮助查看数据。  它可以帮助识别明显的错误,以及更好地理解数据中的模式,检测异常值或异常事件,发现变量之间有趣的关系。

数据科学家可以使用探索性分析来确保他们产生的结果有效并适用于任何所需的业务成果和目标。 EDA 还通过确认他们提出了正确的问题来帮助利益相关者。 EDA 可以帮助回答有关标准偏差、分类变量和置信区间的问题。 一旦 EDA 完成并得出见解,其功能就可以用于更复杂的数据分析或建模,包括机器学习

探索性数据分析工具

您可以使用 EDA 工具执行的特定统计功能和技术包括:

  • 聚类和降维技术,有助于创建包含许多变量的高维数据的图形显示。
  • 原始数据集中每个字段的单变量可视化,以及汇总统计。
  • 双变量可视化和汇总统计,这些可让您评估数据集中每个变量与您正在查看的目标变量之间的关系。
  • 多变量可视化,用于映射和了解数据中不同字段之间的交互。
  • K-means 聚类是无监督学习中的一种聚类方法,其中数据点被分配到 K 个组中,即聚类的数量,基于与每个组质心的距离。 最接近特定质心的数据点将在同一类别下聚类。 K-means Clustering 常用于市场分割、模式识别和图像压缩。
  • 线性回归等预测模型使用统计数据和数据来预测结果。
探索性数据分析的类型

EDA 有四种主要类型:

  • 单变量非图形。 这是最简单的数据分析形式,其中被分析的数据仅包含一个变量。 因为它是一个单一的变量,因此不会处理原因或关系。 单变量分析的主要目的是描述数据并发现其中存在的模式。
  • 单变量图形。 非图形方法不能提供数据的全貌。 因此图形方法是必需的。 常见的单变量图形类型包括:
    • 茎叶图,显示所有数据值和分布形状。
    • 直方图,一种条形图,其中每个条形表示一系列值的案例的频率(计数)或比例(计数 / 总计数)。
    • 箱线图,以图形方式描绘了五个数字的汇总,分别是最小值、第一个四分位数、中位数、第三个四分位数和最大值。
  • 多变量非图形:多变量数据来自多个变量。 多变量非图形 EDA 技术通常通过交叉制表或统计来显示数据的两个或多个变量之间的关系。
  • 多变量图形:多变量数据使用图形来显示两组或更多组数据之间的关系。 最常用的图形是分组条形图或条形图,每组代表一个变量的一个水平,组内的每个条形代表另一个变量的水平。

其他常见的多变量图形类型包括:

  • 散点图,用于在水平轴和垂直轴上绘制数据点,以表明一个变量受另一个变量影响的程度。
  • 多变量图表,这是因子和响应之间关系的图形表示。
  • 运行图表,这是随时间绘制的数据线图。
  • 气泡图,这是一种数据可视化,在二维图中显示多个圆圈(气泡)。
  • 热图,是一种数据图形表示法颜色来描绘价值。
探索性数据分析工具

用于创建 EDA 的一些最常见的数据科学工具包括:

  • Python:一种具有动态语义的解释型、面向对象的编程语言。 它的高级、内置数据结构与动态类型和动态绑定相结合,因此对于快速应用程序开发以及用作将现有组件连接在一起的脚本或胶水语言非常有吸引力。 可以将 Python 和 EDA 一起使用来识别数据集中的缺失值,这很重要,这样就可以决定如何处理机器学习中的缺失值。
  • R:一种用于统计计算和图形的开源编程语言和免费软件环境,由 R 统计计算基金会提供支持。 R 语言在数据科学的统计学家中被广泛用于开发统计观察和数据分析。

要深入了解这些方法之间的差异,请查看"Python 与 R:有何不同?"

IBM 与探索性数据分析

IBM 的探索过程为所有案例或单独的案例组提供了各种可视化和数字化的数据摘要。 因变量必须是刻度变量,而分组变量可以是有序变量或名义变量。

使用 IBM 的探索程序,可以执行以下操作:

  • 筛选数据
  • 识别异常值
  • 检查假设
  • 提取案例组之间差异的特征

此处了解有关 IBM 探索过程的更多信息。 有关探索性数据分析的更多信息,请注册 IBMid 并创建您的 IBM Cloud 帐户

相关解决方案
探索性数据分析

探索数据有助于确定您正在考虑用于数据分析的统计技术是否合适。

深入了解探索性数据分析