数据科学家使用探索性数据分析 (EDA) 来分析和研究数据集并总结其主要特征,通常采用数据可视化方法。
EDA 有助于确定如何以最佳方式操纵数据源,以获得所需的答案,使数据科学家能够更轻松地找到模式、发现异常、检验或检查假设。
EDA 主要用于查看数据在形式建模或假设任务之外能够提示的内容,并提供对数据集变量及其之间关系的更好理解。它还可以帮助确定您正在考虑用于数据分析的统计技术是否合适。EDA 技术最初由美国数学家 John Tukey 于 20 世纪 70 年代开发,至今仍是数据发现过程中广泛使用的方法。
EDA 旨在做出任何假设之前帮助查看数据。它可以帮助识别明显的错误,更好地理解数据中的模式,检测异常值或异常事件,并找到变量之间的有趣关系。
数据科学家可以使用探索性分析来确保他们生成的结果在任何所需的业务成果和目标上均有效且适用。EDA 还可以通过确认利益相关者提出的问题是否正确为其提供帮助。EDA 可以帮助回答有关标准偏差、分类变量和置信区间的问题。一旦完成 EDA 数据分析并得出洞察分析,其功能便可用于更复杂的数据分析或建模,包括机器学习。
您可以使用 EDA 工具执行的特定统计功能和技术,包括:
EDA 主要有四种类型:
这是最简单的数据分析形式,其中所分析的数据仅包含一个变量。由于它只涉及一个变量,因此不涉及原因或关系。单变量分析旨在描述数据并找出其中存在的模式。
非图形方法无法提供数据的全貌。因此需要图形方法。常见的单变量图形类型包括:
多元数据来自多个变量。多变量非图形 EDA 技术通常通过交叉制表或统计来显示数据的两个或多个变量之间的关系。
多变量数据使用图形显示两组或多组数据之间的关系。最常用的图形是分组条形图或柱状图,其中每组代表一个变量的一个水平,组内的每个条形代表另一个变量的水平。
多变量图形的其他常见类型包括:
用于创建 EDA 的一些最常见的数据科学编程语言包括:
要深入了解这些方法之间的区别,请查看《Python 与 R:有哪些区别?》
了解发生了什么、为什么、可能会发生什么以及您能做些什么。凭借其清晰的分步式推理方式,Project Ripasso 可为每一位业务用户提供洞察分析,帮助其以思考的速度做出自信决策。
企业要想蓬勃发展,就必须利用数据建立客户忠诚度,实现业务流程自动化,并利用 AI 驱动的解决方案进行创新。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。