全面了解要学习探索性数据分析(一种用于分析和汇总数据集的方法)而需要具备的所有知识。
数据科学家使用探索性数据分析 (EDA) 来分析和调查数据集并总结其主要特征,通常采用数据可视化方法。 EDA 有助于确定如何最好地操作数据源以获得所需的答案,使数据科学家更容易发现模式、发现异常、检验假设或检查假设。
EDA 主要用于查看超出正式建模或假设检验任务的数据可以揭示什么,并更深刻理解数据集变量及其之间关系。 EDA 还可以帮助确定您正在考虑用于数据分析的统计技术是否合适。 EDA 技术最初由美国数学家 John Tukey 在 1970 年代开发,今天仍然是数据发现过程中广泛使用的方法。
EDA 的主要目的是在做出任何假设之前帮助查看数据。 它可以帮助识别明显的错误,以及更好地理解数据中的模式,检测异常值或异常事件,发现变量之间有趣的关系。
数据科学家可以使用探索性分析来确保他们产生的结果有效并适用于任何所需的业务成果和目标。 EDA 还通过确认他们提出了正确的问题来帮助利益相关者。 EDA 可以帮助回答有关标准偏差、分类变量和置信区间的问题。 一旦 EDA 完成并得出见解,其功能就可以用于更复杂的数据分析或建模,包括机器学习。
您可以使用 EDA 工具执行的特定统计功能和技术包括:
EDA 有四种主要类型:
其他常见的多变量图形类型包括:
用于创建 EDA 的一些最常见的数据科学工具包括:
要深入了解这些方法之间的差异,请查看"Python 与 R:有何不同?"
IBM 的探索过程为所有案例或单独的案例组提供了各种可视化和数字化的数据摘要。 因变量必须是刻度变量,而分组变量可以是有序变量或名义变量。
使用 IBM 的探索程序,可以执行以下操作:
在此处了解有关 IBM 探索过程的更多信息。 有关探索性数据分析的更多信息,请注册 IBMid 并创建您的 IBM Cloud 帐户