数据整理是指清理、构造和扩充原始数据,以便能够在数据科学、机器学习 (ML) 和其他数据驱动型应用程序中使用的过程。
数据整理也称为数据处理或数据准备,是一种解决数据质量问题(例如缺失值、重复、异常值和格式不一致)的方法。数据整理的目标是将原始、非结构化或有问题的数据转换成可以有效地分析的干净数据集。数据整理可以帮助数据科学家、数据分析师和其他业务用户以支持明智决策的方式应用数据。
如今,各个组织可以访问来自不同来源的大量数据。然而,这些原始数据可能非常混乱、不一致或不适合通过各种流程和工具转换成有价值的洞察。如果不进行适当的数据整理,数据分析的结果可能会产生误导。企业可能会得出不准确的结论,并做出错误的业务决策。
数据整理是一种支持高质量结果的关键方法。它通过一系列步骤转换和映射数据,使其变得干净、一致、可靠且适用于它们的预期应用。生成的数据集用于执行任务,例如构建机器学习模型、执行数据分析、创建数据可视化、生成商业智能报告和做出明智的行政决策。
随着包括人工智能 (AI) 在内的数据驱动型技术变得越来越先进,数据整理变得越来越重要。AI 模型的效果取决于训练它们时使用的数据。
数据整理过程有助于确保用于开发和增强模型的信息准确无误。它提高了可解释性,因为干净且结构良好的数据更易于人类和算法理解。它还有助于数据整合,让来自不同来源的信息更易于组合和互连。
数据整理过程通常包括以下步骤:
这个初始阶段侧重于评估整个数据集的质量,包括数据源和数据格式。数据是来自数据库、应用程序编程接口 (API)、CSV 文件、网络搜索还是其他来源?数据的结构如何?如何使用?
发现过程突出显示并解决质量问题,例如数据缺失、格式不一致、错误或偏差以及可能会使分析出现偏差的异常值。结果通常记录在数据质量报告或者技术性更强且被称为数据分析报告的文档中,其中包括统计数据、分布和其他结果。
数据结构化步骤(有时称为数据转换)侧重于将数据组织成统一的格式,以适合分析。它涉及:
数据清理包括处理缺失的值、移除重复项以及更正错误或不一致之处。这一过程还可能涉及平滑“嘈杂”的数据,即应用各种技术,以减少随机变化或其他数据问题的影响。清理时,必须避免不必要的数据丢失或过度清理,否则可能会移除有价值的信息或者导致数据扭曲。
此步骤涉及验证整理后的数据的准确性和一致性。首先,必须基于业务逻辑、数据约束和其他问题建立验证规则。然后应用验证技术,例如:
各个组织利用各种工具和技术从不同的来源获取数据,并将它们整合到支持整体业务需求的数据管道中。其中包括:
Python 和 R 广泛应用于数据整理任务,包括数据挖掘、操作和分析。结构化查询语言 (SQL) 对于使用关系数据库和数据管理至关重要。
数据整理者使用 Microsoft Excel 和 Google Sheets 等工具执行基本的数据清理和操作,特别是对于较小的数据集。
数据整理工具为数据清理和数据转换提供了可视化界面,有助于简化工作流和自动执行任务。例如,IBM 平台中提供的数据提炼工具可以快速将原始数据转换成可用于数据分析和其他目的的形式。
大数据平台提供了处理大量、多种大数据所需的工具和扩展功能,以帮助整理大规模、复杂的数据集。Apache Hadoop 和 Apache Spark 等平台可用于整理大型数据集。它们利用大数据技术将信息转换成可用的形式,以执行高质量的数据分析和决策。
AI 通过自动化和高级分析支持数据整理。机器学习模型和算法可以帮助解决异常值检测和缩放等问题。其他 AI 工具可以快速处理大型数据集、执行实时转转以及识别模式以指导清理工作。自然语言处理 (NLP) 界面允许用户直观地与数据交互,这样可能减少技术障碍。
使用数据科学工具和解决方案,利用数据、算法、机器学习和 AI 技术发现模式,并构建预测。
推出 Cognos Analytics 12.0,人工智能驱动洞察分析可以更好地做出决策。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。