什么是数据整理?

一个人坐在几台显示了数据的电脑屏幕面前

作者

Amanda McGrath

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

什么是数据整理?

数据整理是指清理、构造和扩充原始数据,以便能够在数据科学机器学习 (ML) 和其他数据驱动型应用程序中使用的过程。

数据整理也称为数据处理或数据准备,是一种解决数据质量问题(例如缺失值、重复、异常值和格式不一致)的方法。数据整理的目标是将原始、非结构化或有问题的数据转换成可以有效地分析的干净数据集。数据整理可以帮助数据科学家、数据分析师和其他业务用户以支持明智决策的方式应用数据。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

为什么数据整理很重要?

如今,各个组织可以访问来自不同来源的大量数据。然而,这些原始数据可能非常混乱、不一致或不适合通过各种流程和工具转换成有价值的洞察。如果不进行适当的数据整理,数据分析的结果可能会产生误导。企业可能会得出不准确的结论,并做出错误的业务决策。

数据整理是一种支持高质量结果的关键方法。它通过一系列步骤转换和映射数据,使其变得干净、一致、可靠且适用于它们的预期应用。生成的数据集用于执行任务,例如构建机器学习模型、执行数据分析、创建数据可视化、生成商业智能报告和做出明智的行政决策。

随着包括人工智能 (AI) 在内的数据驱动型技术变得越来越先进,数据整理变得越来越重要。AI 模型的效果取决于训练它们时使用的数据。

数据整理过程有助于确保用于开发和增强模型的信息准确无误。它提高了可解释性,因为干净且结构良好的数据更易于人类和算法理解。它还有助于数据整合,让来自不同来源的信息更易于组合和互连。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

数据整理过程

数据整理过程通常包括以下步骤:

  • 发现
  • 结构化
  • 清理
  • 扩充
  • 验证

发现

这个初始阶段侧重于评估整个数据集的质量,包括数据源和数据格式。数据是来自数据库、应用程序编程接口 (API)、CSV 文件、网络搜索还是其他来源?数据的结构如何?如何使用?

发现过程突出显示并解决质量问题,例如数据缺失、格式不一致、错误或偏差以及可能会使分析出现偏差的异常值。结果通常记录在数据质量报告或者技术性更强且被称为数据分析报告的文档中,其中包括统计数据、分布和其他结果。

结构化

数据结构化步骤(有时称为数据转换)侧重于将数据组织成统一的格式,以适合分析。它涉及:

  • 聚合:利用摘要统计来组合数据行,并根据某些变量对数据进行分组。

  • 透视:在行和列之间移动数据,或者将数据转换成其他格式以供使用。

  • 连接:组合来自多个表的数据以及组合来自不同来源的相关信息。

  • 数据类型转换:更改变量的数据类型,以帮助执行计算和应用统计方法。

清理

数据清理包括处理缺失的值、移除重复项以及更正错误或不一致之处。这一过程还可能涉及平滑“嘈杂”的数据,即应用各种技术,以减少随机变化或其他数据问题的影响。清理时,必须避免不必要的数据丢失或过度清理,否则可能会移除有价值的信息或者导致数据扭曲。

扩充

数据扩充涉及向现有的数据集添加新信息,以提高它们的价值。这有时被称为数据增强,涉及评估哪些附加信息是必要的以及这些信息可能来自何处。随后,必须将附加信息与现有数据集集成,并像清理原始数据那样进行清理。

数据扩充可能涉及提取与预期用例相关的人口统计数据、地理数据、行为数据或环境数据。例如,如果数据整理项目与供应链运营相关,使用天气信息扩充装运数据可能有助于预测延误。

验证

此步骤涉及验证整理后的数据的准确性和一致性。首先,必须基于业务逻辑、数据约束和其他问题建立验证规则。然后应用验证技术,例如:

  • 数据类型验证:帮助确保数据类型正确。

  • 范围或格式检查:验证值处于可接受的范围内并符合某些格式。

  • 一致性检查:确保相关变量之间存在逻辑协议。

  • 唯一性检查:确认某些变量(例如客户 ID 编号或产品 ID 编号)具有唯一值。

  • 跨字段验证:检查变量(例如年龄和出生日期)之间的逻辑关系。

  • 统计分析:利用描述性统计数据和可视化功能识别异常值或异常。

彻底验证之后,企业可以发布整理后的数据或者准备将它们用于应用程序中。这一过程可能涉及将数据加载到数据仓库、创建数据可视化或者以特定格式导出数据以供机器学习算法使用。

数据整理过程可能非常耗时,尤其是在复杂数据的数量不断增长的情况下。事实上,研究表明,准备数据并将它们转换成可以使用的格式会占用数据分析师 45% 至 80% 的时间。1 2

要进行数据整理,需要在编程语言、数据操作技术和专业工具方面掌握一定程度的技术专业知识。但它最终会提高数据质量,并支持更高效、更有效的数据分析。

数据整理工具和技术

各个组织利用各种工具和技术从不同的来源获取数据,并将它们整合到支持整体业务需求的数据管道中。其中包括:

  • 编程语言
  • 电子表格
  • 专业工具
  • 大数据平台
  • 人工智能 (AI)

编程语言

Python 和 R 广泛应用于数据整理任务,包括数据挖掘、操作和分析。结构化查询语言 (SQL) 对于使用关系数据库和数据管理至关重要。

电子表格

数据整理者使用 Microsoft Excel 和 Google Sheets 等工具执行基本的数据清理和操作,特别是对于较小的数据集。

专业工具

数据整理工具为数据清理和数据转换提供了可视化界面,有助于简化工作流和自动执行任务。例如,IBM 平台中提供的数据提炼工具可以快速将原始数据转换成可用于数据分析和其他目的的形式。

大数据平台

大数据平台提供了处理大量、多种大数据所需的工具和扩展功能,以帮助整理大规模、复杂的数据集。Apache Hadoop 和 Apache Spark 等平台可用于整理大型数据集。它们利用大数据技术将信息转换成可用的形式,以执行高质量的数据分析和决策。

人工智能 (AI)

AI 通过自动化和高级分析支持数据整理。机器学习模型算法可以帮助解决异常值检测和缩放等问题。其他 AI 工具可以快速处理大型数据集、执行实时转转以及识别模式以指导清理工作。自然语言处理 (NLP) 界面允许用户直观地与数据交互,这样可能减少技术障碍。

脚注

所有链接均为 ibm.com 外部链接

1 数据科学现状,Anaconda,2020 年 7 月。

2 Hellerstein 等人。数据整理原则。O’Reilly Media。2017 年 7 月。

几个图标(相机、音量旋钮和剪贴板)排成螺旋状的 3D 渲染图
相关解决方案
数据科学工具和解决方案

使用数据科学工具和解决方案,利用数据、算法、机器学习和 AI 技术发现模式,并构建预测。

深入了解数据科学解决方案
IBM Cognos Analytics

推出 Cognos Analytics 12.0,人工智能驱动洞察分析可以更好地做出决策。

深入了解 Cognos Analytics
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取后续步骤

使用数据科学工具和解决方案,利用数据、算法、机器学习和 AI 技术发现模式,并构建预测。

  1. 深入了解数据科学解决方案
  2. 深入了解分析服务