什么是数据清理?

2024 年 11 月 29 日

作者

Julie Rogers

Staff Writer

Alexandra Jonker

Editorial Content Lead

什么是数据清理?

数据清理也称为数据净化,它是识别和更正原始数据集中的错误和不一致问题以提高数据质量的流程。

数据清理的目的是帮助确保数据准确、完整、一致,并可用于分析或决策。数据清理流程致力于解决常见的数据质量问题,如重复、缺失值、不一致、语法错误、不相关的数据和结构性错误。

数据清理也是有效数据管理的核心组成部分,它有助于确保数据在其生命周期的每个阶段均保持准确、安全且可访问。

高质量或“干净”的数据对于有效采用人工智能 (AI) 和自动化工具至关重要。此外,组织还可利用 AI 来帮助简化数据清理流程。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

为什么数据清理很重要?

对于拥有干净且管理完善的数据的组织,它们能更好地做出可靠的数据驱动型决策、快速响应市场变化并简化工作流操作。

清理数据是数据科学不可或缺的组成部分,因为它是数据转换的重要第一步:数据清理可提高数据质量,而数据转换可将高质量的原始数据转换为可用的分析格式。

数据转换有助于组织充分解锁数据的潜力,以便利用商业智能 (BI)、数据仓库和大数据分析。如果源数据“不干净”,这些工具和技术的输出则可能不可靠或不准确,从而会导致决策失误和效率低下。

同样,干净的数据也是组织内 AI 和机器学习 (ML) 取得成功的基础。例如,数据清理有助于确保机器学习算法通过准确、一致和无偏倚的数据集进行训练。如果没有清洁数据作为基础,算法则可能会产生不准确、不一致或有偏倚的预测,从而降低决策的有效性和可靠性。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

数据清理有哪些好处?

数据清理的主要优点包括:

  • 明智的决策
  • 提升工作效率
  • 节约成本
  • 数据合规性和安全性
  • 增强的模型性能
  • 更高的数据一致性

明智的决策

基于干净、高质量数据的决策更有可能提供实效,并与业务目标保持一致。相比之下,基于脏数据(包含重复数据、印刷错误(拼写错误)或不一致问题)的业务决策则可能会导致资源浪费、错失机会或战略失误。

提升工作效率

干净数据有助于员工花更少时间来修复错误和不一致问题,从而加快数据处理。随后,团队便有更多时间专注于数据分析和洞察分析。

节约成本

数据质量低下可能会导致代价高昂的错误;例如,由于重复记录而导致库存积压,或因数据不完整而误解客户行为。数据清理有助于防止这些错误,从而节省资金并降低运营风险。

数据合规性和安全性

干净数据可通过保持数据的准确性和时效性来帮助组织遵守数据保护法规,例如欧盟的《通用数据保护条例》(GDPR)。此外,它还能防止意外保留冗余信息或敏感信息,从而降低安全风险。

增强模型性能

数据清理对于训练出有效的机器学习模型至关重要。干净数据能提高输出的准确性,并有助于确保模型能很好地泛化到新的数据,从而形成更可靠的预测。

提高数据一致性

数据清理有助于确保组合数据在各系统中保持一致且可用,从而防止因数据格式或标准的冲突所引发的问题。此功能对于数据整合非常重要;在此领域,干净和标准化的数据有助于确保不同的系统能有效地相互通信和共享数据。

数据清理技术

数据清理通常始于评估。此评估也称为数据分析,它涉及审查数据集以识别需纠正的质量问题。识别到问题时,组织可能会采用各种数据清理技术,其中包括:

  • 标准化
  • 解决异常值
  • 去重
  • 处理缺失值
  • 验证

标准化

在同一数据集中以不同的格式或结构表示数据时,就会出现不一致问题。例如,日期格式便是一种常见差异,如“MM-DD-YYYY”与“DD-MM-YYYY”。格式与结构的标准化有助于确保一致性和兼容性,从而实现准确的分析。

解决异常值

异常值是指由错误、罕见事件或真实异常所引发的与某一数据集中其他数据点存在明显偏差的数据点。这些极端值可能会扭曲平均值或趋势,从而影响分析和模型的准确性。数据管理专业人员可通过评估异常值是数据错误还是有意义的值来解决异常值。然后,他们可根据与此分析的相关性来决定要保留、调整还是删除这些异常值。

去重

数据去重是一种精简流程,它可通过消除相同信息的多余副本来减少冗余数据。由于集成问题、手动数据输入错误或系统故障而重复处理同一数据点时,便会出现重复记录。重复数据可能会导致数据集膨胀或扭曲分析,从而得出不准确的结论。

处理缺失值

当因数据收集不完整、输入错误或系统故障而导致数据点缺失时,便会出现缺失值。这些差异可能会扭曲分析、降低模型准确性并限制数据集的实用性。为解决此问题,数据专业人员可能会用估计数据来替换缺失值、删除不完整的条目或标记缺失值,以供进一步调查。

验证

数据清理流程结束时所进行的最终审查对于确保数据的干净、准确并可用于分析或可视化均至关重要。数据验证通常涉及使用手动检查或自动化数据清理工具来检查是否存在任何残余错误、不一致的数据或其他异常。

将 AI 用于数据清理

数据科学家、数据分析师、数据工程师和其他数据管理专业人员可通过手动方法(例如 Microsoft Excel 电子表格中的目视检查、交叉引用或数据透视表)执行数据清理。

此外,他们还可能会使用 Python、SQL 和 R 等编程语言来运行脚本,并自动执行数据清理流程。其中很多方法均受到开源工具的支持,而这些工具可为各种规模的组织提供灵活性以及经济高效的解决方案。

但是,AI 也可用来帮助自动执行和优化多个数据清理步骤,其中包括:

  • 分析源数据:人工智能驱动式数据清理工具可自动识别源数据中的模式、异常和不一致问题。AI 还可通过分析数据趋势和关系来建议相关的业务规则,从而减少定义这些规则所产生的人工工作量。例如,AI 可识别出经常缺少区号的一系列电话号码,然后建议一条标准化规则。
  • 对数据进行标准化:自然语言处理 (NLP) 技术可对非结构化文本进行标准化,例如为地址或产品描述设定格式。此外,机器学习模型还可识别并推荐一致的数据格式,例如日期或货币。人工智能驱动式正则表达式生成器则可自动检测并规范不一致的格式。
  • 整合重复项:基于规则或经过学习的 AI 模型可在删除重复项时考虑准确性、新近度或可靠性,以便决定要保留的最佳记录。例如,模型可根据上下文确定特定字段的优先级;例如,在整合后的记录中保留最新的电子邮件地址。
  • 应用规则:AI 模型可通过学习历史更正内容和用户反馈来自动创建和执行数据清理规则。这些模型可将相关规则动态应用于多个数据集,从而帮助确保各系统之间的一致性。此外,AI 系统还可为特定行业或领域生成自定义规则,例如欧盟的增值税 (VAT) 识别码。
相关解决方案
数据管理软件和解决方案

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案
IBM watsonx.data™

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。

了解 watsonx.data
数据和分析咨询服务

通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案 了解 watsonx.data