什么是数据验证?

仓库里,一位留着胡须、身穿高能见度背心的男仓库工人正拿着平板电脑查看文件,背景是货架和箱子。

作者

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

什么是数据验证?

数据验证是验证数据是否干净、准确且可供使用的过程。
 

有效数据位于允许的限额或范围内,符合指定的数据格式,没有错误,并遵守组织自己的特定验证标准。

数据验证是数据管理工作流程中由来已久的步骤——毕竟,无效的数据会对数据分析造成严重破坏。然而,随着组织为支持数据驱动决策人工智能(AI)计划而进行的数据收集达到前所未有的水平,其紧迫性和重要性也成倍增加。

为什么数据验证很重要?

如今,企业通常汇集高达数 TB 或数 PB 的大规模数据集。这些信息来自各种数据源,例如物联网 (IoT) 设备或社交媒体,并通常会被传输到数据仓库和其他目标系统。但是,来自广泛来源的信息,加上大规模数据迁移的规模,可能会引发一系列问题:格式不一致和差异、数据重复、数据字段不完整、数据输入错误甚至数据投毒。

这些数据质量问题可能会影响数据完整性并影响明智决策。无效数据不仅给数据分析师带来麻烦,也给工程师、数据科学家和其他使用 AI 模型的人带来问题。

AI 模型,包括机器学习模型和生成式 AI 模型,需要可靠、准确的数据进行模型训练并保障其性能。随着有效的 AI 实施成为关键的竞争优势,企业企业无法承受无效数据损害其 AI 项目的后果。企业使用数据验证流程来帮助确保数据质量足以用于数据分析和 AI。

此外,数据验证在关系到监管合规方面变得越来越重要。例如,《欧盟 AI 法案》要求“高风险” AI 系统的数据验证必须遵守严格的数据治理实践。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。每份时事通讯都包含取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息,请参阅我们的 IBM 隐私声明

数据验证如何进行?

数据验证涉及建立和执行业务规则和数据验证检查。

虽然不同的组织使用不同的规则和数据验证技术,但最常见的数据验证检查类型有

  • 代码检查
  • 一致性检查
  • 数据类型检查
  • 格式检查
  • 范围检查
  • 唯一性检查

代码检查

代码检查通过将数据值与可接受值列表进行比较,确定数据值是否有效。例如,用于行业分类的国家或地区代码、国际标准书号 (ISBN) 代码和北美行业分类系统 (NAICS) 代码。

一致性检查

一致性检查可确认输入数据符合逻辑,并且不与其他值冲突。例如,在已婚夫妇的数据库中,他们的订婚日期应早于结婚日期。

数据类型检查

数据类型定义特定列中数据的有效格式。数据类型的示例可包括文本、数字或日期。此检查可识别长度、精度或小数位数与所选数据类型不匹配的每个值,或违反指定数据类型的每个值。

格式检查

对于有特定数据格式要求的列,如电话号码、电子邮件地址和日期列,会执行格式检查。

范围检查

范围检查确定数值数据是否在预定义的最小值和最大值范围内。例如,可接受的车辆轮胎压力一列的范围可能是 30 到 35 磅每平方英寸。

唯一性检查

唯一性检查适用于每个数据项都必须唯一且没有重复值的列。

用于数据验证的其他检查包括长度检查(确保字段中的字符数正确)、存在检查(确保必填字段不为空)和模式验证(确保数据符合预定义结构)。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

数据验证与数据清理与数据质量管理

数据验证常常与数据清理相提并论,数据清理是纠正原始数据集中的错误和不一致。有时,数据验证被视为数据清理的组件,而在其他情况下,它被称为一个独特的过程。

数据验证和数据清理都是数据质量管理 (DQM) 的要素,DQM 是一系列维护组织高质量数据的实践。其他补充的 DQM 流程包括数据分析数据质量监控元数据管理

数据验证工具

虽然数据验证可以手动进行,但这可能是一项艰巨且耗时的任务。不同的数据工具可以帮助数据专业人员加速、自动化和简化数据验证过程。

电子表格软件

Microsoft Excel 等电子表格软件具有数据验证功能,例如能够创建下拉列表、自定义公式,并限制输入内容必须符合特定规则。例如,用户可能无法输入不符合文本长度限制和格式要求的值。电子表格程序对于管理和验证较小的数据集最为有效。

脚本

数据专业人员可以使用开源工具和编程语言(如 Python 和 SQL)来运行脚本,并自动化数据验证过程。Excel 用户可以使用 VBA (Visual Basic for Applications) 编程语言来创建自定义数据验证规则并自动执行验证流程。

数据集成

数据整合平台将来自多个来源的数据组合并协调成统一、一致的格式,可用于各种分析、操作和决策目的。数据验证是数据整合过程中的常见步骤。ETL(提取、转换、加载)整合方法以严格的数据验证而闻名。

数据可观察性

数据可观察性解决方案监控整个组织数据生态系统的数据健康状况并提供可见性的仪表板。AI 驱动的持续监控和分析可以近乎实时地检测和解决数据异常和其他数据问题。领先的数据整合平台内置数据可观察性工具。

相关解决方案
数据管理软件和解决方案

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案
IBM watsonx.data™

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。

了解 watsonx.data
数据和分析咨询服务

通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案 了解 watsonx.data