如今,企业通常汇集高达数 TB 或数 PB 的大规模数据集。这些信息来自各种数据源,例如物联网 (IoT) 设备或社交媒体,并通常会被传输到数据仓库和其他目标系统。但是,来自广泛来源的信息,加上大规模数据迁移的规模,可能会引发一系列问题:格式不一致和差异、数据重复、数据字段不完整、数据输入错误甚至数据投毒。
这些数据质量问题可能会影响数据完整性并影响明智决策。无效数据不仅给数据分析师带来麻烦,也给工程师、数据科学家和其他使用 AI 模型的人带来问题。
AI 模型,包括机器学习模型和生成式 AI 模型,需要可靠、准确的数据进行模型训练并保障其性能。随着有效的 AI 实施成为关键的竞争优势,企业企业无法承受无效数据损害其 AI 项目的后果。企业使用数据验证流程来帮助确保数据质量足以用于数据分析和 AI。
此外,数据验证在关系到监管合规方面变得越来越重要。例如,《欧盟 AI 法案》要求“高风险” AI 系统的数据验证必须遵守严格的数据治理实践。
数据验证涉及建立和执行业务规则和数据验证检查。
虽然不同的组织使用不同的规则和数据验证技术,但最常见的数据验证检查类型有
代码检查通过将数据值与可接受值列表进行比较,确定数据值是否有效。例如,用于行业分类的国家或地区代码、国际标准书号 (ISBN) 代码和北美行业分类系统 (NAICS) 代码。
一致性检查可确认输入数据符合逻辑,并且不与其他值冲突。例如,在已婚夫妇的数据库中,他们的订婚日期应早于结婚日期。
数据类型定义特定列中数据的有效格式。数据类型的示例可包括文本、数字或日期。此检查可识别长度、精度或小数位数与所选数据类型不匹配的每个值,或违反指定数据类型的每个值。
对于有特定数据格式要求的列,如电话号码、电子邮件地址和日期列,会执行格式检查。
范围检查确定数值数据是否在预定义的最小值和最大值范围内。例如,可接受的车辆轮胎压力一列的范围可能是 30 到 35 磅每平方英寸。
唯一性检查适用于每个数据项都必须唯一且没有重复值的列。
用于数据验证的其他检查包括长度检查(确保字段中的字符数正确)、存在检查(确保必填字段不为空)和模式验证(确保数据符合预定义结构)。
数据验证常常与数据清理相提并论,数据清理是纠正原始数据集中的错误和不一致。有时,数据验证被视为数据清理的组件,而在其他情况下,它被称为一个独特的过程。
数据验证和数据清理都是数据质量管理 (DQM) 的要素,DQM 是一系列维护组织高质量数据的实践。其他补充的 DQM 流程包括数据分析、数据质量监控和元数据管理。
虽然数据验证可以手动进行,但这可能是一项艰巨且耗时的任务。不同的数据工具可以帮助数据专业人员加速、自动化和简化数据验证过程。
Microsoft Excel 等电子表格软件具有数据验证功能,例如能够创建下拉列表、自定义公式,并限制输入内容必须符合特定规则。例如,用户可能无法输入不符合文本长度限制和格式要求的值。电子表格程序对于管理和验证较小的数据集最为有效。
数据整合平台将来自多个来源的数据组合并协调成统一、一致的格式,可用于各种分析、操作和决策目的。数据验证是数据整合过程中的常见步骤。ETL(提取、转换、加载)整合方法以严格的数据验证而闻名。
数据可观察性解决方案监控整个组织数据生态系统的数据健康状况并提供可见性的仪表板。AI 驱动的持续监控和分析可以近乎实时地检测和解决数据异常和其他数据问题。领先的数据整合平台内置数据可观察性工具。
设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。