什么是不良数据?

不良数据的定义

不良数据是指因不准确、不完整、不一致、过时、重复、无效或有偏见而损害决策的信息。

不良数据的成因多种多样。有时源于糟糕的数据架构;有时则是人为错误的结果。无论来源如何,当组织无意中使用不良数据时,后果可能从小麻烦(例如将税务文件寄错地址)到严重风险(如违规、声誉损害和经济损失)不等。

不良数据的独特危险在于其隐蔽性。与系统宕机不同,不良数据的影响可能在造成重大损害后才被发现。组织可能在不知不觉中长期依赖不良数据运作。例如,销售团队会立即注意到 Salesforce 仪表盘无法加载,但要发现所显示的数据是错误的,则需要长得多的时间。

随着大数据量激增,以及企业领导者越来越依赖数据来驱动人工智能 (AI) 和决策,最大限度提高数据质量比以往任何时候都更加重要。通过强大的数据治理数据质量管理实践和数据可观测性工具,组织可以帮助确保其数据资产推动增长,而不是成为隐形的负债。

不良数据的类型

不良数据可以根据数据质量的关键维度大致分类:

  • 不准确的数据
  • 不完整的数据
  • 不一致的数据
  • 过时的数据
  • 重复的数据
  • 无效的数据
  • 有偏见的数据

不准确的数据

数据准确性衡量数据反映真实世界事件和数值的精确程度。当数据不准确时,它包含错误,无法可靠地用于决策。例如,不准确的客户数据(如关于定价的数据点)会扭曲公司对其受众的理解,并导致错误的行动,从而降低客户满意度。

不完整的数据

不完整的数据缺少必要的记录和数值——这些缺口会影响数据处理和数据分析。较大的缺口甚至可能引入偏见,因为分析结果可能无法代表真实的数据集。例如,如果客户数据库中的大多数条目都缺少联系信息,销售团队就会错失与客户互动的机会。

不一致的数据

不一致的数据缺乏标准化,在不同数据集和系统之间大多不兼容。日期格式、命名规则和计量单位的差异可能导致用户混淆,在特定平台内形成数据孤岛,并在报告或分析中引入错误。

过时的数据

过时的数据是指不再最新的信息,这可能导致决策者使用无法代表真实世界状况的无关信息。数据新鲜度是一项衡量数据库信息更新频率的指标。两次更新之间的间隔过长会导致数据陈旧。

重复的数据

重复的数据(或称冗余数据)是指数据集中重复出现的条目——唯一数据只应出现一次。它会通过过度代表某些数据值或趋势来扭曲分析。(需要注意的是,在数据库设计中 有意使用数据冗余有其合理的场景,以帮助确保 高可用性、 数据完整性 和一致性。)

无效的数据

无效的数据是指不符合系统或业务规则(如允许的取值范围、要求的格式和定义的数据类型)的信息。例如,包含不支持的特殊字符的数据,或者未按要求的连字符格式填写的电话号码。

有偏见的数据

虽然偏见本身不是一个数据质量维度,但它是利益相关者需要考虑的重要因素,因为它会影响多个维度。有偏见的数据是对实际事件、人群和状况的扭曲或非代表性的反映。它可能导致不公平、不准确和不可靠的结果,并且在机器学习 (ML) 和 AI 系统中使用时,可能对个人、组织和社会造成严重后果。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

不良数据有什么影响?

不良数据是优质数据的反面。高质量的数据促进增长和创新,而低质量的数据则拖慢进度。

组织依赖数据进行明智决策、可操作的洞察以及内部运营和客户体验的预测。基于不良数据的决策可能导致错失机遇、运营效率低下和声誉受损。在金融或医疗等数据帮助决定高风险决策的行业中,不良数据可能造成严重甚至灾难性的影响。

设想一项包含不一致患者数据的临床研究。研究人员将难以比较结果,这可能会推迟潜在疗法的开发。在金融领域,不准确或缺失的数据可能引发高昂的合规成本。不准确的财务报告可能导致违反《萨班斯-奥克斯利 (SOX) 法案》等法规——该法案可处以最高 100 万美元的罚款和最高 10 年的监禁。

在人工智能的背景下,不良数据的风险进一步加剧。当 AI 或 ML 模型基于不准确、不一致或有偏见的数据进行训练时,其输出结果会反映这些错误。为了最大限度提高 AI 和 ML 的投资回报,组织必须确保其数据已为 AI 做好准备

Unity Technologies 是 AI 和 ML 中不良数据后果的一个典型例子。2022 年,这家视频游戏公司的广告投放算法从一个大客户那里摄入了不良数据。该算法的性能受到了严重影响,以至于他们不得不重建它。这一事件导致 Unity 股价下跌 37%,并对业务造成了约 1.1 亿美元的影响。

另一方面,良好、准确的数据对 AI 项目大有裨益。IBM 商业价值研究院的研究发现,拥有可信数据的组织从 AI 能力中获得的投资回报率几乎是其他组织的两倍。结论是:对于任何 AI 或数据驱动的战略,优质数据都是一个不可妥协的优先事项。

不良数据的成因是什么?

不良数据没有单一的根本原因。它可能源于技术、流程或人员——而且通常是多种因素的组合。一些常见的数据质量低下的原因包括:

  • 系统故障
  • 数据衰减
  • 不可靠的数据收集
  • 薄弱的数据治理
  • 人为错误
  • 数据集成或迁移故障
系统故障

设计不良的数据架构会导致数据孤岛、性能下降以及软件缺陷,从而降低数据的一致性和可靠性。系统发生故障时,文件可能损坏或不完整,导致下游流程中出现缺失值和不准确数据。

数据衰减

许多类型的业务数据(如消费者行为指标)如果不定期更新,就会逐渐失效。当数据库过时时,基于这些数据的任何洞察或决策都是陈旧的——而且很可能不准确。

不可靠的数据收集

不良数据可能源自数据收集环节,而不仅仅是来自质量低下的数据源或提供方。数据录入和处理过程中的偏见、方法不一致、工具有缺陷或度量不准确,都可能损害数据质量。

薄弱的数据治理

作为一门学科,数据治理定义并执行整个数据生命周期的政策、标准和程序。当这些实践执行不一致或无人负责时,数据质量就会迅速下降。

人为错误

人为错误是不良数据的常见原因。手工数据录入中的错别字、不一致的数据编码、偏见或误解都可能导致数据不准确。时间压力、培训不足以及设计不良的系统会加剧人为错误。

集成或迁移故障

在缺乏适当流程、规划和技术的情况下进行数据迁移 或数据集成,可能导致数据丢失、不一致和不准确。这些问题通常源于数据格式和结构不匹配,或未观察到的依赖关系。

如何预防不良数据

在理想情况下,不良数据会在源头被拦截,永远不会进入下游系统或数据分析工作流。然而在现实中,数据质量在其生命周期的任何环节都可能因多种不同原因而下降。

在所有阶段预防不良数据需要一套全面的策略,以应对每个阶段的风险。该策略可以包含以下实践:

  • 治理与策略
  • 监控与可见性
  • 清洗与修复
  • 数据技能与素养

治理与策略

建立强大的数据治理是预防不良数据的关键第一步。它定义并强制执行维护准确、高质量数据所需的政策、标准和程序,贯穿数据整个生命周期。强大的治理框架可以帮助组织在数据影响决策和运营效率之前,识别并纠正不准确之处。

有效的数据治理应补充并增强组织更广泛的数据战略。它通常与其他领域(如数据管理数据安全、数据架构)协同工作,以保持数据的一致性和可靠性。

监控与可见性

如果不知道不良数据的存在,就无法修复它。组织可以使用多种流程来获得数据健康状况的可见性并持续监控:

  • 数据血缘:这些工具清晰展示数据(及其元数据)在整个生命周期中如何流动和变化,包括其来源和最终去向。数据血缘的可见性有助于根本原因分析和合规性。

  • 数据审计:定期审查和分析企业数据有助于绘制数据环境的可视化图景。审计帮助组织发现、分类和监控其数据,以揭示风险、不准确和不一致之处。

  • 数据剖析:数据剖析过程通过分析数据来了解其 结构 和质量,以便团队规划修复工作。该过程通常由 数据工程师 执行,使用一系列业务规则和分析算法。

  • 数据可观测性:超越传统监控,数据可观测性工具运用自动化和智能技术,以近乎实时的方式帮助识别、排查和解决数据问题,抢在数据问题扩散到业务运营之前。

清洗与修复

在识别出数据错误及其根本原因后,必须对不良数据进行纠正。数据清洗过程旨在解决常见的数据质量问题,如重复记录、缺失值、数据不一致、语法错误、无关数据和结构错误。常用技术包括标准化、处理异常值和缺失值、去重以及数据验证

数据团队越来越多地使用 AI 来自动化和优化其中的若干步骤,尤其是标准化和去重等任务。

数据技能与素养

具备数据素养的组织拥有读取、理解、使用数据并借助 数据 进行沟通的能力,从而做出更好的 决策。批判性评估数据的能力也能提高整体数据质量:即使是具备基础数据技能的员工,也能更好地识别偏见、不一致、不准确或缺失值。

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

相机、音量旋钮和剪贴板等图标排成螺旋状的 3D 渲染图
相关解决方案
IBM StreamSets

通过直观的图形界面创建和管理智能流数据管道,促进跨混合和多云环境的无缝数据集成。

深入了解流媒体集
IBM watsonx.data™

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)扩展分析和 AI。

了解 watsonx.data
数据和分析咨询服务

借助 IBM Consulting 释放企业数据的价值,构建一个可带来业务优势的洞察驱动型组织。

了解分析服务
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

  1. 深入了解数据管理解决方案
  2. 了解 watsonx.data