什么是数据质量?

两名商人在现代办公室开会时使用笔记本电脑的镜头

什么是数据质量?

数据质量衡量数据集在准确性、完整性、有效性、一致性、唯一性、及时性和适用性等方面较之标准的优良程度,它对组织内的所有数据治理计划都至关重要。

数据质量标准可确保公司做出以数据为导向的决策,从而实现业务目标。如果重复数据、缺失值、异常值等数据问题没有得到妥善解决,企业就会增加产生负面业务结果的风险。根据 Gartner 的一份报告,数据质量不佳导致企业每年平均损失1,290 万美元1。因此,出现了数据质量工具来减轻与数据质量差相关的负面影响。

当数据质量符合其预期用途的标准时,数据消费者可以信任数据并利用数据来改进决策,从而帮助制定新的业务策略或优化现有的业务策略。但是,当无法达到标准时,数据质量工具会通过帮助企业诊断基础数据问题来提供价值。根本原因分析使团队能够快速有效地纠正数据质量问题。

数据质量不仅是日常业务运营的优先事项,随着企业将人工智能 (AI) 和自动化技术整合到其工作流程中,高质量的数据对于有效采用这些工具至关重要。正如老话所说:“垃圾进,垃圾出”,这也适用于机器学习算法。如果算法正在学习根据不良数据进行预测或分类,我们可以预期它将产生不准确的结果。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。每份时事通讯都包含取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息,请参阅我们的 IBM 隐私声明

数据质量、数据完整性和数据分析

数据质量、数据完整性和数据概况都是相互关联的。数据质量是一个更广泛的类别,组织用来评估其数据的准确性、完整性、有效性、一致性、唯一性、及时性和适用性。数据完整性只关注这些属性的一部分,特别是准确性、一致性和完整性。它还从数据安全的角度更多地关注这个问题,实施保障措施以防止恶意参与者损坏数据。

另一方面,数据分析侧重于检查和清理数据,以维持组织内的数据质量标准的过程。这还可以包括支持这些过程的技术。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

数据质量的各个维度

数据质量可根据多个维度进行评估,这些维度可能因信息来源的不同而有所不同。这些维度用于对数据质量指标进行分类:

  • 完整性:这代表可用或完整的数据量。如果缺失值的百分比很高,且数据不具有典型数据样本的代表性,则可能会导致分析偏差或误导性。
  • 唯一性:这指的是数据集中重复数据的数量。例如,在查看客户数据时,您应该期望每个客户都有一个唯一的客户 ID。
  • 有效性:该维度衡量数据与业务规则所需格式的匹配程度。格式化通常包括元数据,如有效数据类型、范围、模式等。
  • 及时性:该维度是指数据在预期时间范围内的就绪情况。例如,客户希望在购买后立即收到订单号,而该数据需要实时生成。
  • 准确性:这个维度指的是基于商定的“真实来源”的数据值的正确性。由于同一指标可能有多个报告来源,因此指定一个主要数据源非常重要。其他数据源可用于确认主要数据的准确性。例如,一些工具可以检查每个数据源是否以同一方向为发展趋势,从而增强对数据准确性的信心。
  • 一致性:此维度评估来自两个不同数据集的数据记录。如前所述,可以识别多个来源来报告单个指标。使用不同的来源来确认一致的数据趋势和行为,可以让组织信任其分析得出的任何可操作的见解。这种逻辑也可以应用于数据之间的关系。例如,一个部门的员工人数不应超过公司的员工总数。
  • 符合目的:最后,目的适用性有助于确保数据资产满足业务需求。此维度可能难以评估,尤其是对于新出现的数据集。这些指标可帮助团队在整个组织中进行数据质量评估,以评估数据针对给定目的的信息量和有用性。

这些指标可帮助团队在整个组织中进行数据质量评估,以评估数据针对给定目的的信息量和有用性。

为什么数据质量很重要?

在过去十年中,混合云人工智能、物联网 (IoT) 和边缘计算的发展导致大数据呈指数级增长。因此,主数据管理 (MDM) 的实践变得更加复杂,需要更多的数据管理员和严格的保护措施来确保良好的数据质量。

企业依靠数据质量管理来支持其数据分析计划,如商业智能仪表板。否则,可能会产生毁灭性的后果,甚至是道德后果,具体取决于行业(例如医疗保健)。数据质量解决方案可帮助企业最大限度地利用数据,并带来以下主要优点:

  • 更好的业务决策:高质量的数据可让组织确定关键绩效指标 (KPI) 来衡量各种项目的绩效,这使团队能够更有效地改进或发展这些项目。优先考虑数据质量的组织无疑会比竞争对手更具优势。
  • 改进业务流程:良好的数据还意味着团队可以识别运营工作流程中的故障所在。对于供应链行业来说尤其如此,该行业依赖实时数据来确定适当的库存及其装运后的位置。
  • 提高客户满意度:高质量的数据可让企业,尤其是营销和销售团队,深入了解目标买家。他们能够跨越销售和营销漏斗整合不同数据,从而更有效地销售他们的产品。例如,人口统计数据和 Web 行为的结合可以告知组织如何创建消息、投资营销预算或为销售团队配备人员来为现有或潜在客户提供服务。
相关解决方案
数据管理软件和解决方案

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案
IBM watsonx.data™

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。

了解 watsonx.data
数据和分析咨询服务

通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案 了解 watsonx.data