辅以专家洞察分析的最新科技新闻
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
不良数据的成因多种多样。有时源于糟糕的数据架构;有时则是人为错误的结果。无论来源如何,当组织无意中使用不良数据时,后果可能从小麻烦(例如将税务文件寄错地址)到严重风险(如违规、声誉损害和经济损失)不等。
不良数据的独特危险在于其隐蔽性。与系统宕机不同,不良数据的影响可能在造成重大损害后才被发现。组织可能在不知不觉中长期依赖不良数据运作。例如,销售团队会立即注意到 Salesforce 仪表盘无法加载,但要发现所显示的数据是错误的,则需要长得多的时间。
随着大数据量激增,以及企业领导者越来越依赖数据来驱动人工智能 (AI) 和决策,最大限度提高数据质量比以往任何时候都更加重要。通过强大的数据治理、数据质量管理实践和数据可观测性工具,组织可以帮助确保其数据资产推动增长,而不是成为隐形的负债。
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
不良数据可以根据数据质量的关键维度大致分类:
数据准确性衡量数据反映真实世界事件和数值的精确程度。当数据不准确时,它包含错误,无法可靠地用于决策。例如,不准确的客户数据(如关于定价的数据点)会扭曲公司对其受众的理解,并导致错误的行动,从而降低客户满意度。
不一致的数据缺乏标准化,在不同数据集和系统之间大多不兼容。日期格式、命名规则和计量单位的差异可能导致用户混淆,在特定平台内形成数据孤岛,并在报告或分析中引入错误。
过时的数据是指不再最新的信息,这可能导致决策者使用无法代表真实世界状况的无关信息。数据新鲜度是一项衡量数据库信息更新频率的指标。两次更新之间的间隔过长会导致数据陈旧。
无效的数据是指不符合系统或业务规则(如允许的取值范围、要求的格式和定义的数据类型)的信息。例如,包含不支持的特殊字符的数据,或者未按要求的连字符格式填写的电话号码。
虽然偏见本身不是一个数据质量维度,但它是利益相关者需要考虑的重要因素,因为它会影响多个维度。有偏见的数据是对实际事件、人群和状况的扭曲或非代表性的反映。它可能导致不公平、不准确和不可靠的结果,并且在机器学习 (ML) 和 AI 系统中使用时,可能对个人、组织和社会造成严重后果。
不良数据是优质数据的反面。高质量的数据促进增长和创新,而低质量的数据则拖慢进度。
组织依赖数据进行明智决策、可操作的洞察以及内部运营和客户体验的预测。基于不良数据的决策可能导致错失机遇、运营效率低下和声誉受损。在金融或医疗等数据帮助决定高风险决策的行业中,不良数据可能造成严重甚至灾难性的影响。
设想一项包含不一致患者数据的临床研究。研究人员将难以比较结果,这可能会推迟潜在疗法的开发。在金融领域,不准确或缺失的数据可能引发高昂的合规成本。不准确的财务报告可能导致违反《萨班斯-奥克斯利 (SOX) 法案》等法规——该法案可处以最高 100 万美元的罚款和最高 10 年的监禁。
在人工智能的背景下,不良数据的风险进一步加剧。当 AI 或 ML 模型基于不准确、不一致或有偏见的数据进行训练时,其输出结果会反映这些错误。为了最大限度提高 AI 和 ML 的投资回报,组织必须确保其数据已为 AI 做好准备。
Unity Technologies 是 AI 和 ML 中不良数据后果的一个典型例子。2022 年,这家视频游戏公司的广告投放算法从一个大客户那里摄入了不良数据。该算法的性能受到了严重影响,以至于他们不得不重建它。这一事件导致 Unity 股价下跌 37%,并对业务造成了约 1.1 亿美元的影响。
另一方面,良好、准确的数据对 AI 项目大有裨益。IBM 商业价值研究院的研究发现,拥有可信数据的组织从 AI 能力中获得的投资回报率几乎是其他组织的两倍。结论是:对于任何 AI 或数据驱动的战略,优质数据都是一个不可妥协的优先事项。
不良数据没有单一的根本原因。它可能源于技术、流程或人员——而且通常是多种因素的组合。一些常见的数据质量低下的原因包括:
许多类型的业务数据(如消费者行为指标)如果不定期更新,就会逐渐失效。当数据库过时时,基于这些数据的任何洞察或决策都是陈旧的——而且很可能不准确。
不良数据可能源自数据收集环节,而不仅仅是来自质量低下的数据源或提供方。数据录入和处理过程中的偏见、方法不一致、工具有缺陷或度量不准确,都可能损害数据质量。
人为错误是不良数据的常见原因。手工数据录入中的错别字、不一致的数据编码、偏见或误解都可能导致数据不准确。时间压力、培训不足以及设计不良的系统会加剧人为错误。
在理想情况下,不良数据会在源头被拦截,永远不会进入下游系统或数据分析工作流。然而在现实中,数据质量在其生命周期的任何环节都可能因多种不同原因而下降。
在所有阶段预防不良数据需要一套全面的策略,以应对每个阶段的风险。该策略可以包含以下实践:
如果不知道不良数据的存在,就无法修复它。组织可以使用多种流程来获得数据健康状况的可见性并持续监控:
具备数据素养的组织拥有读取、理解、使用数据并借助 数据 进行沟通的能力,从而做出更好的 决策。批判性评估数据的能力也能提高整体数据质量:即使是具备基础数据技能的员工,也能更好地识别偏见、不一致、不准确或缺失值。
通过直观的图形界面创建和管理智能流数据管道,促进跨混合和多云环境的无缝数据集成。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)扩展分析和 AI。
借助 IBM Consulting 释放企业数据的价值,构建一个可带来业务优势的洞察驱动型组织。