什么是暗数据?

三个程序员坐在共用的办公室里聊天

什么是暗数据?

根据 Gartner 的说法,暗数据指的是组织在常规业务活动中收集、处理和存储的信息资产,但通常无法用于其他目的,例如分析、业务关系和直接货币化。1

如今,大多数公司都存储了大量的黑暗数据。在 Splunk 对 1300 多名业务和 IT 决策者进行的全球研究调查中,60% 的受访者表示,其组织有一半或更多的数据被视为暗数据。整整三分之一的受访者称这一比例达到或超过 75%。2

暗数据之所以不断积累,是因为组织已经接受了这样一种理念,即在大数据湖中存储所有可能捕获的信息是非常重要的。这部分原因在于廉价存储的出现,使得人们很容易证明存储这么多数据是合理的——以防有一天这些数据变得很重要。

最终,由于存储库没有适当记录元数据标签,一些数据的格式是集成工具无法读取的,或者无法通过查询检索数据,大多数公司甚至从未使用过他们所存储的数据中的一小部分。

暗数据是产生良好的数据分析的主要限制因素,因为任何数据分析的质量都取决于分析工具所能获取的信息,既要及时,又要全面详细。

暗数据的其他问题还包括:由于团队没有意识到哪些数据可能对他们有用,因此会产生负债和巨大的存储成本以及错失良机。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

为什么数据会暗存

导致组织数据丢失的原因有很多,包括:

  • 缺乏认识: 在正常业务运营过程中获取的数据通常会因为组织要么不知道这些数据的存在,要么不了解这些数据的价值或相关性而暗存。

  • 数据陷入孤岛: 当组织内的不同部门独立收集和存储数据时,可能会导致数据分散和孤立。而其他团队可能会发现这些数据非常有价值,但却无法访问或看到这些数据孤岛。

  • 缺乏数据治理: 如果没有强大的 数据治理 框架,组织可能难以有效地管理和跟踪其整个生态系统中的数据。这会导致数据混乱、丢失和无法使用。

  • 旧版系统: 随着组织对软件和硬件的升级,旧版系统可能会停止使用或变得不再重要。如果不能与组织的现代分析工具集成,这些传统系统中存储的数据就会暗存。

  • 不完整的数据集成: 不完整或无效 的数据集成 流程可能会导致数据差距和不一致。这可能会导致某些数据集无法访问或无法正确链接到其他数据源。

  • 不断变化的业务重点: 随着业务重点的变化,某些数据集的相关性可能会降低或不再受关注。随着组织目标的转变,曾经被积极使用的数据可能会被蒙在鼓里。

  • 资源和知识有限: 资源有限的组织可能会优先考虑数据收集和存储,而不是数据分析。此外,员工数据素养不足也会阻碍发现和利用有价值的数据。

  • 数据质量问题:数据质量 差 (例如数据不准确或不完整)可能会导致数据被被低估或忽略。被认为不可靠的数据不太可能被利用,这实际上使数据暗存。

  • 监管合规目的: 许多合规性和监管标准都要求组织严格遵守敏感数据存储时间的规定。由于它们没有记录哪些敏感数据应予以销毁,因此往往在规定期限过后很长时间还在存储这些数据。

  • 冗余、过时、琐碎 (ROT) 数据: 当员工保存多份相同信息、过时信息和无助于组织实现目标的无关信息时,就会产生 ROT。
Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

暗数据的类型

就及时完整的数据分析计划的可发现性而言,暗数据可以是结构化数据、非结构化数据或半结构化数据。

结构化数据 是在存储之前添加到明确定义的电子表格或数据库字段中的信息。

服务器日志文件、 物联网 (IoT)   传感器数据、 客户关系管理 (CRM)  数据库和企业资源规划 (ERP) 系统都是从结构化数据源创建的暗数据的例子。

虽然大多数形式的敏感数据(例如电子银行对账单、医疗记录和加密客户数据)通常都是结构化的形式,但由于权限问题,很难对其进行查看和分类。

与结构化数据不同, 非结构化数据 包括未经转换、编码、分层和结构化而无法整理到数据库或电子表格中进行分析的信息。

电子邮件往来、PDF、文本文档、社交媒体帖子、呼叫中心录音、聊天记录和监控视频录像都是从非结构化数据源创建的暗数据的例子。

半结构化数据 是指在已定义的数据字段中包含某些信息的非结构化数据。虽然它不像结构化数据那样易于发现暗数据,但它能够被搜索或编目。

例如 HTML 代码、发票、图表、表格和 XML 文档。

暗数据的成本

存储暗数据的成本可能很高,而且远远超出暗数据存储的直接财务成本。直接和间接成本包括:

数据存储成本

存储数据,即使不常用,也需要物理或数字存储基础设施。这可能包括服务器、数据中心、云存储解决方案和备份系统。生态系统中的数据越多,所需的数据存储容量就越大,这会导致基础设施成本增加。

负债成本

在过去几年中,各国政府出台了一系列全球隐私法,这些法律适用于所有数据,甚至包括分析库中未使用的数据。

机会成本

许多公司因为 没有 使用这些数据而错失良机。虽然出于风险和成本的考虑,删除实际上无法使用的暗数据是件好事,但首先要分析现有的数据,以确定哪些数据可能可用。

低效成本

管理包括暗数据在内的大量数据会降低数据检索和分析流程的速度。员工可能会花费更多时间搜索相关信息,从而导致生产率降低和劳动力成本增加。

风险成本

暗数据可能会带来网络安全不足、数据泄露、违规和数据丢失等方面的风险。这些风险可能导致声誉受损和财务后果。

数据质量问题和暗数据

有时,暗数据的产生是由于数据质量问题。

例如,从录音中自动生成一份转录文本,但创建转录文本的 AI 在转录中出现了一些错误。然而,有人保留了记录本,认为他们会在某个时候解决这个问题,但他们从来没有这样做过。

当组织试图清理质量较差的数据时,有时会忽略导致问题的原因。没有正确的认识,就无法确保数据质量问题在未来不会继续发生。

这种情况就会循环往复,因为对于那些未使用的暗数据,组织不是简单地采用删除政策,而是任其继续闲置,导致日益严重的 数据质量问题。

幸运的是,组织可以采取三个数据质量管理步骤来帮助缓解这一问题:

  1. 分析并确定现状:为了确定问题的优先级,首先要确定当前所有问题、现有数据标准和业务影响。

  2. 防止不良数据再次出现: 接下来,评估每个问题的根本原因,并运用资源以可持续的方式解决问题,以免再次发生。

  3. 过程中经常沟通: 分享正在发生的事情、团队正在做的事情、这项工作的影响,以及这些工作与业务目标的关系。

如何揭示暗数据

尽管暗数据存在成本和数据质量问题,但也有其优点。 正如 Splunk 所说,“暗数据可能是组织尚未开发的最大资源之一。”3

通过采取 积极主动的方法 管理暗数据,组织可以揭示暗数据。这不仅减少了负债和成本,还为团队提供了从隐藏数据中发现洞察所需的资源。

在处理暗数据并可能利用它做出更好的数据驱动型决策时,有几种最佳做法值得遵循:

打破孤岛

暗数据的产生往往是由于组织内部的孤岛。一个团队创建的数据可能对另一个团队有用,但另一个团队却不知道这些数据。打破这些“孤岛”后,需要数据的团队就能获得这些数据。它从闲置状态转变为提供巨大的价值。

改善数据管理

了解组织内部存在哪些数据非常重要。这项工作首先要对组织内的所有数据进行分类,以获得完整准确的视图。在此基础上,团队可以开始更好地整理数据,目的是让团队中的个人更容易找到和使用他们需要的东西。

制定数据治理政策

引入数据治理政策有助于长期应对挑战。该政策应涵盖如何审查所有输入的数据,并就哪些数据应予以保留(并进行整理以保持数据管理的清晰性)、归档或销毁的数据提供明确的指导原则。该政策的一个重要部分是严格规定应销毁哪些数据以及何时销毁。实施数据治理和定期审查实践有助于最大限度地减少永远不会被使用的暗数据量。

利用 ML 和 AI 工具解析数据

为了帮助发现暗数据,机器学习 (ML) 和人工智能 (AI) 可以对可能包含有价值洞察的数据进行分析,从而完成对暗数据进行分类的繁重工作。此外,ML 自动化还能自动编辑存储数据中的敏感信息,有助于遵守数据隐私法规。

相关解决方案
数据管理软件和解决方案

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案
IBM watsonx.data™

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。

了解 watsonx.data
数据和分析咨询服务

通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案 了解 watsonx.data
脚注

1 Gartner Glossary, Gartner

2 The State of Dark Data, Splunk, 2019

3 Dark Data: Discovery, Uses & Benefits of Hidden Data , Splunk, 03 August 2023