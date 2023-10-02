根据 Gartner 的说法，暗数据指的是组织在常规业务活动中收集、处理和存储的信息资产，但通常无法用于其他目的，例如分析、业务关系和直接货币化。1
如今，大多数公司都存储了大量的黑暗数据。在 Splunk 对 1300 多名业务和 IT 决策者进行的全球研究调查中，60% 的受访者表示，其组织有一半或更多的数据被视为暗数据。整整三分之一的受访者称这一比例达到或超过 75%。2
暗数据之所以不断积累，是因为组织已经接受了这样一种理念，即在大数据湖中存储所有可能捕获的信息是非常重要的。这部分原因在于廉价存储的出现，使得人们很容易证明存储这么多数据是合理的——以防有一天这些数据变得很重要。
最终，由于存储库没有适当记录元数据标签，一些数据的格式是集成工具无法读取的，或者无法通过查询检索数据，大多数公司甚至从未使用过他们所存储的数据中的一小部分。
暗数据是产生良好的数据分析的主要限制因素，因为任何数据分析的质量都取决于分析工具所能获取的信息，既要及时，又要全面详细。
暗数据的其他问题还包括：由于团队没有意识到哪些数据可能对他们有用，因此会产生负债和巨大的存储成本以及错失良机。
导致组织数据丢失的原因有很多，包括：
就及时完整的数据分析计划的可发现性而言，暗数据可以是结构化数据、非结构化数据或半结构化数据。
结构化数据 是在存储之前添加到明确定义的电子表格或数据库字段中的信息。
服务器日志文件、 物联网 (IoT) 传感器数据、 客户关系管理 (CRM) 数据库和企业资源规划 (ERP) 系统都是从结构化数据源创建的暗数据的例子。
虽然大多数形式的敏感数据（例如电子银行对账单、医疗记录和加密客户数据）通常都是结构化的形式，但由于权限问题，很难对其进行查看和分类。
与结构化数据不同， 非结构化数据 包括未经转换、编码、分层和结构化而无法整理到数据库或电子表格中进行分析的信息。
电子邮件往来、PDF、文本文档、社交媒体帖子、呼叫中心录音、聊天记录和监控视频录像都是从非结构化数据源创建的暗数据的例子。
半结构化数据 是指在已定义的数据字段中包含某些信息的非结构化数据。虽然它不像结构化数据那样易于发现暗数据，但它能够被搜索或编目。
例如 HTML 代码、发票、图表、表格和 XML 文档。
存储暗数据的成本可能很高，而且远远超出暗数据存储的直接财务成本。直接和间接成本包括：
存储数据，即使不常用，也需要物理或数字存储基础设施。这可能包括服务器、数据中心、云存储解决方案和备份系统。生态系统中的数据越多，所需的数据存储容量就越大，这会导致基础设施成本增加。
在过去几年中，各国政府出台了一系列全球隐私法，这些法律适用于所有数据，甚至包括分析库中未使用的数据。
许多公司因为 没有 使用这些数据而错失良机。虽然出于风险和成本的考虑，删除实际上无法使用的暗数据是件好事，但首先要分析现有的数据，以确定哪些数据可能可用。
管理包括暗数据在内的大量数据会降低数据检索和分析流程的速度。员工可能会花费更多时间搜索相关信息，从而导致生产率降低和劳动力成本增加。
有时，暗数据的产生是由于数据质量问题。
例如，从录音中自动生成一份转录文本，但创建转录文本的 AI 在转录中出现了一些错误。然而，有人保留了记录本，认为他们会在某个时候解决这个问题，但他们从来没有这样做过。
当组织试图清理质量较差的数据时，有时会忽略导致问题的原因。没有正确的认识，就无法确保数据质量问题在未来不会继续发生。
这种情况就会循环往复，因为对于那些未使用的暗数据，组织不是简单地采用删除政策，而是任其继续闲置，导致日益严重的 数据质量问题。
幸运的是，组织可以采取三个数据质量管理步骤来帮助缓解这一问题：
尽管暗数据存在成本和数据质量问题，但也有其优点。 正如 Splunk 所说，“暗数据可能是组织尚未开发的最大资源之一。”3
通过采取 积极主动的方法 管理暗数据，组织可以揭示暗数据。这不仅减少了负债和成本，还为团队提供了从隐藏数据中发现洞察所需的资源。
在处理暗数据并可能利用它做出更好的数据驱动型决策时，有几种最佳做法值得遵循：
暗数据的产生往往是由于组织内部的孤岛。一个团队创建的数据可能对另一个团队有用，但另一个团队却不知道这些数据。打破这些“孤岛”后，需要数据的团队就能获得这些数据。它从闲置状态转变为提供巨大的价值。
了解组织内部存在哪些数据非常重要。这项工作首先要对组织内的所有数据进行分类，以获得完整准确的视图。在此基础上，团队可以开始更好地整理数据，目的是让团队中的个人更容易找到和使用他们需要的东西。
引入数据治理政策有助于长期应对挑战。该政策应涵盖如何审查所有输入的数据，并就哪些数据应予以保留（并进行整理以保持数据管理的清晰性）、归档或销毁的数据提供明确的指导原则。该政策的一个重要部分是严格规定应销毁哪些数据以及何时销毁。实施数据治理和定期审查实践有助于最大限度地减少永远不会被使用的暗数据量。
为了帮助发现暗数据，机器学习 (ML) 和人工智能 (AI) 可以对可能包含有价值洞察的数据进行分析，从而完成对暗数据进行分类的繁重工作。此外，ML 自动化还能自动编辑存储数据中的敏感信息，有助于遵守数据隐私法规。
设计数据战略，消除数据孤岛、降低复杂性并提高数据质量，以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据，利用您的所有数据（无论位于何处）来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值，建立以洞察分析为导向的组织，实现业务优势。
1 Gartner Glossary, Gartner
2 The State of Dark Data, Splunk, 2019
3 Dark Data: Discovery, Uses & Benefits of Hidden Data , Splunk, 03 August 2023