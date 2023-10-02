如今，大多数公司都存储了大量的黑暗数据。在 Splunk 对 1300 多名业务和 IT 决策者进行的全球研究调查中，60% 的受访者表示，其组织有一半或更多的数据被视为暗数据。整整三分之一的受访者称这一比例达到或超过 75%。2

暗数据之所以不断积累，是因为组织已经接受了这样一种理念，即在大数据湖中存储所有可能捕获的信息是非常重要的。这部分原因在于廉价存储的出现，使得人们很容易证明存储这么多数据是合理的——以防有一天这些数据变得很重要。

最终，由于存储库没有适当记录元数据标签，一些数据的格式是集成工具无法读取的，或者无法通过查询检索数据，大多数公司甚至从未使用过他们所存储的数据中的一小部分。

暗数据是产生良好的数据分析的主要限制因素，因为任何数据分析的质量都取决于分析工具所能获取的信息，既要及时，又要全面详细。

暗数据的其他问题还包括：由于团队没有意识到哪些数据可能对他们有用，因此会产生负债和巨大的存储成本以及错失良机。