什么是数据碎片化？

By Alexandra Jonker , Tom Krantz

数据碎片化的定义

数据碎片化是指数据分散在不同的系统、应用程序、云、数据库和文档中。

碎片化的数据使人们难以访问、治理和使用——这是高管层面临的三大数据相关挑战之一。¹它导致数据孤岛、指标不一致、多个真相来源以及对人工数据流程的依赖。这些挑战延伸到业务规划和决策中，阻碍运营效率、生产力和创新项目。

特别是企业级的检索增强生成 (RAG)，需要大量专有信息的数据集来提供上下文答案。但当数据团队不得不在不同位置和存储库之间处理数据时，这些举措很快就会失去动力。

对许多组织而言，避免数据碎片化并不容易。企业管理的数据量正在爆炸式增长，其中大部分是非结构化数据。2025 年的研究发现，仅有 26% 的首席数据官确信其组织能够以产生业务价值的方式使用非结构化数据。²

在现有旧版系统的基础上持续增加新的软件即服务 (SaaS) 工具、云平台和业务应用程序，也会让本已复杂的环境变得更加复杂（这种现象通常被称为 SaaS 蔓延）。

为了实现统一的数据，组织可以利用多种策略，包括数据集成、整合、数据治理和数据编织架构。但应对数据碎片化还需要思维方式的转变——调整文化和工作方式，以支持将数据作为战略资产。

数据碎片化有两种类型。本页面关注的是组织数据在系统和环境中不受控制地扩散。不过，该术语也可以指一种有目的的数据库管理系统 (DBMS) 和文件系统性能优化策略。

数据碎片化的迹象有哪些？

在理想情况下，企业处于高速运转状态。它高效运行，并基于实时数据流做出数据驱动的决策，所有这些都得到极快的人工智能 (AI) 工具的辅助。但由于数据资产碎片化，许多组织面临的现实是速度更慢、成本更高且大量依赖人工操作。

以下是企业中数据碎片化的一些主要表现：

没有单一可信信息源
大量人工工作
决策缓慢或停滞
IT 成本不断增长
安全与治理漏洞

没有单一可信信息源

当数据碎片化时，很难维持一个可靠、统一且不同部门和系统能够一致参考的数据视图——这通常被称为单一可信信息源 (SSOT)。

没有 SSOT，就会出现数据差异，团队会失去对集中式报告的信任，转而依赖自己的数据集和分析。这种碎片化的决策会导致整个业务的不一致和不协调。

大量人工工作

处理孤立的数据本身效率低下。数据团队必须搜索、收集和核对数据，并在系统不兼容时手动连接数据管道或复制数据。

这些数据通常也是非结构化的，需要额外的数据准备才能统一并投入使用。这些重复性任务可能需要数小时才能完成，造成工作流程效率低下，从而降低生产力。

决策缓慢或停滞

与统一或集中式环境相比，孤立的数据环境需要额外的步骤来检索数据，从而拖慢应用程序和系统的速度。这会带来延迟，意味着数据最终到达其下游用途时，很可能已经过时，并可能产生陈旧的洞察。

延迟还会使模型局限于回顾性分析而非实时决策，从而对 AI 的成功形成重大障碍。

IT 成本不断增长

数据碎片化可能通过多种方式推高成本，包括维护不同系统所产生的存储成本、对冗余软件的投资，以及集成新系统所需的额外资源。随着时间的推移，这些运营成本的增加会提高总体拥有成本，并减缓现代化进程，包括对人工智能等新技术的采用。

安全与治理漏洞

数据分散在多个运营系统、公有云和私有云、本地数据中心及服务器中，使得按照法规要求和隐私政策进行发现、治理和保护变得更加困难。

这种数据蔓延增加了攻击面，并为恶意行为者创造了盲点，从而带来安全漏洞：一个团队在其平台上有强大的数据访问控制，并不能保证同样的数据在其他地方也能得到保护。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。

数据碎片化如何成为企业 AI 的障碍？

企业 AI 正变得越来越可实现，但大多数企业数据环境仍然过于碎片化，无法大规模支持 AI。例如，2025 年的数据显示，几乎所有受访组织都计划在未来一年内部署高级人工智能，但 58% 的组织承认它们没有明确的数据基础。³

没有能够同时提供结构化和非结构化数据访问权限的统一环境，组织将难以以竞争所需的速度和规模将 AI 项目投入生产。

原因如下：

它拖慢了执行速度：AI 需要来自各种来源的大量数据。当数据被孤立时，团队花费更多时间搜索和准备数据，而不是构建和部署模型。
它限制了上下文。碎片化的数据只能提供业务的局部视图。无法获得全貌，模型输出就会缺乏所需的准确性、细致性和实用性。
它增加了风险。碎片化使数据更难被信任。这也表明数据治理和保护不一致——一旦数据被用于 AI 系统，这些风险会进一步加剧。

归根结底，企业 AI 的强度和实用性取决于其背后的数据：72% 的首席执行官甚至表示，专有数据是释放生成式 AI 价值的关键。⁴

在一段解释数据统一为何重要的视频中，IBM watsonx.data 产品管理副总裁 Edward Calvesbert 进一步强调了专有数据对 AI 的关键性：

“您组织的数据，就是您的金矿。这是您拥有而竞争对手没有的东西。因此，当组织在思考如何获得更可靠、更准确的 AI 时，一切始于拥有可供 AI 使用的数据。”

什么是 AI 就绪数据？

什么导致数据碎片化？

数据碎片化往往是快速数字化转型的表象：当今的组织在日益分散和混乱的 IT 资产中存储和创建数据。导致数据碎片化的具体原因包括：

混合多云环境
孤立的系统
不断增长的数据量
薄弱的数据治理

混合多云环境

现代组织往往将多个公有云平台与私有云基础设施和旧版系统混合使用。虽然混合多云形式提供了灵活性、可扩展性和速度，但它可能严重限制整个业务中数据的全面可见性。

分散的数据基础设施——包括存储、平台和治理——造成了一个难以有效统一和管理的碎片化环境。

孤立的系统

各个业务部门使用不同的电子表格、工具、仪表盘和平台并不罕见。但孤立的系统无法轻易地就自身的数据进行通信，尤其是在混合使用遗留工具和现代工具的情况下。

这种脱节之所以特别成问题，是因为其中许多系统往往在处理相关或重叠的数据——每个系统都在孤立地管理数据，彼此不知晓。这种分离造成了深度的数据孤岛，导致无意的数据囤积、不一致和冗余。

数据量不断增长

数据是保持现代企业竞争力的燃料。按照这一逻辑，组织正在保留其蔓延的工具和系统所产生的每一个数据点，以备将来使用，无论是用于商业智能 (BI) 还是机器学习 (ML)。

但这些数据大多是非结构化信息，存在于 PDF、文档、图像和视频中。这些数据以前所未有的速度和庞大的体量涌入。传统的数据管理能力难以集中管理这股数据洪流，从而导致整个组织采取碎片化的应对方式。

薄弱的数据治理

数据治理有助于确保组织数据的质量、安全性和可用性。如果治理标准、流程、策略和程序不清晰或执行不力，业务职能就会受到影响。

这种模糊性导致团队为其各自的系统创建独特的数据标准和分类法，从而阻碍未来的信息共享、协作和端到端可见性。

AI Academy

数据管理是生成式 AI 的秘诀吗？

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

转到视频集

如何解决数据碎片化

在实践中，统一企业数据并不意味着组织必须将所有信息完整地聚合到一个存储空间中。

由于混合多云环境的复杂性、数据量的不断增长，以及对合规、安全和治理的考量，这种方法并不现实。相反，统一的目标应该是在正确的时间将正确的数据连接到正确的人。

解决数据碎片化的一些策略包括：

转变思维和文化
加强数据治理
整合数据平台
集成数据和系统
采用数据编织架构
使用 AI/ML 工具

转变思维和文化

数据碎片化不仅仅是 IT 问题，也是文化问题：68% 的高管认为当前的组织结构是实现 AI 全部价值的障碍。⁵

解决这一问题需要一种新的数据管理思维，让所有员工都将数据视为战略资产。这一转变涉及培养一种数据即产品的方法，使数据体验类似于产品体验：数据易于访问、用户友好，并能提供可衡量的价值。

加强数据治理

强大的数据治理通过标准化并强制执行数据在其生命周期内创建、存储和访问的框架，有助于减少碎片化。治理策略可包括元数据管理、数据质量管理、数据标准和访问控制。

然而，治理并非孤立存在；它必须围绕实际的业务目标和路线图来构建，并明确利益相关者的角色以及支持预期成果所需的技术基础设施。

整合数据源

整合不同的数据源有助于通过创建集中式数据存储库来解决数据碎片化问题。这种方法通常通过使用 ETL/ELT 管道将数据移入数据仓库或数据湖来实现。

除了减少数据孤岛，整合还提供了一个统一的可信信息源，支持一致的访问、分析和决策。

集成数据和系统

数据集成流程对碎片化的数据进行组合和转换，使其可供业务使用。常见的方法包括 ETL/ELT 和数据复制。

较新的方案，如零拷贝集成，在数据所在位置进行查询，而不是移动数据。集成平台即服务 (iPaaS) 也已出现，它使用应用程序编程接口 (API) 在混合云和多云环境中连接系统和数据。

采用数据编织架构

数据编织在分布式环境中创建统一的数据视图。这种现代数据架构使用自动化、主动元数据、机器学习和 API 来打破孤岛、管理数据资产并大规模简化数据管理。

通过在治理与访问之间取得平衡，数据编织帮助企业更好地在多云环境中使用数据，同时保持安全性和合规性。

使用 AI/ML 工具

AI 和 ML 工具可以通过自动化数据发现、集成、分类、清洗和检索等任务，帮助解决数据碎片化问题。这些能力正越来越多地内置于数据存储、集成、治理和主数据管理系统中。

支持 AI/ML 的工具还可以通过自动添加元数据、跟踪血缘关系和应用适当的访问策略来加强治理，从而使分散在组织中的数据更容易查找、使用和保护。

有了正确的数据战略和工具来减少数据碎片化，组织可以开始体验到巨大的优势。首先，它们将看到 AI 部署的加速和决策的改善。然后从长远来看，它们将拥有一个持续支持并推动企业转型的民主化数据生态系统。

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

阅读《数据领导者指南》，了解如何让您组织的数据实现 AI 就绪。

资源

AI 智能体依赖数据运行——您的数据准备好了吗？

您的数据就是您的竞争优势。在这期简短的网络研讨会中，了解如何安全地解锁数据价值，并从 AI 中获得可衡量的投资回报率。

数据管理详解

IBM 出品的 Techsplainers 系列视频将 AI 所需的数据基础知识化繁为简，从核心概念到实际用例。每集清晰、简短，助您快速掌握基本要点。

统一并访问您的数据，助力扩展 AI

了解为何走向 AI 就绪数据之路往往始于有效访问结构化和非结构化数据，以及数据负责人可能面临的挑战。

将法务费用转化为战略性洞察分析

了解人工智能驱动的法律智能体如何加速决策、减少人工工作并提升合规性。

AI 学院：构建企业 AI 数据战略

在本集中，Cathy Reese 阐述了当今组织需要为高级 AI 做好准备的数据战略，这就要求企业利用好自身最高质量的数据资产。

面向 AI 的混合、开放湖仓一体

简化数据访问并实现数据治理自动化。了解将湖仓一体战略集成到数据架构中的强大功能，包括优化工作负载的成本、扩展 AI 和分析，以及随时随地使用所有数据。

《2025 年数据泄露成本报告》

数据泄露成本再创新高。获取关于网络安全威胁及其对企业造成的经济损失的最新洞察。

数据领导者的 AI 就绪数据指南

了解数据负责人可以采取哪些可行步骤来克服数据挑战，为可信赖的数据基础奠定根基，并帮助组织的数据为 AI 做好准备。

高级管理层如何将信息转化为影响

在这份面向数据领导者的跨行业报告中，深入了解 1700 位 CDO 的洞察分析。

脚注

^{1, 4}《CMO 革命： AI 赋能，实现五大增长突破》，IBM 商业价值研究院，2025 年 6 月。

²《2025 年首席数据官研究：AI 的乘数效应》，IBM 商业价值研究院，2025 年 11 月 12 日。

³《借助 AI 走得更远、更快》，IBM 商业价值研究院，2025 年 12 月 9 日。

⁵《2030 年的企业》，IBM 商业价值研究院，2026 年 1 月 16 日。