什么是云数据整合?

图示:笔记本电脑周围叠加显示相互连接的云图标

云数据整合的定义

数据整合是指在至少一个数据源或平台基于云的情况下,跨系统合并与协调数据的实践及相关技术。

云数据整合的目标是改善整个组织内的云数据访问与交付,同时确保数据在更广泛的企业数据管理战略框架下保持安全、受管且高性能。随着数据量、 数据生成速度及数据种类的爆炸式增长,各组织纷纷寻求采用 AI、改善客户体验并扩展实时分析能力,这些基础功能显得尤为关键。

云数据整合涵盖两个子类型:混合云数据整合与多云数据整合。

  • 混合云数据整合:整合驻留在公有云私有云及本地基础设施中的数据。

  • 多云数据整合:整合来自多个云服务提供商的云服务中的数据。

如今,大多数企业在混合多云环境中运营,这些环境涵盖了来自多个提供商的公有云和私有云服务。在此模式下,云数据整合为无论数据位于何处都能保持其可访问、可信赖且可用提供了基础。

为什么云数据整合至关重要?

将企业数据存储在云中具有显著优势,最突出的是消除了存储硬性限制,并能轻松存储海量大数据。其他常见优势包括成本效益、可扩展性及业务连续性的提升。

基于这些优势,各组织迅速将数据迁移至云端(同时也将数据保留在本地以满足性能或合规要求)。有预测显示,到 2028 年,企业在云存储方面的支出将达到 1280 亿美元。1另有估计认为,2024 年至 2029 年间,全球存储的数据量将翻倍。2

如今,作为组织最关键资产之一的企业云数据,正日益以各种结构化非结构化格式分布在混合云和多云环境中。

这种分散的数据导致了数据格局碎片化,信息被隔离在不同团队、平台和环境之间,给团队使用数据带来了挑战。与此同时,应用程序、物联网 (IoT) 设备及交易数据生成的数据量在云端和本地系统中持续增长。

云数据整合能有效应对这一复杂性。它整合并协调了云端与本地环境中的数据。这种统一视图使得云数据可用于分析和决策,变得易于访问和使用。在快速创新与数据日益碎片化的时代,这一功能至关重要。

数据碎片化会扼杀创新,导致决策迟缓、不一致或不准确,限制了组织创新、适应及实现运营效率的能力。事实上,根据 IBM 商业价值研究院的数据,68% 接受调查的 CEO 表示,整合式的企业级数据架构对于促进跨职能协作和推动创新至关重要。3

人工智能 (AI) 计划尤其依赖于统一、可信且一致的数据。若缺乏强大的数据整合战略,组织可能难以大规模应用 AI。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

云数据整合如何运作?

云数据整合遵循典型的数据整合步骤,但在操作顺序和技术细节上可能有所不同,特别是在如何设计数据管道协调跨分布式云和混合环境的数据移动与处理方面。

  1. 数据源识别:在云数据整合中,数据源具有云特定的特性。它们通常包括云数据仓库软件即服务 (SaaS) 和云应用、云对象存储系统,以及横跨本地传统系统和基于云的数据存储的混合源系统。

  2. 数据提取:使用云原生工具和流程从云和混合源中提取数据,这些工具和流程通常支持增量式和近实时的数据摄取(必要时也支持传统的批处理方式)。提取通常涉及应用程序编程接口 (API) 或连接器,包括托管的和内置的。

  3. 数据映射: 映射模式定义了来自不同系统的数据元素之间的对应关系。此步骤有助于确保数据在整合过程中的一致性。在云数据整合中,映射过程必须适应云和 SaaS 源中常见的模式演变。

  4. 数据加载:提取、加载、转换 (ELT) 是云数据整合的主流方法,即在转换之前将数据加载到目标系统(如数据仓库、数据湖数据湖仓一体)中。此步骤利用可扩展的云存储和云计算,高效地移动大量云数据。

  5. 数据转换:数据转换将数据转换并丰富为通用格式,支持准确性和下游兼容性。转换通常使用云原生服务并遵循 ELT 方法,利用并行处理和持续操作,实现云环境中数据的按需访问。

  6. 数据验证与质量保证:质量控制通过检查错误、不一致性和数据完整性问题,有助于确保数据的准确性和质量。大规模使用自动化验证检查,维护数据格式、代码、类型和范围的一致性

云数据整合的优势

如同传统数据整合一样,云数据整合提供了一系列广泛优势,包括:

  • 统一的数据访问
  • 数据质量和一致性
  • 可扩展性与弹性
  • 加速创新
统一的数据访问

云数据整合将数据所在的各种环境中的数据汇集在一起。这种统一性使数据用户能够访问组织不断增长的数据生态系统,从而有效打破 数据孤岛

它能在用户需要的时间和地点(无论是云端、本地、批量还是实时)交付数据。这种 数据民主化 通常通过丰富的 元数据 和 数据目录来实现。

数据质量和一致性

一旦 数据质量问题 影响到下游系统或仪表板,损害就已造成。通过数据转换和 清洗 过程,云数据整合有助于确保云数据的高质量和适用性——在用于业务决策、 自动化 或 AI 之前,数据就应无错误、无不一致性和冗余。

可扩展性与弹性

云数据整合通常利用对象存储(如数据湖或现代云数据仓库的存储层),并结合无服务器和弹性计算服务。这种方法将数据存储与计算解耦,提供可扩展、有弹性的处理能力。在分布式架构中,云数据在其存储位置进行处理,从而在服务器或数据中心发生故障时提供弹性。

敏捷性与加速创新

统一、整合的数据使云数据访问更快捷、更容易。对于金融服务、医疗保健和零售等快节奏行业而言,这种连接性对于做出基于数据的相关决策至关重要。它也是助力 AI 模型训练、数据科学工作流程以及增强 AI 的上下文理解和能力的关键。

云数据整合的常见考虑因素和挑战

实施云数据整合的组织可能面临一系列技术和运营挑战,涵盖治理、性能、实时处理和部署模式等方面。

  • 治理、安全与合规
  • 性能和可扩展性
  • 实时数据整合
  • 混合部署

治理、安全与合规

跨系统整合数据增加了潜在攻击媒介的数量,随之而来的是未经授权访问和敏感信息泄露的风险增加。除了数据安全问题,跨地区、司法管辖区或云环境传输客户数据,可能需要遵守不同的法律和数据驻留要求。组织必须确保数据流符合适用的法规,如 GDPRHIPAAPCI DSS

在每个整合点实施数据加密(传输中和静态数据)、强身份验证、权限和授权,有助于减轻这些风险。一个强大的数据治理框架也有助于加强安全性。具有内置安全功能和合规认证的数据整合平台有助于减少运营开销,而由客户管理或本地托管的平台则能对安全协议、合规执行和基础设施管理提供更强的控制。

性能和可扩展性

平衡性能、成本与复杂数据是云数据整合的核心挑战。除非数据整合工具设计为可扩展,否则它们可能难以处理大量数据。过载的数据摄取管道可能会拖慢数据处理速度,导致业务流程延迟,产生不一致的输出,并推高成本。

组织可以优先考虑支持高吞吐量连接器、并行处理和分区以分解大型数据集的解决方案。内置的监控和可观测性功能可以提供数据流和存储资源利用的端到端可见性,以防止瓶颈,确保无论数据量如何波动都能保持高性能。选择正确的整合方法也至关重要。例如,ELT 管道在加载后转换数据,利用云平台或数据仓库的弹性计算能力来大规模处理数据。

实时数据集成

实时或近实时的数据整合对企业日益关键。即时决策、AI 工作负载和其他时效性操作需要持续不断的新鲜数据流。然而,实时数据整合在技术上具有挑战性,尤其是在需要低延迟处理的海量数据场景下。分布式云架构可能会增加额外的延迟和网络可靠性问题。

支持事件驱动架构 (EDA) 的云数据整合解决方案使系统能够实时通信和交换数据。在云原生环境中,EDA 的日益普及代表了从传统的批处理导向架构向更具动态性、响应性架构的重大转变,这种新架构在事件(数据记录)发生时即对其进行处理。

变更数据捕获 (CDC) 是许多解决方案支持的另一种实时集成方法。它能在数据发生变化时捕获并将这些变更传递给不同的目标系统,从而实现近实时的数据同步

混合部署

许多企业在云端之外还有受监管的本地工作负载(例如,存储在 Oracle Database、IBM Db2 或 SQL Server 中的数据集)。在这些场景中,完全基于云的数据整合部署并不实际,因为本地系统与云平台之间可能会发生互操作性挑战。

混合部署通过在数据已驻留的位置处理数据,并在同一环境(无论是云端还是本地)中运行数据管道,有助于应对这些挑战。这些功能有助于降低整合传统系统与云原生系统的复杂性。它们还能证明其成本效益,有助于减少工具泛滥。 

混合数据整合部署使用远程引擎执行,这是一种将设计时与运行时解耦的云原生管道开发模式。管道集中设计,并在目标环境中运行——包括云到云、云到本地以及本地到云的工作负载。这种灵活性带来了多重好处,包括减少数据移动、降低出口成本和最大限度减少网络延迟。

AI 与云数据整合

利用 AI 来加速、简化和优化数据整合流程有许多应用场景。例如,机器学习辅助的模式映射、用于数据转换的自然语言处理 (NLP) 接口、用于创建合成数据生成式 AI,以及用于改进数据复制的 AI 驱动技术。4

智能体式 AI 也是一种新兴的现代数据整合能力,它允许数据团队使用自然语言表达整合需求。基于这些输入,智能体可以自主提出整合设计方案,并随着数据环境和业务需求的变化,持续协助优化工作流程。

这些智能体式功能有助于数据工程师更快速地设计和执行数据管道,并减少耗时的重复性工作,如手动数据录入和数据迁移。它们还可以减少非技术用户的等待时间,这些用户通常无法在没有数据工程团队帮助的情况下访问数据。

与其他 AI 项目一样,成功采用的关键在于保持人在回路中,同时维持强有力的  AI 治理 和持续的 透明度

作者

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

相关解决方案
数据管理软件和解决方案

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案
IBM watsonx.data™

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。

了解 watsonx.data
数据和分析咨询服务

通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

  1. 深入了解数据管理解决方案
  2. 了解 watsonx.data
脚注

1 Omdia:AWS 在 2023 年主导了 570 亿美元的全球云存储服务市场,Omdia by Informa TechTarget,2024 年 6 月 17 日。

2 全球数据存储空间预测,2025-2029,IDC,2025 年 6 月。

3 推动业务增长的五大思维转变,IBM 商业价值研究院,2025 年 7 月 9 日。

4 多云环境中的 AI 驱动数据整合,《国际全球创新与解决方案杂志》(IJGIS),2025 年 1 月 31 日。