数据整合技术和方法

数据团队所面对的数据堆积如山,其规模足以与珠穆朗玛峰相媲美。而应对这些高峰的难度与日俱增,因为数据的数量和复杂性没有任何放缓的迹象。

当今的企业数据来自不同的来源(如 SaaS 应用程序、IoT 设备和旧版系统),并被汇总在庞大的数据存储生态系统中。这些信息中有很大一部分是非结构化数据,也就是电子邮件、PDF、图像、通话记录和聊天记录等日常信息。

由于缺乏全面的视图,这些获取后便已过时,获取后便已过时,并且在很大程度上未得到充分利用。更不用说,由于获取大量高质量数据的途径有限,人工智能 (AI) 落地应用的相关工作停滞在了起跑线上。

数据整合通过组合、汇总和协调存储在不同来源、不同数据格式以及不同质量水平的数据,帮助缓解这些挑战。这种整合为数据消费者提供了统一、连贯的信息,可直接应用于分析、AI 和决策工作。

数据整合过程分为几个步骤,通常包括数据识别、映射、转换验证、加载和同步。技术流程、工具和战略的具体组合取决于业务需求以及所采用的整合方法类型,这类方法有多种形式。

数据整合技术和方法

使用耗时的手工编码 SQL 脚本来移动和转换数据的日子已经一去不复返了。如今出现了多种依托技术实现的数据整合方法,各类方法可对应不同的整合需求与功能。

以下是一些最常见的技术:

  • 提取、转换和加载 (ETL)
  • 提取、加载、转换 (ELT)
  • 实时数据整合
  • 变更数据捕获 (CDC)
  • 数据虚拟化
  • 应用集成
  • 数据复制

提取、转换和加载 (ETL)

ETL 是一种数据整合方法,它从多个源系统提取数据,在临时区域进行转换,并加载到中央存储库(通常是数据仓库数据湖)。

传统的 ETL 方法专为本地部署环境中的关系数据库以及可预判的结构化工作负载而设计。它们通常依赖批处理、持续维护和固定的数据管道,这会限制 IoT 数据流、非结构化数据等现代用例的使用效果。

现代 ETL 工具依托云架构不断发展,借助自动化编排和实时摄取提升灵活性与可扩展性。它通常与 ELT 模式结合使用,支持批处理和流式工作流,是分析、机器学习 (ML) 和 AI 的基础。

  • 主要优势:它通过数据清理和标准化,在数据送达目标系统前提升数据质量

  • 关键挑战:传统方法难以处理大规模数据量和实时数据流

提取、加载、转换 (ELT)

正如您可能猜到的那样,ELT 数据整合与 ETL 有许多相似之处。二者都会将数据从源系统迁移至目标系统。然而,ELT 流程会将原始数据直接加载到数据存储库中,根据需求完成转换,而非提前清理数据。

与传统 ETL 方法相比,该整合方式可实现更灵活的数据管理与更高效的数据处理。ELT 普遍应用于大数据项目和实时处理场景,速度和可扩展性在这类场景中尤为关键。

实时数据集成

实时整合会在数据生成后立即完成采集与处理,并同步推送至目标系统。除了具备传统数据整合的优势(例如提升数据质量、减少数据孤岛)外,该方式还大幅提升数据流转效率,部分场景下用户可在数毫秒内完成洞察分析。

这种近乎实时的数据访问能力,为商业智能 (BI)、生成式 AI (Gen AI) 和客户超个性化服务提供支撑。它对于实时分析欺诈检测和系统监控等用例特别有利。

  • 主要优势:它为 AI 和明智决策提供高质量、最新的数据。

  • 关键挑战:它需要能够承载实时数据体量与传输速度的数据基础设施和网络。

变更数据捕获 (CDC)

实时数据整合的一种类型是变更数据捕获。该技术可识别数据源系统中的更改,并将其立即同步至数据仓库和其他存储库。

CDC 可实现组织内部的实时数据同步。此外,该技术仅传输修改后的数据,能够减轻源系统、网络流量和计算资源的负载。

保持系统数据最新,是开展实时决策、云迁移和 AI 相关工作的必要条件。CDC 支持欺诈检测、法规合规、供应链管理、IoT 部署等业务流程。

  • 主要优势:与其他数据整合方法相比,它可以高效地提供最新数据,资源消耗更少。

  • 关键挑战:CDC 数据管道在遇到模式变更时容易出现问题,进而影响功能运行。

数据虚拟化

数据虚拟化通过在不同的数据源和数据消费者之间建立虚拟(软件抽象)层来实现数据整合。该层提供统一的数据视图,无需物理数据移动或复制。它允许用户按需访问和查询数据,无论数据实际位于何处。

虽然数据联邦有时被认为是一种独特的数据整合方法,但它实际上是数据虚拟化中的一项关键技术。它支持跨各种数据源的逻辑映射,以便用户从单一界面进行查询。

组织可以使用数据虚拟化来执行“虚拟”数据仓库或创建数据湖,省去搭建和管理物理平台的成本与复杂工作。在敏捷性和实时数据访问至关重要的场景(例如分析和 AI)中,它的作用尤为突出。

  • 主要优势:它可以加快数据整合进度,同时减少资源消耗以及数据迁移带来的相关风险。

  • 关键挑战:相较于直接访问数据,查询虚拟化数据会产生延迟,在需要频繁更新数据的场景下该问题会更加明显。

应用集成

应用集成将应用程序、系统和子系统连接起来,以创建统一和自动化的数据传输环境。它支持无缝数据流和互操作性,同时减少各团队、各类工具之间的数据孤岛。这些功能在当今的商业环境中至关重要,企业平均使用近 1 200 个云应用程序,每个应用程序都会生成专属数据。

组织使用应用集成来实现数据一致性并帮助不同系统协同工作,例如人力资源和财务平台。常见的方法包括应用程序编程接口 (API)、连接器、中间件和 Webhook,用于搭建和自动化整合工作流。

  • 主要优势:它有助于促进原本相互独立的应用程序和系统之间的实时数据流动。

  • 关键挑战:将旧版系统与现代 SaaS 应用程序整合可能非常复杂。

数据复制

数据复制会在不同的位置和系统上创建并维护相同数据的多个副本。通常,该技术会将数据从单个源系统复制到一个或多个目标系统(副本)。该技术可保障分布式环境下的数据可用性、可靠性弹性,同时也应用于灾难恢复策略当中。

数据复制主要分为两种形式:异步复制和同步复制。在异步数据复制模式下,数据会先同步至主系统,再分批复制到副本系统,整个过程存在一定延迟。在同步数据复制模式下,数据会持续同步至主系统与副本系统,两类操作同时进行。

  • 主要优势:该方式可缩短数据传输至最终用户的路径,进而减少延迟、提升运行性能。

  • 关键挑战:工作人员难以在实时数据更新需求与系统性能之间找到平衡。
AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

智能体整合:简化访问和交付

数据整合的下一发展阶段,依托 AI 智能体完成数据交付的优化与简化工作。这类机器学习模型能够模拟人类的决策逻辑,实时处理各类问题。在多智能体系统中,每个智能体负责执行专属子任务,并依靠 AI 智能体编排实现协同运作。

借助智能体数据整合工具,不同能力水平的业务用户均可使用自然语言(例如“整合 CRM 和 ERP 数据”)发起数据请求,相关技术工作则由智能体负责处理。智能体可以在数分钟内对接对应数据源、执行数据转换并输出可信数据集,而分析师与业务用户通常需要等待 1-4 周才能获取所需数据。

AI 智能体能够减少团队间的反复交接行为,缩短冗长的数据准备周期,在不占用大量数据工程资源的前提下提升运行效率。团队可近乎实时地调取可信的整合数据,以此推进分析工作与 AI 项目,更快制定合理决策。

作者

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

相关解决方案
IBM® watsonx.data 集成

通过简化的用户体验,将原始数据转化为 AI 就绪数据,支持整合任意类型的数据。

深入了解 watsonx.data integration
数据集成解决方案

利用 IBM 数据集成解决方案,创建弹性、高性能和成本优化的数据管道,以满足您的生成式 AI 计划、实时分析、仓库现代化和运营需求。

深入了解数据集成解决方案
数据和 AI 咨询服务

通过制定适当的战略、数据、安全和治理措施,成功实现 AI 的规模化应用。

深入了解数据和 AI 咨询服务
采取后续步骤

通过多种方式(包括批量处理、实时流和复制)整合结构化和非结构化数据,以免您将时间和金钱浪费在工具切换上。

  1. 深入了解 IBM watsonx.data integration
  2. 深入了解数据集成解决方案