什么是实时数据整合?

一名男子手持平板电脑穿过数据中心的图片

作者

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

什么是实时数据集成?

实时数据整合涉及在数据可用时立即从多个来源捕获数据并进行处理,然后立即将其整合到目标系统中。

实时数据整合的功能与传统数据整合相似:整合并协调组织内可能孤岛化或不一致的数据。其流程涵盖从数据摄取到分析的各个环节,使用户能够做出更快、更明智的决策。

区别在于数据可用的速度。实时数据整合使用户能够以最低的延迟(通常在几毫秒内)从数据中提取洞察分析。

从各种来源(如数据库、电子表格、应用程序和云服务)和格式即时访问高质量数据,可使企业能够快速应对变化。它推动了诸如商业智能 (BI)、生成式 AI超个性化等用例。

传统数据整合流程(如批处理)无法满足现代企业激增的数据量及高速需求。实时数据整合采用多样化流技术与实时处理方案(从开源解决方案到综合性数据整合平台),专为持续和大规模运行而设计。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

为什么实时数据集成很重要?

数据是创新的驱动力,更是数据驱动型组织的核心资产。但当今数据量持续增长:预计到 2028 年,全球数据圈将达到  393.9 泽字节 (ZB) 。数据也日趋分散化与多元化,存储在各类系统、存储库、云环境和本地部署环境中。

管理这些日益复杂的大量数据是一项重大挑战。组织面临着数据孤岛、数据陈旧(当数据在一段时间内未更新时发生)、数据治理和高网络延迟等问题。

敏捷和创新的压力加剧了现代数据管理的挑战。当今市场瞬息万变,组织明白他们需要实时数据处理来快速应对变化。生成式 AI 也已成为未来竞争的大势所趋,预计其将在未来 10 年内将全球 GDP 提高 7%

但生成式 AI 需海量高质量数据方能产出价值。对于生成式 AI 模型必须实时响应的场景(如欺诈检测或物流),数据必须即采即用。当前仅 16% 技术领导者确信其云与数据能力可支撑生成式 AI。1

实时数据整合有助于满足当代对即时数据访问的需求,同时还提供传统数据整合的优点,即减少数据孤岛和提高数据质量。它还可以通过更快地获得洞察分析和数据驱动的决策来提高运营效率。

Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

两种类型的实时数据

实时数据通常分为两类:流数据和事件数据。对于追求实时集成和洞察的组织来说,了解类型的差异和关联至关重要。

流数据

流数据是从各种来源持续流出的实时数据,例如物联网 (IoT) 设备、金融市场、社交媒体活动或电子商务交易。流数据是大数据和实时分析、人工智能 (AI) 和机器学习的基础。它也是需要持续、最新信息的其他用例的核心。

事件流

事件是对系统重要的单一变化、发生或操作,例如产品销售、汇款或温度达到设定阈值。相关事件会分组在一起。这些分组事件的持续传递可以被视为一个流,或者更具体地说,一个事件流。但是,并非每个实时数据流实例都包含事件。

用于实时数据集成的工具和方法

实时数据整合工具及方法包括:

  • 流数据整合 (SDI)
  • 变更数据捕获 (CDC)
  • 应用集成
  • 数据虚拟化

流数据集成 (SDI)

与批量整合(以特定时间间隔整合来自各个来源的数据快照)不同,流数据整合 (SDI) 会在数据可用时实时整合数据。它不断消耗、处理数据流并将其加载到目标系统中进行分析。这些能力支持高级数据分析、机器学习和其他实时数据用例,例如欺诈检测和 IoT 分析。

实施 SDI 需要流数据管道,这需要在企业系统之间低延迟、高速移动数百万条数据记录。这些管道通过显著降低数据损坏或重复的风险来帮助确保数据完整性;这些情况快速处理大量数据时的常见问题。

Apache Kafka 和 IBM StreamSets 等数据集成平台可以帮助组织构建适合其独特 IT 生态系统的流数据管道。

变更数据捕获 (CDC)

变更数据捕获会即时将变更从数据源(例如 Microsoft SQL Server 数据库、Oracle 或 MongoDB)应用于数据仓库、ETL 解决方案和其他数据存储库或目标系统。更改可能包括数据删除、插入和更新。与数据复制工具不同,CDC 仅捕获和复制更改,而不是整个数据

从本质上讲,CDC 有助于系统实时更新。通过仅发送已更改的数据,它还可以减少数据处理开销、数据加载时间和网络流量。

应用集成

企业平均使用近 1,200 个云应用程序进行运营,每个应用程序都会生成自己的数据,这导致了数据孤岛。然而,现代工作流需要在应用程序和系统之间实现实时数据流。应用集成,也称为软件集成,可自动化和简化软件应用程序之间的数据传输过程,从而实现实时或近乎实时的数据集成。

企业经常使用应用程序编程接口 (API) 来构建和自动化应用集成工作流。API 是一组规则或协议,使应用程序能够相互无缝通信并交换数据。

企业还可以使用 Webhook 和中间件来促进应用集成。

数据虚拟化

数据虚拟化创建一个虚拟层,提供各种来源的实时数据流的统一视图,例如传感器数据和设备日志。此聚合视图消除了在其他位置移动、复制或批处理数据的需要。此类能力显著减少了整合时间和成本,同时最大限度地降低了数据不准确或丢失的风险。

数据虚拟化工具还可以提供语义层,即可将数据转换为有意义的术语以制定业务决策的用户体验界面。

此外,数据虚拟化是一种适用于实时和历史数据的数据集成解决方案,可为组织的整个运营数据生态系统构建一个全景视图。此丰富数据集正是训练生成式  AI 基础模型的理想资源。

其他类型的数据集成

根据组织的数据需求,还有其他类型的数据整合流程可与实时数据整合一起使用。

  • 批量数据整合:批量整合中,数据以群组形式采集并存储。然后,当指定的时间段过去或收集到一定数量的数据时,数据就会被移动,并作为一个批次进行整合。此方法非常适合计算密集型数据工作负载,以及时间并非激励因素的情况。

  • 微批量数据集成:微批量集成通常被认为是传统批处理的近乎实时替代方案。在这种方法中,数据以更小、更频繁的工作负载处理,从而以更低的延迟实现近乎实时的洞察分析。

  • 提取、转换、加载 (ETL):ETL 数据集成过程将来自不同来源(例如 ERP 系统和数据库)的数据合并、清理和组织成一个一致的数据集,用于存储在数据仓库数据湖或其他目标系统中。当数据质量和一致性至关重要时,ETL 数据管道可能非常适合,因为数据转换可能包括严格的数据清洗和验证。
  • 提取、加载、转换 (ELT):与 ETL 类似,ELT 数据集成将原始数据从源系统移动到目标资源。但是,它不是预先清理数据,而是将原始数据直接加载到数据存储空间中,根据需要进行转换。这样可以实现更灵活的数据管理。通常在速度和可扩展性至关重要的情况下使用 ELT。

虽然这些类型的数据整合是最常见的,但该列表并不详尽。例如,一些组织还可能使用联合数据整合、手动数据整合和统一数据访问整合方法。

实时数据整合的用例

实时数据整合对许多行业和场景都很有用。一些常见的用例包括:

运营情报

整合来自供应链、制造、库存管理和其他运营流程的实时数据可以增强流程优化效果。当与 BI 工具配对使用时,可以在仪表板、报告和其他可视化效果上显示最新信息,以提供智能、透明的总体性能视图。

客户个性化

实时整合来自客户关系经理 (CRM)、社交媒体和其他来源的客户信息的企业可以超越传统的个性化并获得竞争优势。实时洞察分析可实现超个性化,根据各客户行为和偏好提供高度定制的体验、产品或服务。

欺诈检测

实时数据整合平台有助于无缝汇总交易、行为和外部威胁数据。然后,分析引擎可以采集数据并规模化检测问题,保护企业免受欺诈和财务损失,同时改善其监管合规状况。

人工智能 (AI)

通过不断刷新的数据流,AI 模型可以做出更准确的实时预测。实时整合还支持自动化。例如,作为其核心功能的一部分,支持机器人流程自动化 (RPA) 的聊天机器人和自动驾驶汽车可以实时做出决策。

相关解决方案
IBM StreamSets

通过直观的图形界面创建和管理智能流数据管道,促进跨混合和多云环境的无缝数据集成。

深入了解流媒体集
IBM Databand

发现 IBM Databand,用于数据管道的可观测性软件。该软件会自动收集元数据来构建历史基线、检测异常并创建工作流程,以修复数据质量问题。

深入了解 Databand
数据集成解决方案

利用 IBM 数据集成解决方案,创建弹性、高性能和成本优化的数据管道,以满足您的生成式 AI 计划、实时分析、仓库现代化和运营需求。

探索数据集成解决方案
采取后续步骤

了解 IBM DataStage,这是一款 ETL(提取、转换、加载)工具,为设计、开发和部署数据管道提供可视化界面。它可作为 IBM Cloud 上的托管 SaaS、自托管以及 IBM Cloud Pak for Data 的附加组件提供。

探索 DataStage 深入了解分析服务
脚注

1 “技术领导者必须揭示的六大盲区”,IBM 商业价值研究院。2024 年 8 月 20 日。