现代 ETL:企业 AI 的“脑干”

带有霓虹灯发光设计的数据存储服务器走廊

作者

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

试想,一家大型零售商计划面向数百家门店及其线上渠道推出闪购服务。几分钟内,客流量激增超出预测值,库存系统濒临崩溃,定价数据也开始失准。

在传统的本地数据堆栈中,关键更新(例如销量或库存不足警告)由耗时的批处理操作执行。数据在抵达时就已过时,这一延迟可能会造成数百万美元的营收损失。

现代提取、转换、加载 (ETL) 技术或可改变这一现状。它能充当企业人工智能(AI) 的“脑干”,在庞大的数字神经系统中实时传输信号,确保数据立即从收银柜台流向 AI 个性化模型,随之自动调整定价、重新设定库存,并将潜在的危机转化为该零售商的竞争优势。

这种情景凸显了不断增长的需求:实时移动、转换整合数据的能力。几十年来,组织一直使用传统的 ETL 流程来管理数据集成工作流,但当今的业务节奏需要更加敏捷、云原生的方法。这种需求催生了现代 ETL。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

什么是现代 ETL?

要了解现代 ETL 的不同之处,可以先从传统方法入手。传统 ETL 是一个长期的数据整合过程,用于从源系统中提取数据,将其转换为可用格式并加载到目标系统(如数据仓库)中。

但传统的 ETL 有其局限性,尤其是在当今的大数据环境中:

  • 严重依赖批处理,通常要整夜运行

  • 专为具备静态架构的本地基础设施而设计

  • 无法跨大容量实时环境进行扩展

随着数据生态系统日趋复杂,提取、加载、转换 (ELT) 和变更数据捕获 (CDC) 等方法应运而生,用于支持实时摄取和高吞吐量数据处理

此类技术共同构成了向现代 ETL 的更广泛转型,后者正是专为速度、规模和适应性而构建的新一代方法。回到上文的类比案例,如果现代 ETL 是企业的“脑干”,那么企业数据堆栈就如同其神经系统。现代 ETL 在数据堆栈的核心系统和依赖实时洞察分析的 AI 模型之间持续路由信息。

现代 ETL 借助服务、自动化流式传输功能,实时交付转换后的数据。Amazon Redshift、Google BigQuery 和 Microsoft Azure Synapse 等工具可支持这一编排任务,帮助企业加速制定决策,从而发挥 AI 在企业运营中的关键价值。

Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

现代 ETL 与传统 ETL

传统的 ETL 是为本地部署中可预测的结构化工作负载而构建的。如上所述,它通常依赖于批处理、手动更新和僵化的管道,因此难以扩展或支持实时需求。

相比之下,现代 ETL 专为云构建。它能支持批处理和流式工作流,允许企业在数据生成时即时采取行动。例如,ELT 技术可将转换环节迁移到数据仓库,借此加速摄取并提高灵活性。

Informatica、Apache Spark 和 IBM® DataStage 等云原生工具以及 Snowflake 等平台均可提供预构建连接器和自动化工具。这一灵活性可支撑当今企业环境中的各种数据格式、来源和体量。

但现代 ETL 不仅是一次技术升级,更构成了数据驱动式决策和 AI 赋能的基础。非结构化数据、实时物联网 (IoT) 数据流以及机器学习 (ML) 工作量正推动传统管道突破其性能极限。由于组织通过各种来源生成更多数据,现代 ETL 可借助可扩展的云原生处理能力,有效应对日益增长的复杂性。

现代 ETL 的主要优点

现代 ETL 提供了一系列优点,可以帮助组织管理跨当今数据驱动生态系统的集成,包括:

  • 基于云的架构
  • 实时数据摄取
  • 统一的数据源和类型
  • 自动化和编排
  • 可扩展性和成本效益
  • AI 就绪型管道

基于云的架构

现代 ETL 工具专为云数据仓库、数据湖软件即服务 (SaaS) 环境而设计。它们充分利用云原生可扩展性、编排和数据存储能力,因此组织无需大量基础设施投入即可管理不断增长的数据量。这种弹性确保 ETL 管道能够随着业务需求的变化进行调整。

实时数据摄取

Apache Kafka 等流式传输平台允许组织采集并处理来自 IoT 设备和应用程序编程接口 (API) 的实时数据,从而降低延迟并支持数据管道响应变化,无论是重新规划库存还是触发 ML 模型以预测需求。尽管“ETL”一词仍然存在,但许多现代管道均遵循 ELT 模式,首先加载数据,然后使用结构化查询语言(SQL) 或 Python 在仓库中对其进行转换。

统一的数据源和类型

现代 ETL 解决方案结合了来自不同数据源的信息,包括关系数据库、API、非结构化数据和遥测流。通过这种方式,他们生成经过转换的数据集,这些数据集可立即进行分析,从而推动高级商业智能的发展,提升数据质量,并支持各种用例中的 AI 模型训练

自动化和编排

ETL 编排工具可管理实时数据流、触发架构验证、监控转换过程并协调原始数据向 AWS 和 Google BigQuery 等平台的迁移。此功能可减少数据工程师的手动工作量,并支撑一致、可信的数据整合流程。

可扩展性和成本效益

现代 ETL 平台专为可扩展性而构建。它们能自动适应来自不同来源(如 IoT 设备和非结构化数据)且不断增长的数据量。无服务器架构和基于使用量的定价有助于优化云计算资源,同时维持 ETL 流程的成本效益。

AI 就绪管道

最重要的是,现代 ETL 能够持续向下游 AI 和机器学习工作流交付高质量的转换数据。通过采用最新或实时信息对模型进行训练和更新,组织可以减少漂移、提高预测准确性,并将 AI 轻松嵌入核心运营。

现代 ETL 工具和平台

多个平台构成了现代 ETL 管道的核心架构,支撑着驱动企业 AI 的实时数据流。

  • Amazon Redshift:完全托管的 PB 级数据仓库服务,与 AWS ETL 工具紧密集成。

  • Snowflake:专为可扩展的实时数据摄取、转换和存储而设计的云数据平台。

  • Google BigQuery:无服务器且高度可扩展的云数据仓库,适用于 ELT 处理和实时数据分析。

  • Azure Data Factory:一种基于云的 ETL 和数据集成服务,提供到各种来源和实时编排的连接器。

  • Informatica 和 Talend: 支持混合数据管理、实时摄取和自动化的领先 ETL 解决方案。

  • IBM DataStageCloud Pak for Data 上的云原生 ETL 平台,可支持实时整合、混合部署和自动化工作流。
  • Apache Kafka:分布式流式传输平台,可从多个数据源实时摄取数据。虽然不是完整的 ETL 工具,但它在现代 ETL 架构中发挥着关键作用。

  • 开源框架:对于寻求可定制的社区支持型 ETL 工作流的组织来说,Apache Airflow 和数据构建工具 (dbt) 等工具日益受到青睐。

实施现代 ETL

实施现代 ETL 不仅在于选择工具,还需要在数据摄取、编排、转换和治理方面进行协调规划,以支持规模化实时分析和机器学习。现代 ETL 的实施步骤包括:

  • 评估数据来源和摄取方法
  • 选择合适的目标系统
  • 确定数据转换需求
  • 自动化工作流编排
  • 嵌入健全的数据治理准则
  • 优化成本管理战略

评估数据源和摄取方法

企业应首先确定所有相关数据源,包括 SaaS 平台、API、关系型数据库和 IoT 数据流。了解此类数据源的多样性和结构可以帮助组织制定更有效的摄取战略,并确保与下游工作流无缝衔接。

选择正确的目标系统

选择正确的目标系统是现代 ETL 成功的关键。Amazon Redshift 和 IBM Db2 等云数据仓库支持从可扩展分析到 AI 模型训练的一系列数据仓储需求。最佳选择取决于数据量、工作负载类型和平台兼容性。

确定数据转换需求

团队应该评估是传统的 ETL 方法还是更现代的 ETL 战略更能符合他们的需求。数据格式、数据量和实时处理要求等因素都会影响数据转换的方式和时机。

自动编排工作流

自动化技术有助于简化数据流、确保准确性并维持云原生平台的一致性。这涉及调度、验证、监控和架构管理,以支持可靠且可扩展的数据整合。

嵌入健全的数据治理准则

将数据治理嵌入 ETL 流程,可提高数据质量并维持合规性。强有力的实践举措包括验证、访问控制、沿袭跟踪和数据整合过程的持续评估。

优化成本管理战略

现代 ETL 流程可以高效处理大量数据,但管理定价是关键所在。组织应评估基于使用量的定价、无服务器方案和混合云架构,以优化成本并支持实时分析。

现代 ETL 的新兴趋势

以下是正在重塑现代 ETL 态势的几种趋势:

低代码和无代码 ETL 工具

这些平台可确保业务用户和数据工程师以极少的手动编码操作来设计并部署数据管道,从而缩短实现价值的时间。

AI 驱动编排

AI 模型正用于优化数据工作流、预测管道故障、自动恢复以及通过异常检测提高数据质量。

与 ML 管道整合

现代 ETL 与机器学习工作流紧密集成,以加速模型训练、验证和部署。

无服务器数据整合

无服务器架构减少了基础设施构管理开销,并允许 ETL 流程根据数据量和工作量自动扩展。

这些趋势反映了企业向更智能、更灵活的数据整合实践持续转型的过程。随着现代 ETL 的不断演进,它在企业智能领域仍占据着重要地位,负责将数据精准路由至关键环节,同时确保 AI 模型维持可靠性。

相关解决方案
IBM DataStage

借助现代化的 ETL 工具,在云原生洞察平台上构建值得信赖的数据流程。

了解 DataStage
数据集成解决方案

利用 IBM 数据集成解决方案,创建弹性、高性能和成本优化的数据管道,以满足您的生成式 AI 计划、实时分析、仓库现代化和运营需求。

探索数据集成解决方案
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取后续步骤

设计、开发和运行旨在移动和转换数据的作业。利用行业领先的数据集成工具 IBM® DataStage,在混合或多云环境中体验强大的自动集成功能。

深入了解 IBM DataStage 深入了解数据集成解决方案