ETL(抽取、转换和装入)
集成 分析
黑蓝背景
ETL(抽取、转换和装入)

ETL 是将多个来源的数据抽取、抽取和装入数据仓库或其他统一数据存储库的过程。 

了解更多信息

观看如何构建和运行 ETL 作业

阅读 2021 年 Gartner《数据集成工具魔力象限》报告

阅读 IBM DataStage 简介 (169 KB)


什么是 ETL?

ETL,代表 截取、转换和装入, 是一个数据集成过程,它将多个来源的数据结合到一个单一的、一致的数据存储库中,然后再将这个存储库装入到 数据仓库 或其他目标系统中。

随着数据库在 20 世纪 70 年代变得越来越流行,ETL 作为集成和装入数据以进行计算和分析的过程而被推出,最终成为数据仓库项目中处理数据的主要方法。

ETL 为数据分析和机器学习工作流程提供基础。 通过一系列业务规则,ETL 以一种满足特定业务智能需求的方式清理和组织数据,如月度报告,但它也可以处理更高级分析,从而能够改进后端流程或 最终用户 体验。 企业经常使用 ETL 来: 

  • 从 传统系统中抽取 数据
  • 清理数据,以提高数据质量并建立一致性
  • 将数据装入 目标数据库

 

特色产品

DataStage

InfoSphere Information Server Enterprise Edition


ETL 与 ELT

ETL 和 ELT 最明显的区别在于操作顺序的不同。 ELT 从源位置复制或导出数据,但不是将其移动到暂存区进行转换,而是将原始数据直接装入目标数据存储库,以便在这里根据需要进行转换。

虽然这两个流程都利用种类繁多的数据存储库,如数据库、数据仓库和数据湖,但它们有各自的优点和缺点。 ELT 对于大容量、非结构化数据集特别有用,因为装入可以直接从源文件中进行。 ELT 对于大数据管理可能更理想,因为它不需要对数据抽取和存储进行太多的前期规划。 而 ETL 过程则需要更多的初始定义。 它需要为数据提取识别出特定的数据点,还需要识别出任何潜在的“键”,以便在不同的源系统之间进行集成。 即使在工作完成之后,它也需要构建数据转换业务规则。 这项工作通常依赖于给定类型的数据分析的数据需求,该需求决定了数据需要具有的汇总级别。 虽然随着云数据库的采用,ELT 变得越来越受欢迎,但它也有自己的缺点,因为它是一个较新的过程,因此意味着最佳实践仍在建立之中。


ETL 的工作方式

了解 ETL 如何工作的最简单的方法就是了解这一过程在每个步骤中发生的事情。

抽取

在数据抽取期间,原始数据会被从源位置复制或导出至暂存区。 数据管理团队可以从各种结构化或非结构化的数据源抽取数据。 这些来源包含但不限于:

  • SQL 或 NoSQL 服务器
  • CRM 和 ERP 系统
  • 平面文件
  • 电子邮件
  • 网页

转型

暂存区,原始数据将接受数据处理。 在这里,数据将被转换和合并,以用于既定的分析用例。 此阶段可能涉及以下任务:

  • 对数据进行过滤、清理、去重、确认和验证。
  • 基于原始数据执行计算、转换或汇总。 这可以 包括改变行和列标题以保持一致性、转换货币或其他度量单位、以及编辑文本字符串等。
  • 进行审计,以确保数据质量与合规
  • 删除、加密或保护由行业或政府监管机构管理的数据
  • 将数据格式化为表或连接表,以匹配目标数据仓库的模式。

加载

在这最后一步中,转换后的数据将从暂存区移至目标数据仓库。 通常来说,这涉及到对所有数据的初始加载,然后定期加载增量数据变化,偶尔需要进行完全刷新以擦除和替换仓库中的数据。 对使用 ETL 的大多数组织而言,这个过程都是自动的、定义明确的、连续执行且批量驱动的。 通常情况下,ETL 发生在非工作时间,此时源系统和数据仓库的流量处于最低水平。


ETL 和其他的数据集成方法

ETL 和 ELT 只是两种数据集成方法,您也可以使用其他方法来促进数据集成工作流。 其中包括:

  • 变更数据捕获 (CDC) 仅识别和捕获已发生变更的源数据,并将该数据转移到目标系统。 CDC 可用于减少 ETL“抽取”步骤中所需的资源;它还可以独立地用于实时移动已转换为数据湖或其他存储库的数据。
  • 数据复制 将将数据源中的更改实时或批量地复制到中央数据库。 数据复制 通常被列为数据集成方法。 实施,它最常用于创建备份以支持 灾难恢复
  • 数据虚拟化 使用软件抽象层来创建一个统一的、集成的、完全可用的数据 视图 — 无需真正复制、转换或将源数据加载到目标系统中。 数据虚拟化 功能使组织能够从相同的源数据创建虚拟数据仓库、数据湖和数据集市来存储数据,避免了为每个数据仓库、数据湖和数据集市构建和管理独立平台的费用和复杂性。 虽然数据虚拟化可与 ETL 一起使用,但它越来越被视为 ETL 和其他物理数据集成方法的替代方法。
  • 流数据集成 (SDI) 正如名字听起来的那样 — 它不断地实时消耗数据流、转换它们、并将它们加载到目标系统中进行分析。 这里的关键字是 持续。 SDI 不是集成在给定时间从源中抽取的数据快照,而是在第一时间持续集成可用数据。 SDI 支持数据存储,为分析、机器学习和实时应用提供动力,以改善客户体验和欺诈检测等。 

ETL 的优势和挑战

ETL 解决方案可在将数据加载到不同的存储库之前对数据进行清理,以提高质量。 ETL 是耗时的批处理操作,通常用于创建需要较少更新的较小目标数据存储库,而其他数据集成方法 —包括 ELT(抽取、装入和转换)、变更数据捕获 (CDC) 和数据虚拟化 — 则用于集成越来越大的发生变更的数据或实时数据流。

 

了解有关数据集成的更多信息

ETL 工具

在过去,企业编写自己的 ETL 代码。 而现在,有许多开源和商业化的 ETL 工具和云服务可供选择。 这些产品的典型功能包括:

  • 全面自动化和易用性: 领先的 ETL 工具可以自动化从数据源到目标数据仓库的整个数据流。 许多工具都会推荐数据的抽取、转换和装入规则。
  • 直观的拖放界面: 该功能可用于指定规则和数据流。
  • 支持复杂的数据管理: 这包括协助复杂的计算、数据集成和字符串操作。
  • 安全与合规: 最好的 ETL 工具会对动态和静止的数据进行加密,并且经过认证符合行业或政府法规,如 HIPAA 和 GDPR。

此外,许多 ETL 工具已经发展到包括 ELT 功能,并支持 面向人工智能 (AI) 应用的实时数据和流数据集成

集成的未来- 使用 EAI 的 API

使用企业应用程序集成 (EAI) 技术的应用编程接口 (API) 可以代替 ETL,以获得更灵活、更可扩展的解决方案,包括 工作流 集成。 虽然 ETL 仍然是主要的 数据集成 工具,但 EAI 日益与 API 一起作用于基于 web 的环境中。


ETL、数据集成和 IBM Cloud

IBM 提供数个数据集成工具和服务,旨在支持业务就绪的数据管道,并为企业提供有效扩展所需的工具。

作为数据集成领域的领导者,IBM 在管理大数据项目、SaaS 应用和机器学习技术方面为企业提供了必要的信心。 凭借 IBM Cloud Pak for Data等业界领先的平台,企业可以对其 DataOps 流程进行现代化改造,同时能够使用一流的虚拟化工具,以实现其目前和未来业务所需的速度和可扩展性。

有关您的企业该如何制定和执行有效数据集成策略的更多信息,请浏览 IBM 数据集成产品套件。

注册一个 IBMid 并 创建 IBM Cloud 账户


相关解决方案

IBM Cloud Pak for Data

IBM Cloud Pak for Data 是一个开放式、可扩展的数据平台,它提供的数据架构可使所有数据在任何云端用于 AI 与分析。


IBM DataOps

人工智能正在以新的方式释放数据价值。 借助 DataOps 解决方案来整理您的数据,使其为 AI 和多云世界做好准备。


数据集成

数据集成支持您转换结构化和非结构化数据,然后提供给可扩展的大数据平台上的任何系统。