ETL,代表 截取、转换和装入, 是一个数据集成过程,它将多个来源的数据结合到一个单一的、一致的数据存储库中,然后再将这个存储库装入到 数据仓库 或其他目标系统中。
随着数据库在 20 世纪 70 年代变得越来越流行,ETL 作为集成和装入数据以进行计算和分析的过程而被推出,最终成为数据仓库项目中处理数据的主要方法。
ETL 为数据分析和机器学习工作流程提供基础。 通过一系列业务规则,ETL 以一种满足特定业务智能需求的方式清理和组织数据,如月度报告,但它也可以处理更高级分析,从而能够改进后端流程或 最终用户 体验。 企业经常使用 ETL 来:
DataStage
InfoSphere Information Server Enterprise Edition
ETL 和 ELT 最明显的区别在于操作顺序的不同。 ELT 从源位置复制或导出数据,但不是将其移动到暂存区进行转换,而是将原始数据直接装入目标数据存储库,以便在这里根据需要进行转换。
虽然这两个流程都利用种类繁多的数据存储库,如数据库、数据仓库和数据湖,但它们有各自的优点和缺点。 ELT 对于大容量、非结构化数据集特别有用,因为装入可以直接从源文件中进行。 ELT 对于大数据管理可能更理想,因为它不需要对数据抽取和存储进行太多的前期规划。 而 ETL 过程则需要更多的初始定义。 它需要为数据提取识别出特定的数据点,还需要识别出任何潜在的“键”,以便在不同的源系统之间进行集成。 即使在工作完成之后,它也需要构建数据转换业务规则。 这项工作通常依赖于给定类型的数据分析的数据需求,该需求决定了数据需要具有的汇总级别。 虽然随着云数据库的采用,ELT 变得越来越受欢迎,但它也有自己的缺点,因为它是一个较新的过程,因此意味着最佳实践仍在建立之中。
了解 ETL 如何工作的最简单的方法就是了解这一过程在每个步骤中发生的事情。
在数据抽取期间,原始数据会被从源位置复制或导出至暂存区。 数据管理团队可以从各种结构化或非结构化的数据源抽取数据。 这些来源包含但不限于:
暂存区,原始数据将接受数据处理。 在这里,数据将被转换和合并,以用于既定的分析用例。 此阶段可能涉及以下任务:
在这最后一步中,转换后的数据将从暂存区移至目标数据仓库。 通常来说,这涉及到对所有数据的初始加载,然后定期加载增量数据变化,偶尔需要进行完全刷新以擦除和替换仓库中的数据。 对使用 ETL 的大多数组织而言,这个过程都是自动的、定义明确的、连续执行且批量驱动的。 通常情况下,ETL 发生在非工作时间,此时源系统和数据仓库的流量处于最低水平。
ETL 和 ELT 只是两种数据集成方法,您也可以使用其他方法来促进数据集成工作流。 其中包括:
在过去,企业编写自己的 ETL 代码。 而现在,有许多开源和商业化的 ETL 工具和云服务可供选择。 这些产品的典型功能包括:
此外,许多 ETL 工具已经发展到包括 ELT 功能,并支持 面向人工智能 (AI) 应用的实时数据和流数据集成。
使用企业应用程序集成 (EAI) 技术的应用编程接口 (API) 可以代替 ETL,以获得更灵活、更可扩展的解决方案,包括 工作流 集成。 虽然 ETL 仍然是主要的 数据集成 工具,但 EAI 日益与 API 一起作用于基于 web 的环境中。
IBM 提供数个数据集成工具和服务,旨在支持业务就绪的数据管道,并为企业提供有效扩展所需的工具。
作为数据集成领域的领导者,IBM 在管理大数据项目、SaaS 应用和机器学习技术方面为企业提供了必要的信心。 凭借 IBM Cloud Pak for Data等业界领先的平台,企业可以对其 DataOps 流程进行现代化改造,同时能够使用一流的虚拟化工具,以实现其目前和未来业务所需的速度和可扩展性。
有关您的企业该如何制定和执行有效数据集成策略的更多信息,请浏览 IBM 数据集成产品套件。
注册一个 IBMid 并 创建 IBM Cloud 账户。