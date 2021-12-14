标签
ELT 与 ETL：有什么区别？

格陵兰岛西海岸伊利卢萨特冰山的水下景观

ELT 和 ETL 在定义、优势和用例方面的异同。

ELT（提取、加载、转换）ETL（提取、转换、加载）均属数据集成流程，将原始数据从源系统移至目标数据库（如数据湖数据仓库）。这些数据源可能存储于多个不同的存储库或旧版系统中，通过 ELT 或 ETL 流程被传输至目标数据存储。

 

什么是 ELT（提取、加载、转换）？

在 ELT 流程中， 非结构化数据 从源系统提取后直接加载至目标系统，待需要时再进行转换。这种提取的非结构化数据可直接供商业智能系统使用，无需经过数据暂存环节。ELT 利用数据仓库执行基础数据转换操作，如数据验证或去重。这些流程实时更新，适用于海量原始数据处理。相较于成熟的 ETL，ELT 是尚未完全发挥潜力的新流程。ELT 流程最初基于手写 SQL 脚本实现。与 ETL 采用的先进方法相比，此类 SQL 脚本存在编码错误的概率更高。

什么是 ETL（提取、转换、加载）？

而在 ETL 流程中，非结构化数据从源系统提取后，需先识别特定数据点和潜在“关键字段”，再载入目标系统。在传统 ETL 场景中，源数据会先进入临时暂存区，再移入目标系统。在暂存区中，数据经历转型过程，整理和清理所有数据类型。这种转换过程使结构化数据能与目标数据存储系统兼容。ETL 最初为适配 关系型数据库而设计（该类数据库曾长期主导市场）。自 1970 年代以来，数据工程师持续优化 ETL 流程，使其数据科学处理环节已臻完善。

以下视频中 Jamil Spain 将深入解析 ETL： 

ELT 和 ETL 的优势

ELT

与 ETL 流程相比，ELT 方法的实施速度 更快 ，但数据在加载后较为杂乱。由于转换操作在加载功能之后进行，这种方法避免了迁移过程中可能出现的速度迟滞。ELT 将转换与加载阶段解耦，确保编码错误（或转换阶段的其他错误）不会中断迁移进程。此外，ELT 通过利用数据仓库的处理能力和规模优势实现大规模转换（或可扩展计算），从而规避服务器扩展问题。ELT 还能适配云数据仓库解决方案，支持结构化、非结构化、半结构化和原始数据类型。

ETL

ETL 流程实施耗时更长，但能提供 更规整的 数据。这种流程非常适合需要较低更新频率的小型目标数据存储库。ETL 同样兼容云端数据仓库，既可通过基于云的 SaaS 平台运作，也能部署在本地数据仓库中。

目前市场上还存在众多开源和商业 ETL 工具，它们具备以下特性和优势：

  • 提供全面自动化与易用功能 ，能自动化整个数据流并对提取、转换、加载流程的规则提出建议。
  • 配备可视化拖放界面 用于指定规则和数据流。
  • 支持复杂数据管理 ，协助完成复杂计算、数据整合和字符串操作。
  • 拥有完善的安全合规体系 ，可对传输中和静态的敏感数据进行加密，并通过 HIPAA（《健康保险流通与责任法案》）和 GDPR（《通用数据保护条例》）等行业或政府法规认证。这为加密、删除或屏蔽特定数据字段以保护客户隐私提供了更安全的实现方式。

ELT 和 ETL 用例

ELT

ELT 流程最适用于大数据集或实时数据处理环境。

一些具体示例如下：

  • 拥有海量数据的组织：例如气象服务等气象系统需要定期收集、整理并使用大量数据。交易量庞大的企业也属此范畴。采用提取、加载与转换流程可实现更快速的源数据转移。
  • 需要即时访问的组织： 证券交易所实时生成并处理海量数据，任何延迟都可能造成损失。此外，大型物料及零部件分销商需要实时获取当前数据以支撑商业智能分析。

ETL

ETL 则更适合同步多数据环境及从旧版系统迁移数据。
一些具体示例如下：

  • 需要从多个来源同步数据的组织：企业合并业务时往往涉及共同的客户群、供应商及合作伙伴。这些数据可能存储在不同的数据存储库并采用不同的格式。ETL 能在数据加载至目标位置前，将其转换为统一格式。
  • 需要从旧版系统迁移和更新数据的组织：旧版系统需通过 ETL 流程将数据转换为与目标数据库新结构兼容的格式。

ELT 与 ETL：主要区别

ELT 与 ETL 的主要区别在于操作顺序的差异，这使得它们分别适用于不同场景。其他区别体现在各自能处理的数据规模与数据类型上。尽管 ELT 与 ETL 听起来相似，但实际应用截然不同。

ELT

ELT 流程的简化之处在于无需为数据传输和使用配置“键值”或其他标识符。ELT 流程经过优化完善，现已衍生出众多用于辅助数据迁移的先进 ELT 工具。因其处理流程更为简化，加载时间也更短。ELT 解决方案源于商业智能系统对快速加载非结构化数据的需求。基于云的自动化 ELT 解决方案通常维护成本相对较低。

ETL

ETL 数据从初始阶段就具备更明确的定义，这通常需要更长时间来实现精准传输。该流程仅需定期更新信息，而非实时更新。由于在数据加载前必须完成转换阶段的多重步骤，ETL 的加载时间比 ELT 更长。

ELT、ETL 和 IBM Cloud

IBM 提供多种数据集成服务与解决方案，旨在构建企业级数据管道，为您的企业提供高效扩展所需的工具。

作为本地和云端数据集成领域的领导者，IBM 让企业在管理大数据项目、应用程序和机器学习技术时充满信心。通过  IBM Cloud Pak® for Data 等行业领先平台，组织能够现代化其  DataOps  流程，并运用顶尖虚拟化工具来满足当前及未来的业务速度与扩展需求。

若需深入了解企业如何构建并实施高效的数据集成战略，请深入了解 IBM 全套 数据集成解决方案

注册 IBMid 并 创建您的 IBM Cloud 帐户

