什么是数据编排？

By Alice Gomstyn , Alexandra Jonker

数据编排定义

数据编排是指对跨不同系统、流程和工具的数据流进行管理和协调。它有助于组织和简化数据管道各个环节，包括数据收集、摄取、转换、集成和存储。

通过完善的数据编排流程，数据可以稳定高效地流转至各个目标端，抵达后即可用于数据分析及其他用途。这些核心能力使其成为大数据运算与数据驱动决策时代重要的数据管理方式。

数据工程师依靠数据编排工具和编排平台简化数据流转，支撑企业数据项目实现扩展。自动化是当下多数数据编排解决方案的核心。它可以让数据集成、数据转换等任务按逻辑顺序自动执行，无需人工操

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。

企业为什么需要数据编排？

企业若要利用不断增长的数据量所带来的价值，就必须应对日益复杂的数据生态系统。他们的数据通常来自不同的来源，且数据格式各不相同。

这些数据通常还会分散存储在全球范围内的云端与本地存储库中，例如数据湖和数据仓库。而且在许多组织中，不同团队和员工会在不同工具中使用数据，销售团队使用客户关系管理 (CRM) 系统，营销人员使用分析平台，等等。根据国际数据公司 (IDC) 2024 年针对信息技术及业务部门负责人开展的一项调查显示，企业运营数据平均来自 35 个不同系统，并被整合至 18 个不同的分析数据存储库中。。¹

这种复杂的数据环境容易出现数据孤岛、低质量数据和其他问题，从而在数据管道中造成瓶颈，并在下游分析中引入错误。高效的数据编排能够帮助企业应对这些挑战，并从数据中释放价值。

数据编排有什么优势？

数据编排有助于企业利用数据获取有价值的洞察、做出明智决策并实现创新。具体优势包括：

拆除数据孤岛

随着组织收集海量原始数据，其中大量数据会沦为数据孤岛——被困在相互独立的系统中，仅少数用户知晓并可访问。数据编排能够在各类数据源之间建立连通性，消除数据孤岛，使各团队能够获取企业内最相关、最有价值的数据，为决策提供依据。

提高数据质量

数据不一致与数据滞后是造成数据质量下降的主要原因。数据编排可自动开展数据质量检查与处理工作，包括数据转换和数据验证，在整个数据生命周期内提升数据一致性与时效性。

实现灵活性和可扩展性

随着组织收集的数据量增多或数据类型更加多样，数据编排能够帮助其调整数据工作流，并实现数据工作流的扩展。这种灵活性对于满足不断变化的需求和实现预期的业务成果至关重要。

加速数据洞察

当数据可被便捷访问时，组织能够更快地开展数据分析，加速洞察成果的输出。此外，现代化的数据编排还可支持实时数据监控，从而更快地解决问题，最终形成更可靠、更及时的商业智能。

支持 AI 创新

数据编排支持构建可用于 AI 的数据集，即帮助确保数据满足驱动人工智能与机器学习流程所必需的质量、可访问性及可靠性标准。

加强数据治理和合规性

数据编排解决方案可包含数据沿袭工具，用于长期追踪数据的转换过程与流动情况。该功能为数据提供审计追踪，并有助于确保数据的存储与处理符合数据治理政策及监管要求。

提升数据团队效率

通过数据编排实现重复性数据任务的自动化，可让数据团队专注于更高价值的工作，例如数据建模与数据分析。此外，通过自动化减少人工流程，还能够降低人为失误的风险。

AI Academy

数据管理是生成式 AI 的秘诀吗？

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

转到视频集

数据编排与数据整合有何不同？

数据编排和数据整合是密切相关的概念，但并不完全相同。尽管二者都能为分析场景实现数据的整合与统一，但数据整合更偏向细粒度操作，而数据编排是一项全局性的实践。

数据编排优化在不同系统和流程中的数据移动。数据整合便是其中一类流程，它采用提取、转换和加载 (ETL) 等多种方法，整合并统一来自不同数据源的数据，再将其加载至目标系统中。

了解有关数据集成的更多信息

数据编排 3 步骤

数据编排可帮助组织应对其数据生态系统的巨大复杂性。这个实践本身通常分为三个基本步骤：

组织：数据从各类内部及外部来源采集而来，随后进行整理，通常集中在一个中心位置，为后续的数据转换做好准备。
转换：原始数据会被转换为统一格式，经过清洗与校验，以确保数据的一致性和准确性。
激活：数据被用于分析、路由到仪表板工具和其他用途。

关键数据编排功能

数据编排的基础步骤背后包含多项核心功能，其中：

定义任务依赖关系和任务排序
数据工作流自动化
监控和发送警报

定义任务依赖关系和任务排序

数据编排通常始于定义数据处理任务，并明确这些任务在数据管道与工作流中的执行顺序。它有助于确保在一项任务依赖另一项任务的结果时，后者能够优先完成。这种基于依赖关系的任务排序，能够帮助组织避免代价高昂的管道故障。

为设计和组织任务序列，数据工程师通常会采用有向无环图 (DAG)，这类图中的节点通过单向连接关联，且不会形成任何闭环。DAG 中的不同节点可代表不同的数据处理流程，例如数据摄取与数据转换，以及它们应被执行的先后顺序。边缘连接节点代表进程之间的依赖关系。

在定义和排序任务时，DAG 的一种替代方案是以代码为中心的方法。一种主流的以代码为中心的方法，是使用开源编程语言 Python 创建用于工作流管理的函数，这种架构通常更适合适配动态工作流。

数据工作流自动化

现代化数据编排可自动化多种数据工作流——包括 ETL、ELT（提取、加载、转换）以及数据仓库内的数据转换，以此保障数据一致性，并尽可能减少乃至消除人工干预。人员可以手动启动自动化数据任务，但这些任务也可通过三类触发器进行调度：²

基于时间触发：任务按预设的时间间隔或时间点运行。
基于依赖触发：任务仅在其他指定任务完成后才运行。
事件驱动型触发： 现实世界的信号，如 API 调用，会激活任务。

监控和发送警报

尽管监控数据管道通常被视为数据可观测性实践，但它在数据编排中同样发挥作用，有助于确保数据按预期流动与处理。

组织可以监控多种类型的指标，包括：性能指标（如延迟和吞吐量）、资源利用率指标（如 CPU 与内存使用率），以及数据质量指标（如准确性、完整性和一致性）。³

当检测到数据管道出现问题（例如任务失败）时，通知工具可及时向数据团队发送告警，以便其快速处理问题。编排解决方案还可支持重试机制以缓解问题，即在发送通知之前，将失败的任务按设定次数自动重新运行。

数据编排与其他类型的编排

数据编排与另外两种类型的编排（工作流编排和流程编排）类似，但又明显不同。这两种实践的范畴都比数据编排更广，而数据编排可被视为二者各自的一个分支类型。

工作流编排侧重于协调和管理一系列相互关联的任务、系统和工具，以实现特定结果。它强调跨不同环境对工作流进行端到端的执行与整合，确保任务按正确顺序运行，同时满足依赖关系。

流程编排是指管理和整合多个业务流程，通常涉及工作流、人员和系统。它并不局限于工作流管理，而是对整个业务流程进行端到端的统筹协调，推动其与组织目标保持一致。

数据编排平台和工具

各类组织与数据团队在寻求简化数据处理流程的过程中，可从多种不同的数据编排解决方案中进行选择。适合组织的最佳解决方案取决于其具体侧重点，例如成本因素（开源与商用）、可观测性需求，以及与其他主流数据解决方案的集成能力（如 dbt 这类分析工具、Snowflake 这类云数据平台）。

目前应用最广泛的数据编排工具与平台，通常都提供与其他数据解决方案的对接选项，但在其他方面存在差异。以下是几种数据编排解决方案的详细介绍：

Apache Airflow
AWS Step Functions
Azure Data Factory
Dagster
IBM DataOps 平台
Prefect

Apache Airflow

作为最知名的数据编排解决方案，Apache Airflow 是一款开源平台，主要面向批处理场景设计。它支持数据工作流调度，将工作流定义为 DAG。Airflow 支持扩展和并行执行，适合管理复杂且数据密集型的管道。

AWS Step Functions

AWS Step Functions 是亚马逊推出的无服务器编排服务，具备可视化界面，用于协调分布式应用与微服务。通常推荐已在使用亚马逊云基础设施的组织选用，不过它也可与第三方应用集成。

Azure Data Factory

Azure Data Factory 是微软提供的一项完全托管的无服务器数据整合服务，可与其他 Azure 服务原生集成。它采用可视化用户界面，用于集成数据源以及 ETL 和 ELT 数据管道编排。

Dagster

Dagster 以专注于可观测性与数据质量而闻名，具备数据沿袭与元数据追踪等功能。其功能还包括本地测试与可复用组件，用以支持 AI 就绪场景的数据产品及现代软件工程实践。

IBM DataOps 工具和平台

IBM 提供多款具备数据编排能力的 DataOps 工具与平台。IBM® watsonx.data intelligence 提供数据目录，用于自动化数据发现和数据质量管理。IBM® watsonx.data integration 为构建可重复使用的管道提供了统一的控制平面。IBM® Cloud Pak for Data 借助数据虚拟化、数据管道和连接器，整合来自各孤立数据源的数据，同时无需进行物理数据迁移。