通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
企业若要利用不断增长的数据量所带来的价值,就必须应对日益复杂的数据生态系统。他们的数据通常来自不同的来源,且数据格式各不相同。
这些数据通常还会分散存储在全球范围内的云端与本地存储库中,例如数据湖和数据仓库。而且在许多组织中,不同团队和员工会在不同工具中使用数据,销售团队使用客户关系管理 (CRM) 系统,营销人员使用分析平台,等等。根据国际数据公司 (IDC) 2024 年针对信息技术及业务部门负责人开展的一项调查显示,企业运营数据平均来自 35 个不同系统,并被整合至 18 个不同的分析数据存储库中。。1
这种复杂的数据环境容易出现数据孤岛、低质量数据和其他问题,从而在数据管道中造成瓶颈,并在下游分析中引入错误。高效的数据编排能够帮助企业应对这些挑战,并从数据中释放价值。
数据编排有助于企业利用数据获取有价值的洞察、做出明智决策并实现创新。具体优势包括:
随着组织收集海量原始数据,其中大量数据会沦为数据孤岛——被困在相互独立的系统中,仅少数用户知晓并可访问。数据编排能够在各类数据源之间建立连通性,消除数据孤岛,使各团队能够获取企业内最相关、最有价值的数据,为决策提供依据。
随着组织收集的数据量增多或数据类型更加多样,数据编排能够帮助其调整数据工作流,并实现数据工作流的扩展。这种灵活性对于满足不断变化的需求和实现预期的业务成果至关重要。
当数据可被便捷访问时,组织能够更快地开展数据分析,加速洞察成果的输出。此外,现代化的数据编排还可支持实时数据监控,从而更快地解决问题,最终形成更可靠、更及时的商业智能。
数据编排支持构建可用于 AI 的数据集,即帮助确保数据满足驱动人工智能与机器学习流程所必需的质量、可访问性及可靠性标准。
数据编排的基础步骤背后包含多项核心功能,其中:
数据编排通常始于定义数据处理任务,并明确这些任务在数据管道与工作流中的执行顺序。它有助于确保在一项任务依赖另一项任务的结果时,后者能够优先完成。这种基于依赖关系的任务排序,能够帮助组织避免代价高昂的管道故障。
为设计和组织任务序列,数据工程师通常会采用有向无环图 (DAG),这类图中的节点通过单向连接关联,且不会形成任何闭环。DAG 中的不同节点可代表不同的数据处理流程,例如数据摄取与数据转换,以及它们应被执行的先后顺序。边缘连接节点代表进程之间的依赖关系。
在定义和排序任务时,DAG 的一种替代方案是以代码为中心的方法。一种主流的以代码为中心的方法,是使用开源编程语言 Python 创建用于工作流管理的函数,这种架构通常更适合适配动态工作流。
数据编排与另外两种类型的编排(工作流编排和流程编排)类似,但又明显不同。这两种实践的范畴都比数据编排更广,而数据编排可被视为二者各自的一个分支类型。
工作流编排侧重于协调和管理一系列相互关联的任务、系统和工具,以实现特定结果。它强调跨不同环境对工作流进行端到端的执行与整合,确保任务按正确顺序运行,同时满足依赖关系。
流程编排是指管理和整合多个业务流程,通常涉及工作流、人员和系统。它并不局限于工作流管理,而是对整个业务流程进行端到端的统筹协调,推动其与组织目标保持一致。
各类组织与数据团队在寻求简化数据处理流程的过程中,可从多种不同的数据编排解决方案中进行选择。适合组织的最佳解决方案取决于其具体侧重点,例如成本因素(开源与商用)、可观测性需求,以及与其他主流数据解决方案的集成能力(如 dbt 这类分析工具、Snowflake 这类云数据平台)。
目前应用最广泛的数据编排工具与平台,通常都提供与其他数据解决方案的对接选项,但在其他方面存在差异。以下是几种数据编排解决方案的详细介绍:
作为最知名的数据编排解决方案,Apache Airflow 是一款开源平台,主要面向批处理场景设计。它支持数据工作流调度,将工作流定义为 DAG。Airflow 支持扩展和并行执行,适合管理复杂且数据密集型的管道。
AWS Step Functions 是亚马逊推出的无服务器编排服务,具备可视化界面,用于协调分布式应用与微服务。通常推荐已在使用亚马逊云基础设施的组织选用,不过它也可与第三方应用集成。
Azure Data Factory 是微软提供的一项完全托管的无服务器数据整合服务,可与其他 Azure 服务原生集成。它采用可视化用户界面,用于集成数据源以及 ETL 和 ELT 数据管道编排。
Dagster 以专注于可观测性与数据质量而闻名,具备数据沿袭与元数据追踪等功能。其功能还包括本地测试与可复用组件,用以支持 AI 就绪场景的数据产品及现代软件工程实践。
IBM 提供多款具备数据编排能力的 DataOps 工具与平台。IBM® watsonx.data intelligence 提供数据目录,用于自动化数据发现和数据质量管理。IBM® watsonx.data integration 为构建可重复使用的管道提供了统一的控制平面。IBM® Cloud Pak for Data 借助数据虚拟化、数据管道和连接器,整合来自各孤立数据源的数据,同时无需进行物理数据迁移。
Prefect 是一款数据编排工具,提供开源版本和云管理解决方案,并为企业提供额外功能。与其他数据编排解决方案不同,Prefect 不依赖 DAG,而是采用以代码为中心的设计思路,这一方式更受部分需要更灵活动态编排场景的用户青睐。
1 “Increasing AI Adoption with AI-Ready Data.” IDC,2024 年 10 月。
2,3 “Data Engineering for Beginners.” Wiley,2025 年 11 月。