Astronomer with IBM:通过企业级可扩展性、安全性和支持升级 Airflow 环境

地球蓝色插图

作者

BJ Adesoji

Product Manager, Databand.ai, Astronomer with IBM

IBM

IBM 最近宣布,与 Astronomer(企业级 Apache Airflow 软件)合作,旨在推动和扩大企业内部对 Airflow 的采用。Airflow 的用例(包括 MLOps 工作量和生成式 AI 工作流)快速扩展,以及现代数据摄取和协调,导致每月下载量超过 31 次。开源 Airflow 很可能被您的企业的多个团队用于执行分析和业务运营。为什么您的企业会选择从 Airflow 迁移到 Astronomer with IBM?主要有四个原因:可扩展性、安全性、支持和部署弹性。

为了理解这个答案,我们将讨论一家美国银行客户最近的案例,该客户从传统数据调度程序迁移到 Airflow,并最终选择了 Astronomer with IBM。

展示 Astronomer with IBM 的示意图

从开源 Airflow 到 Astronomer with IBM

我们的美国银行客户的标准化数据调度程序未能满足他们的 DataOps 需求。该客户以云为中心的新环境以及不断变化的监管报告对多个团队的调度需求带来了挑战。现有调度程序未针对云环境进行优化,且缺乏灵活性,无法满足非基于日历的自定义调度需求。

因此,一些团队开始深入了解 Airflow,它为其有限的分析和报告用例提供程序化且云友好的工作流编排功能。然而,随着这些工作流和管道开始在多个项目和团队中扩展,我们的客户遇到了新问题。Airflow 需要手动调整扩展,而整合带来的安全和支持风险,导致了对这些关键 DataOps 要求的整体弹性的担忧。

这正是 Astronomer with IBM 发挥作用的地方:Astronomer with IBM 升级了 Airflow 环境,可以满足企业在可扩展性、安全性、支持和部署弹性方面的需求。

需求 1:企业级可扩展性

Astronomer with IBM 通过多项功能增强了 Airflow,以支持企业级集中部署,从而提升运营效率。

其中一些独家功能包括:

  • 多租户 Airflow:利用具有跨部署通信功能的隔离 Airflow 环境,最大限度地提高资源利用率和运行效率。
  • 就地升级和升级实用程序:升级 Airflow,同时保留 DAG、配置和数据,最大限度地减少停机时间。
  • 部署回滚:轻松将 Airflow 部署恢复到以前的任何版本或代码部署。
  • 数据库归档:利用自动化和基于 API 的归档作业来管理 Airflow 数据库。
  • 通用日志导出器:使用 Vector sidecar 方法将日志导出到多个受支持的外部系统。

需求 2:强大的企业级安全性

客户原有的调度程序缺乏对云优先安全的支持,这限制了他们利用云数据资产的能力。这导致运营效率下降,且随着各团队开始规避这些限制,安全风险也随之增加。

因此,Airflow 凭借其与云环境的兼容性,成为更多团队的首选编排器。但随着 Airflow 项目和团队数量的增长,重大挑战也随之出现。整个企业范围内缺乏集中化的方法来安全配置 Airflow。

Astronomer with IBM 为他们提供了强大的企业级安全性,其功能包括:

  • 多租户安全性:在工作区、部署和系统级别为 DAG 提供基于角色的访问控制 (RBAC) 隔离空间。
  • SSO [OIDC/ SCIM]:OIDC 和 SCIM 支持基于事件的身份验证以及自动用户和团队删除。
  • 云身份:将部署与云原生身份机制(AWS IAM 和 GKE Workload Identity)整合。

需求 3:支持和部署弹性

客户原先使用的调度程序在可见性和集成范围方面存在不足,无法满足现代数据团队有效管理和监控作业及解决故障的需求。再加上其陡峭的学习曲线,该调度程序无法提供提高开发人员工作效率所需的弹性。

事实证明,Airflow 可以替代他们原先的调度程序,但由于缺乏快速解决问题和减少停机时间所需的支持,各种问题仍不断出现。客户最终选择与 IBM 合作采用 Astronomer,原因在于 Astronomer 的独特功能,例如:

  • 跨部署可见性和运行状况:获得所有 Airflow 部署中 DAG 和元数据的完整可见性。
  • 以数据为中心的警报:配置 DAG 运行和任务状态的警报,通过 SMTP 或 SMS 获取实时通知。
  • 日志记录生命周期:基于 ElasticSearch 的日志存储系统,配备外部导出功能及保留期清理任务。
  • 指标保留:所有 Airflow 部署的 Prometheus 指标保留功能。
  • Airflow 支持:Astronomer 推动 100% 的 Airflow 发布并编写大约 60% 的 Airflow 代码。Airflow 的支持无与伦比。

最后,该团队决定从旧版调度程序切换到 Astronomer,以帮助他们更清楚地了解工作量并将执行时间缩短 20%。此外,客户可以利用 Databand 提供的 IBM 数据可观察性来提高部署弹性,从而实现 Airflow 和其他管道的端到端数据可观察性。

Databand 帮助团队:

  • 获得可操作的观点和警报,了解运行状况并根据需要采取行动。
  • 开启跨数据产品及其依赖项的全面监控、追踪与告警能力。
  • 接收利用 Airflow 最佳实践提供的主动建议,获得优化和成本节约的机会。
  • 在各个数据产品中设定并跟踪服务级别协议 (SLA),检测瓶颈和异常情况,并在问题影响交付之前采取有根据的应对措施。

解锁 Airflow 的企业就绪状态

Airflow 的多功能性与 Astronomer 的企业就绪状态和 IBM 的强大的数据管理科技相结合,使 Astronomer with IBM 成为规模化运行 Airflow 的理想选择。

我们与 Astronomer 的合作简化了 Airflow 的采用与管理,为希望在多个团队间构建、部署和扩展数据流水线的客户提供了无缝且有支持的体验。

下载 2025 年 Airflow 状况报告,了解企业如何使用 Airflow,并联系您的 IBM 代表。