Astronomer with IBM: 엔터프라이즈급 확장성, 보안 및 지원을 통해 Airflow 환경 업그레이드

2025년 4월 21일

작가

BJ Adesoji

Product Manager, Databand.ai, Astronomer with IBM

IBM

IBM은 최근 기업 내에서 Airflow의 채택을 촉진하고 확장하기 위해 엔터프라이즈급 Apache Airflow 소프트웨어인 Astronomer와의 협업을 발표했습니다. 최신 데이터 수집 및 오케스트레이션 외에도 MLOps 워크로드 및 GenAI 워크플로를 포함한 Airflow의 사용 사례가 빠르게 확장됨에 따라 월간 다운로드 횟수가 31회 이상 증가했습니다. 현재 기업 내에서 분석 및 비즈니스 운영을 수행하는 여러 팀에서 오픈 소스 Airflow를 사용하고 있을 가능성이 높습니다. 기업에서 Airflow에서 Astronomer with IBM으로 전환하는 이유는 무엇일까요? 확장성, 보안, 지원 및 배포 복원력 등 네 가지 주요 이유가 있습니다.

이 답을 이해하기 위해 레거시 데이터 스케줄러에서 Airflow로 전환하고 최종적으로 Astronomer with IBM을 선택한 최근 미국 은행 고객 사례에 대해 알아보겠습니다.

오픈 소스 Airflow에서 Astronomer with IBM으로

미국 은행 고객의 표준화된 데이터 스케줄러가 데이터 운영 요구 사항을 충족하지 못하고 있었습니다. 고객의 새로운 클라우드 중심 환경과 끊임없이 변화하는 규제 보고로 인해 많은 팀이 스케줄링 요구 사항을 충족하는 데 어려움을 겪고 있었습니다. 기존 스케줄러는 클라우드 사용에 최적화되지 않았고 캘린더에 기반하지 않는 사용자 지정 일정을 수용할 수 있는 유연성이 부족했습니다.

그 결과 몇몇 팀은 제한된 분석 및 보고 사용 사례에 프로그래밍 방식의 클라우드 친화적인 워크플로 오케스트레이션 기능을 제공하는 Airflow를 탐색하기 시작했습니다. 그러나 이러한 워크플로와 파이프라인이 여러 프로젝트 및 팀에 걸쳐 확장되기 시작하면서 고객은 새로운 문제를 경험했습니다.확장하려면 Airflow를 수동으로 조정해야 했고, 통합으로 인해 보안 및 지원 위험이 발생하여 이러한 중요한 DataOps 요구 사항에 대한 전반적인 복원력에 대한 우려가 제기되었습니다.

Astronomer with IBM이 도움을 줄 수 있는 이유가 바로 여기에 있습니다. Astronomer with IBM은 확장성, 보안, 지원 및 배포 복원력과 관련된 기업의 요구 사항에 맞게 Airflow 환경을 업그레이드했습니다.

요구 사항 1: 엔터프라이즈 전체 확장성

Astronomer with IBM은 기업 규모의 중앙 집중식 배포를 지원하는 다양한 기능으로 Airflow를 강화하여 운영 효율성을 높였습니다.

이러한 독점적인 기능 중 일부는 다음과 같습니다.

  • 멀티 테넌트 Airflow: 배포 간 통신이 있는 격리된 Airflow 환경을 통해 리소스 활용도와 운영 효율성을 극대화합니다.
  • 현재 위치 업그레이드 및 유틸리티 업그레이드: DAG, 구성 및 데이터를 보존하면서 Airflow를 업그레이드하여 다운타임을 최소화합니다.
  • 배포 롤백: Airflow 배포를 이전 버전 또는 코드 배포로 쉽게 되돌릴 수 있습니다.
  • DB 보관: Airflow 데이터베이스에 대한 자동화 및 API 기반 보관 작업을 활용합니다.
  • 범용 로그 내보내기: 벡터 사이드카 방법론으로 지원되는 여러 외부 시스템으로 로그를 싱크할 수 있습니다.

 

요구 사항 2: 강력한 엔터프라이즈급 보안

고객의 원래 스케줄러에는 클라우드 우선 보안이 지원되지 않아 클라우드 기반 데이터 자산을 활용하는 기능이 제한되었습니다. 이로 인해 팀이 이러한 제한을 우회하기 시작하면서 운영 비효율성이 증가하고 보안 위험이 증가했습니다.

그 결과 Airflow는 클라우드 환경과의 호환성으로 인해 더 많은 팀이 선호하는 오케스트레이터로 떠올랐습니다. 그러나 Airflow 프로젝트 및 팀 수가 늘어남에 따라 상당한 문제가 발생했습니다. 기업 전체에 Airflow를 안전하게 프로비저닝할 수 있는 중앙 집중식 방법이 없었기 때문입니다.

Astronomer with IBM은 다음과 같은 기능을 갖춘 강력한 엔터프라이즈급 보안을 제공했습니다. 

  • 멀티 테넌트 보안: 역할 기반 액세스 제어(RBAC)로 작업 공간, 배포 및 시스템 수준에서 DAG를 위한 공간을 격리합니다.
  • SSO [OIDC/ SCIM]: 이벤트 기반 인증 및 자동 사용자 및 팀 제거를 위해 OIDC 및 SCIM을 지원합니다.
  • 클라우드 아이덴티티: 배포를 클라우드 네이티브 아이덴티티 메커니즘(AWS IAM 및 GKE 워크로드 아이덴티티)과 통합합니다.

 

요구 사항 3: 지원 및 배포 복원력

고객이 사용하던 기존 스케줄러는 최신 데이터 팀이 작업과 장애를 효과적으로 관리하고 모니터링하는 데 필요한 가시성과 통합 범위가 부족했습니다. 스케줄러는 학습 곡선이 가파른 데다 개발자의 생산성 향상에 필요한 복원력을 제공하지 못했습니다.

Airflow는 이전 스케줄러에 대한 실행 가능한 대안으로 나타났습니다. 그러나 Airflow는 문제를 신속하게 해결하고 다운타임을 최소화하는 데 필요한 지원이 없기 때문에 문제가 계속 발생했습니다. 고객은 IBM과 협력하여 Astronomer의 고유한 기능, 즉 다음과 같은 이유로 Astronomer를 선택했습니다 

  • 배포 간 가시성 및 상황: 모든 Airflow 배포에서 DAG 및 메타데이터에 대한 완벽한 가시성을 확보합니다.
  • 데이터 중심 알림: DAG 실행 및 작업 상태에 대한 알림을 구성하고 SMTP 또는 SMS를 통해 실시간 알림을 받습니다.
  • 로깅 라이프사이클: ElasticSearch 기반 로깅 저장소에 외부 내보내기 및 보존 정리 작업이 포함됩니다.
  • 메트릭 보존: 모든 Airflow 배포에 대해 Prometheus 메트릭을 보존합니다.
  • Airflow 지원: Astronomer는 Airflow 릴리스의 100%를 구동하고 Airflow 코드의 약 60%를 작성합니다. Airflow 지원은 타의 추종을 불허합니다.

 

결국 팀은 기존 스케줄러에서 Astronomer로 전환하기로 결정하여 워크로드에 대한 가시성을 높이고 실행 시간을 20% 단축할 수 있었습니다. 또한 고객은 Airflow 및 기타 파이프라인에 대한 종합적인 데이터 관찰을 위해 Databand의 IBM 데이터 관측성을 통해 배포 복원력을 개선합니다.

Databand는 팀이 다음을 수행할 수 있도록 지원합니다. 

  • 실행 가능한 보기와 알림을 통해 상황을 파악하고 필요에 따라 조치를 취할 수 있습니다.
  • 풍부한 모니터링, 추적 및 데이터 제품 및 종속성에 대한 경고를 잠금 해제합니다.
  • Airflow 모범 사례를 활용하여 최적화 및 비용 절감 기회를 알려주는 사전 권장 사항을 받습닏.
  • 데이터 제품 전반에 걸쳐 SLA를 설정 및 추적하고, 병목 현상 및 이상 징후를 감지하고, 문제가 제공에 영향을 미치기 전에 정보에 입각한 조치를 취합니다.

 

Airflow의 엔터프라이즈 지원 활용 

Airflow의 다재다능함과 Astronomer의 엔터프라이즈 준비성, IBM의 강력한 데이터 관리 기술이 결합된 Astronomer with IBM은 대규모 Airflow를 실행하는 데 이상적인 선택입니다.

Astronomer와의 협력을 통해 Airflow의 채택 및 관리를 간소화하여 여러 팀에 걸쳐 데이터 파이프라인을 구축, 배포 및 확장하려는 고객에게 원활하고 지원되는 경험을 제공합니다.

2025년 Airflow 현황 보고서를 다운로드하여 기업이 Airflow를 사용하는 방법에 대해 자세히 알아보고 IBM 담당자에게 문의하세요.