데이터 오케스트레이션이란 무엇인가요?

지휘자가 오케스트라를 이끄는 것과 같습니다.

데이터 오케스트레이션 정의

데이터 오케스트레이션은 서로 다른 시스템, 프로세스 및 툴 전반에서 데이터 흐름을 관리하고 조정하는 것입니다.이는 데이터 수집, 수집, 변환, 통합저장을 포함한 데이터 파이프라인 단계를 정리하고 간소화하는 데 도움을 줍니다.

 

성공적인 데이터 오케스트레이션 프로세스를 통해 데이터는 다양한 대상 위치로 안정적이고 효율적으로 흐르며, 도착 즉시 데이터 분석 및 기타 활용이 가능하도록 준비됩니다.이러한 핵심 기능은 데이터 관리 영역에서 중요한 역할을 하며, 빅데이터 워크로드와 데이터 기반 의사결정 시대에 필수적인 실무로 자리잡고 있습니다.

데이터 엔지니어는 데이터 이동을 간소화하고 기업 데이터 이니셔티브의 확장성을 지원하기 위해 데이터 오케스트레이션 툴과 플랫폼을 활용합니다.자동화는 많은 현대 데이터 오케스트레이션 솔루션의 핵심 요소입니다.이를 통해 데이터 통합 및 변환과 같은 작업을 사람의 개입 없이 논리적인 순서로 실행할 수 있습니다.

기업에 데이터 오케스트레이션이 필요한 이유

증가하는 데이터 규모를 효과적으로 활용하기 위해 기업은 점점 더 복잡해지는 데이터 에코시스템을 관리해야 합니다. 데이터는 다양한 소스에서 생성되며 서로 다른 형식으로 존재하는 경우가 많습니다.

또한 데이터는 전 세계에 걸쳐 클라우드 기반 및 온프레미스 저장소, 예를 들어 데이터 레이크데이터 웨어하우스에 분산되어 저장되는 경우가 많습니다.또한 많은 조직에서 데이터는 다양한 팀과 직원에 의해 서로 다른 툴에서 활용되며, 예를 들어 영업팀은 CRM 시스템을, 마케터는 분석 플랫폼을 사용하는 방식입니다.2024년 IDC가 IT 및 비즈니스 부서 리더를 대상으로 실시한 조사에 따르면 운영 데이터는 평균적으로 35개의 서로 다른 시스템에서 수집되어 18개의 분석 데이터 저장소에 통합되는 것으로 나타났습니다.1

이처럼 복잡한 데이터 환경은 데이터 사일로, 낮은 데이터 품질 및 기타 문제를 초래하기 쉬우며, 이는 데이터 파이프라인에서 병목을 발생시키고 후속 분석에 오류를 유발합니다.효과적인 데이터 오케스트레이션은 이러한 문제를 해결하고 데이터로부터 가치를 창출하도록 지원합니다.

데이터 오케스트레이션의 이점

데이터 오케스트레이션은 기업이 데이터를 활용해 가치 있는 인사이트를 도출하고, 정보에 기반한 의사 결정을 수행하며, 혁신을 촉진하도록 돕습니다. 구체적인 이점은 다음과 같습니다.

데이터 사일로 해소

조직이 방대한 원시 데이터를 수집함에 따라 그 중 많은 데이터는 서로 다른 시스템에 갇혀 일부 사용자만 접근 가능한 데이터 사일로 형태로 남게 됩니다.데이터 오케스트레이션은 다양한 데이터 소스 간 연결을 구축하여 데이터 사일로를 제거하고 팀이 의사 결정에 필요한 중요한 데이터를 활용할 수 있도록 합니다.

데이터 품질 개선

데이터 불일치와 데이터 노후화는 데이터 품질 저하의 주요 원인입니다.데이터 오케스트레이션은 데이터 변환 및 데이터 검증을 포함한 데이터 품질 검사와 프로세스를 자동화하여 일관성과 최신성을 데이터 수명 주기 전반에서 향상시킵니다.

유연성과 확장성 지원

조직이 더 많은 데이터 또는 다양한 데이터를 수집함에 따라 데이터 오케스트레이션은 데이터 워크플로를 조정하고 데이터 프로세스를 확장할 수 있도록 지원합니다. 이러한 유연성은 변화하는 요구를 충족하고 원하는 비즈니스 성과를 달성하는 데 중요합니다.

데이터 인사이트 가속화

데이터 접근성이 확보되면 조직은 데이터 분석을 더 빠르게 수행할 수 있어 인사이트 도출 속도가 향상됩니다.또한 최신 데이터 오케스트레이션은 실시간 데이터 모니터링을 가능하게 하여 문제 해결 속도를 높이고 더 신뢰할 수 있고 시의적절한 비즈니스 인텔리전스를 제공합니다.

AI 혁신 지원

데이터 오케스트레이션은 AI 준비 데이터 세트를 지원하며, 이는 데이터가 인공지능(AI)머신러닝(ML) 파이프라인을 구동하는 데 필요한 품질, 접근성 및 신뢰 기준을 충족하도록 돕는 것을 의미합니다.

데이터 거버넌스 및 규정 준수 강화

데이터 오케스트레이션 솔루션에는 시간에 따른 데이터의 변환과 흐름을 추적하는 데이터 리니지 툴이 포함될 수 있습니다.이 기능은 데이터에 대한 감사 추적을 제공하고 데이터 거버넌스 정책 및 규제 요구 사항에 따라 데이터가 저장되고 처리되도록 보장합니다.

데이터 팀 생산성 향상

데이터 오케스트레이션을 통한 반복적인 데이터 작업의 자동화(아래 참조)는 데이터 팀데이터 모델링 및 분석과 같은 고부가가치 작업에 집중할 수 있도록 합니다. 또한 자동화를 통해 수작업을 줄이면 인적 오류의 위험을 감소시킬 수 있습니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

데이터 오케스트레이션은 데이터 통합과 어떻게 다른가요?

데이터 오케스트레이션과 데이터 통합은 밀접하게 관련되어 있지만 동일한 개념은 아닙니다. 두 개념 모두 분석 활용을 위해 데이터를 통합하고 일관화하는 데 기여하지만 데이터 통합은 보다 세부적인 작업이며 데이터 오케스트레이션은 이를 포괄하는 상위 개념입니다.

데이터 오케스트레이션은 다양한 시스템과 프로세스 간 데이터 이동을 최적화합니다.데이터 통합은 이러한 프로세스 중 하나로, 추출, 변환, 적재(ETL)와 같은 다양한 방법을 사용해 서로 다른 소스의 데이터를 결합하고 정합화한 후 대상 시스템에 적재합니다.

데이터 오케스트레이션의 3단계

데이터 오케스트레이션은 조직이 데이터 에코시스템의 복잡성을 효과적으로 관리하도록 돕습니다.이러한 관행은 일반적으로 세 가지 기본 단계로 구분됩니다.

  • 정리: 데이터는 다양한 내부 및 외부 소스에서 수집된 후 중앙 위치 등에서 정리되어 변환 준비가 완료됩니다.
  • 변환: 원시 데이터는 통합된 형식으로 변환되고 정제 및 검증되어 일관성과 정확성을 확보합니다.
  • 활용: 데이터는 분석을 위해 제공되며 대시보드 툴 및 기타 용도로 전달됩니다.

주요 데이터 오케스트레이션 기능

데이터 오케스트레이션의 기본 단계에는 여러 핵심 기능이 기반이 됩니다. 주요 기능은 다음과 같습니다.

  • 작업 의존성 정의 및 작업 순서 설정
  • 데이터 워크플로 자동화
  • 모니터링 및 알림 전송

작업 의존성 정의 및 작업 순서 설정

데이터 오케스트레이션은 일반적으로 데이터 처리 작업을 정의하고 데이터 파이프라인과 워크플로에서 실행 순서를 지정하는 것에서 시작됩니다. 이는 한 작업이 다른 작업의 결과에 의존할 경우 해당 작업이 먼저 완료되도록 보장합니다. 이러한 의존성 기반 작업 순서 설정은 조직이 비용이 많이 드는 파이프라인 실패를 방지하는 데 도움을 줍니다.

작업 순서를 설계하고 구성하기 위해 데이터 엔지니어는 방향성 비순환 그래프, 즉 DAG를 자주 사용하며, 이는 노드가 단방향 연결로 이어져 순환을 형성하지 않는 그래프입니다. DAG의 각 노드는 데이터 수집이나 데이터 변환과 같은 서로 다른 데이터 프로세스를 나타내며 수행 순서를 정의합니다. 노드를 연결하는 엣지는 프로세스 간 의존성을 나타냅니다.

작업을 정의하고 순서를 지정하는 방법으로 DAG 대신 코드 중심 접근 방식을 사용할 수도 있습니다. 대표적인 코드 중심 접근 방식은 오픈소스 프로그래밍 언어 Python을 사용해 워크플로 관리 기능을 구현하는 것으로, 이는 동적인 워크플로를 처리하는 데 더 적합한 방식으로 여겨집니다.

데이터 워크플로 자동화

현대의 데이터 오케스트레이션은 ETL, ELT(추출, 적재, 변환) 및 데이터 웨어하우스 내 데이터 변환과 같은 여러 데이터 워크플로를 자동화하여 일관성을 확보하고 사람의 개입을 최소화하거나 제거합니다. 자동화된 데이터 작업은 사람이 시작할 수도 있지만 다음 세 가지 트리거를 통해 자동으로 실행되도록 설정할 수도 있습니다.2

  • 시간 기반 트리거: 작업이 정해진 시간이나 간격에 따라 실행됩니다.

  • 의존성 기반 트리거: 특정 작업이 완료된 이후에만 다음 작업이 실행됩니다.

  • 이벤트 기반 트리거: API 호출과 같은 실제 이벤트 신호가 작업을 실행합니다.

모니터링 및 알림 전송

데이터 파이프라인 모니터링은 일반적으로 데이터 관측 가능성의 영역으로 간주되지만, 데이터가 의도한 대로 흐르고 처리되도록 보장하는 측면에서 데이터 오케스트레이션에서도 중요한 역할을 합니다.

조직은 지연 시간처리량과 같은 성능 지표, CPU 및 메모리 사용량과 같은 리소스 활용 지표, 그리고 정확성, 완전성, 일관성과 같은 데이터 품질 지표 등 다양한 지표를 모니터링할 수 있습니다.3

작업 실패와 같은 데이터 파이프라인 문제가 감지되면 알림 툴이 데이터 팀에 신속한 알림을 전달하여 문제를 빠르게 해결할 수 있도록 합니다. 오케스트레이션 솔루션은 문제 완화를 위해 재시도 기능을 제공할 수 있으며, 이는 알림이 전달되기 전에 실패한 작업을 지정된 횟수만큼 자동으로 다시 실행하는 것을 의미합니다.

데이터 오케스트레이션과 다른 오케스트레이션 유형 비교

데이터 오케스트레이션은 워크플로 오케스트레이션 및 프로세스 오케스트레이션과 유사하지만 명확히 구분되는 개념입니다. 이 두 가지 개념은 데이터 오케스트레이션보다 더 포괄적인 개념이며, 데이터 오케스트레이션은 이들의 하위 유형으로 볼 수 있습니다.
 워크플로 오케스트레이션은 특정 결과를 달성하기 위해 서로 연결된 작업, 시스템 및 툴을 조정하고 관리하는 데 중점을 둡니다. 이는 다양한 환경에서 워크플로의 엔드투엔드 실행과 통합을 강조하며, 의존성을 충족하면서 작업이 올바른 순서로 수행되도록 합니다.

프로세스 오케스트레이션은 워크플로, 사람 및 시스템을 포함하는 여러 비즈니스 프로세스를 관리하고 통합하는 것을 의미합니다. 이는 단순한 워크플로 관리가 아니라 전체 비즈니스 프로세스를 엔드투엔드로 조정하여 조직 목표와의 정렬을 촉진하는 데 중점을 둡니다.

데이터 오케스트레이션 플랫폼 및 툴

조직과 데이터 팀은 데이터 처리 방식을 간소화하기 위해 다양한 데이터 오케스트레이션 솔루션 중에서 선택할 수 있습니다. 조직에 가장 적합한 솔루션은 비용(오픈 소스와 상용 솔루션 간 비교), 관측 가능성 요구 사항, 그리고 dbt와 같은 분석 툴이나 Snowflake와 같은 클라우드 기반 데이터 플랫폼과의 통합 여부 등 구체적인 우선순위에 따라 달라집니다.

널리 사용되는 데이터 오케스트레이션 툴과 플랫폼은 일반적으로 다른 데이터 솔루션과의 연결 옵션을 제공하지만, 그 외 기능에서는 차이가 있습니다.다음은 주요 데이터 오케스트레이션 솔루션에 대한 개요입니다.

  • Apache Airflow
  • AWS Step Functions
  • Azure Data Factory
  • Dagster
  • IBM DataOps 플랫폼
  • Prefect

Apache Airflow

가장 널리 알려진 데이터 오케스트레이션 솔루션인 Apache Airflow는 주로 배치 처리를 위해 설계된 오픈소스 플랫폼입니다. 이 플랫폼은 워크플로를 DAG 형태로 정의하여 데이터 워크플로 스케줄링을 지원합니다. Airflow는 확장성과 병렬 실행을 지원하는 아키텍처를 갖추고 있어 복잡하고 데이터 집약적인 파이프라인 관리에 적합합니다.

AWS Step Functions

AWS Step Functions는 분산 애플리케이션과 마이크로서비스를 조정하기 위한 시각적 인터페이스를 제공하는 Amazon의 서버리스 오케스트레이션 서비스입니다.이미 Amazon 인프라를 사용하는 조직에 특히 적합하지만 타사 애플리케이션과도 통합할 수 있습니다.

Azure Data Factory

Microsoft의 Azure Data Factory는 다른 Azure 서비스와 기본적으로 통합되는 완전 관리형 서버리스 데이터 통합 서비스입니다. 데이터 소스 통합과 ETL 및 ELT 데이터 파이프라인 오케스트레이션을 위한 시각적 사용자 인터페이스를 제공합니다.

Dagster

Dagster는 데이터 계보 및 메타데이터 추적과 같은 기능을 통해 관측 가능성과 데이터 품질에 중점을 둔 것으로 알려져 있습니다. 또한 로컬 테스트와 재사용 가능한 구성 요소를 지원하여 AI 준비 데이터 제품과 현대적인 소프트웨어 엔지니어링 방식을 뒷받침합니다.

IBM DataOps 툴 및 플랫폼

IBM은 데이터 오케스트레이션 기능을 갖춘 다양한 DataOps 툴과 플랫폼을 제공합니다.IBM® watsonx.data intelligence는 데이터 탐색과 데이터 품질 관리를 자동화하는 데이터 카탈로그를 제공합니다.IBM® watsonx.data integration은 재사용 가능한 파이프라인 구축을 위한 통합 제어 환경을 제공합니다. 또한 IBM® Cloud Pak for Data는 데이터 가상화, 파이프라인 및 커넥터를 활용해 사일로화된 데이터 소스를 통합하면서 물리적 데이터 이동의 필요성을 제거합니다.

Prefect

Prefect는 오픈소스 버전과 기업용 추가 기능을 제공하는 클라우드 관리형 솔루션을 함께 제공하는 데이터 오케스트레이션 툴입니다. 다른 데이터 오케스트레이션 솔루션과 달리 Prefect는 DAG에 의존하지 않고 코드 중심 접근 방식을 사용하며, 이는 보다 동적인 오케스트레이션에 적합하다고 여겨집니다.

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think