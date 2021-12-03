Airflow는 눈먼 도구입니다. 즉, 데이터에 문제가 생기면 이를 바로잡는 데에는 아무런 도움이 되지 않으며, 파이프라인에 관한 문제를 수정할 때만 유용합니다. 거의 모든 사용자는 Airflow에서 작업이 완료되었다는 메시지를 받고 데이터를 확인한 결과, 열이 누락되어 모든 것이 잘못되었거나 실제로 시스템을 통과한 데이터가 전혀 없다는 사실을 발견한 경험이 있습니다.

이는 데이터 구성이 성숙해지고 데이터 비순환 그래픽(DAG)이 10개에서 수천 개로 늘어나면 특히 더 그러합니다. 이러한 상황에서는 DAG를 사용하여 외부 데이터 소스 및 API에서 데이터를 수집할 가능성이 높습니다. 이로 인해 Airflow에서 데이터 품질을 제어하기가 훨씬 더 어려워집니다. 소스 데이터 세트를 '정리'하거나 거버넌스 정책을 데이터 세트에 구현할 수 없습니다.

각 실행을 수동으로 확인하기 위해 Slack 알림을 생성할 수 있지만, Airflow를 데이터 엔지니어링 조직의 유용한 부분으로 통합하고 SLA를 충족하려면 품질 검사를 자동화해야 합니다. 그러기 위해서는 작업이 실행되었는지 여부뿐만 아니라 올바르게 실행되었는지 여부도 파악해야 합니다. 작업이 올바르게 실행되지 않았다면 그 이유와 오류가 발생한 위치도 파악해야 합니다. 그렇지 않으면 모든 문제가 반복될 것입니다.

이는 간단한 문제가 아니며, IBM® Databand가 만들어진 이유이기도 합니다. Datadog 및 New Relic 같은 대다수의 제품 관측 가능성 툴은 파이프라인을 분석하도록 설계되지 않았으므로 문제가 발생한 위치를 분리하거나, 동시에 발생하는 문제를 그룹화하여 근본 원인을 제안하거나 수정 사항을 제안할 수 없습니다.

그러나 관측 가능성의 필요성은 Airflow 커뮤니티도 아직 완전히 이해하지 못했습니다. 현재 데이터 품질 측정을 시행했다고 답한 사람은 32%에 불과하지만, 설문조사 작성자들이 이러한 질문을 한다는 사실 자체가 개선의 징후입니다. 2019년 또는 2020년 설문조사에서는 아무도 이 질문을 하지 않았습니다.

Airflow에서 데이터 품질을 모니터링하려면 어떻게 해야 하나요? 사실 Airflow는 절반의 도움을 줍니다. 유지보수 담당자가 지적하듯이, '워크플로가 코드로 정의되면 유지 관리, 버전 관리, 테스트 및 협업이 더욱 쉬워집니다.'.

Airflow는 이러한 공식적인 코드 표현을 제공합니다. 필요한 것은 데이터 파이프라인을 모니터링하기 위해 특별히 구축된 관측 가능성 도구입니다. 제품을 모니터링하도록 구축된 도구는 아직 중간 단계이지만, 이미 해당 라이선스를 보유하고 있기 때문에 보통 여정의 일부로 기능합니다.

엔지니어링 조직이 완전한 관측 가능성 성숙도를 향한 여정에서 거치는 몇 가지 단계가 있습니다.