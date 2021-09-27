Spark는 최신 데이터 스택에 매우 중요합니다. 따라서 Spark 환경에 적절한 수준의 관측 가능성을 확보하는 것이 매우 중요합니다. Spark 및 Spark SQL 지표를 위한 사전 구성된 대시보드를 제공하는 SaaS 프로그램을 포함하여 Spark 모니터링을 위한 다양한 옵션이 있습니다. 이것으로 충분하지 않다면 어떻게 해야 할까요?

자체 호스팅 솔루션이든 관리형 솔루션이든, 일반적인 Spark 애플리케이션 설정에는 클러스터 상태 모니터링을 위한 몇 가지 운영 대시보드가 포함되어 있습니다. 이러한 대시보드는 매우 유용하지만, 인프라 개요만 제공하고 데이터와 관련된 실제 지표는 제공하지 않습니다. 물론 CPU 사용량이 증가했거나 클러스터에 RAM이 부족한 경우 앱에 문제가 있다고 가정할 수 있지만, 소스가 스키마를 변경하거나 다른 부서에서 가져온 데이터가 손상된 경우에는 도움이 되지 않습니다. 엔지니어가 직면하는 문제의 대다수는 기본 인프라가 아닌 데이터로 인해 발생하므로, 문제를 재현하거나 마치 탐정처럼 파일과 버킷을 조사하는 데 많은 시간을 소비해야 합니다. 이러한 경우 실제 애플리케이션 모니터링이 도움이 될 수 있습니다.

모든 상황에는 다른 수준의 가시성이 필요하며, 데이터 엔지니어는 실행 지표보다 한 단계 더 깊이 들어갈 수 있는 능력이 있어야 합니다. 그렇지 않으면 Spark에서 데이터 품질 문제를 디버깅하는 데 상당한 시간을 소비할 수 있습니다.

이 가이드에서는 Spark의 높은 수준과 낮은 수준의 데이터 관측성을 확보하는 방법을 알아봅니다. 개략적인 경우에는 리스너 API 및 쿼리 실행 리스너와 같은 Spark의 내부 시스템을 사용합니다. 낮은 수준에서는 라이브러리를 사용하여 데이터 품질 지표를 추적하는 방법을 배웁니다.

두 가지 방법을 모두 배운 후에는 해결하려는 문제에 가장 적합한 방법을 선택할 수 있습니다.