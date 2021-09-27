O Spark é crítico para o stack de dados moderno. Como tal, é extremamente importante ter o nível certo de observabilidade para seus ambientes Spark. Há muitas opções para monitorar o Spark, incluindo programas SaaS que fornecem dashboards pré-configurados para métricas do Spark e do Spark SQL. E se isso não for suficiente?

A configuração típica de uma aplicação Spark, seja uma solução auto-hospedada ou gerenciada, inclui alguns dashboards operacionais para monitoramento da integridade do cluster. Mas embora esses dashboards sejam muito úteis, eles nos trazem apenas uma visão geral da infraestrutura e não as métricas reais relacionadas aos dados. Sim, podemos assumir que pode haver algo errado com o aplicativo quando a CPU aumentou o uso ou o cluster está ficando sem RAM, mas não ajuda quando a fonte alterou o esquema ou os dados que vieram de outro departamento estão quebrados. A maioria dos problemas que os engenheiros enfrentam é causada pelos dados e não pela infraestrutura subjacente, de modo que eles precisam gastar muito tempo reproduzindo problemas ou consertando arquivos e buckets como investigadores. É aqui que o monitoramento real da aplicação pode ajudar.

Cada situação exige um nível diferente de visibilidade, e os engenheiros de dados precisam ter a capacidade de ir a um nível mais profundo do que as métricas de execução. Caso contrário, você poderá gastar uma quantidade significativa de tempo depurando problemas de qualidade de dados no Spark.

Neste guia, você aprenderá como obter níveis altos e baixos de observabilidade de dados para o Spark. Para o nível superior, você usará os sistemas internos do Spark, como APIs de Listener e Query Execution Listeners. No nível inferior, você aprenderá a usar bibliotecas para rastrear métricas de qualidade de dados.

Depois de aprender a fazer as duas coisas, você terá a opção de escolher a que funcionar melhor para o problema que está tentando resolver.