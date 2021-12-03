O Airflow é um trabalhador incansável com vendas. Ele não faz nada para corrigir o curso se algo der errado com os dados, apenas com o pipeline. Praticamente todos os usuários já passaram por alguma versão do Airflow informando que um trabalho foi concluído e verificando os dados apenas para descobrir que faltava uma coluna e tudo estava errado, ou que nenhum dado realmente passou pelos sistemas.

Isso é especialmente verdadeiro quando a organização de dados amadurece e você passa de 10 gráficos acíclicos de dados (DAGs) para milhares. Nessa situação, você provavelmente está usando esses DAGs para ingestão de dados de fontes de dados externas e APIs, o que torna ainda mais difícil o controle da qualidade de dados no Airflow. Não é possível "limpar" o conjunto de dados de origem nem implementar suas políticas de controle nele.

Embora você possa criar alertas no Slack para verificar manualmente cada execução, incorporar o Airflow como uma parte útil da sua organização de engenharia de dados e atingir seus SLAs, você quer automatizar as verificações de qualidade. E para isso, é necessário ter visibilidade não apenas sobre se um trabalho foi executado, mas se foi executado corretamente. E se não foi executado corretamente, por que e onde o erro se originou. Caso contrário, você estará vivendo o Dia da Marmota.

Esse não é um desafio simples e, se estamos sendo sinceros, é por isso que o IBM Databand foi criado. A maioria das ferramentas de observabilidade de produto, como Datadog e New Relic, não foi criada para analisar pipelines e não consegue isolar onde os problemas se originaram, agrupar ocorrências simultâneas para sugerir uma causa raiz ou indicar possíveis correções

No entanto, a necessidade de observabilidade ainda não é totalmente compreendida, mesmo dentro da comunidade do Airflow. Hoje, apenas 32% dizem que implementaram a medição da qualidade de dados, embora o fato de os redatores da pesquisa estarem perguntando seja uma indicação de melhoria. Eles não fizeram essa pergunta nas pesquisas de 2019 ou 2020.

Como se monitora a qualidade de dados no Airflow? Na verdade, o Airflow leva você a meio do caminho. Como seus mantenedores apontam, "Quando os fluxos de trabalho são definidos como código, eles se tornam mais sustentáveis, versionáveis, testáveis e colaborativos."

O Airflow oferece essa representação formal do código. Você precisa de uma ferramenta de observabilidade criada especificamente para monitorar pipelines de dados. Aquelas criadas para monitorar produtos são uma medida intermediária, mas geralmente fazem parte do processo porque já possuem essas licenças.

Identificamos que existem várias fases pelas quais as organizações de engenharia passam em sua jornada rumo à plena maturidade de observabilidade: