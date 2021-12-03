Airflow es un caballo de batalla con anteojeras. No hace nada para corregir el rumbo si las cosas van mal con los datos, solo con la canalización. Prácticamente todos los usuarios han experimentado alguna versión de Airflow que les indica que se ha completado un trabajo y que comprueban los datos solo para descubrir que faltaba una columna y que todo estaba mal, o que realmente no pasaban datos por los sistemas.

Esto es especialmente cierto cuando la organización de datos madura y pasas de 10 gráficos acíclicos de datos (DAG) a miles. En esa situación, es probable que ahora esté utilizando esos DAG para consumir datos de fuentes de datos externas y API, lo que dificulta aún más el control de la calidad de los datos en Airflow. No puede "limpiar" el conjunto de datos de origen ni implementar sus políticas de gobierno allí.

Aunque puede crear alertas de Slack para comprobar cada ejecución manualmente, para incorporar Airflow como una pieza útil de su organización de ingeniería de datos y cumplir sus SLA, desea automatizar los controles de calidad. Para ello, no solo es necesario saber si una tarea se ha ejecutado, sino también si se ha ejecutado correctamente. Y si no funcionó correctamente, ¿por qué y dónde se originó el error? De lo contrario, vivirá el Día de la Marmota.

No es un desafío sencillo y, siendo sinceros, es la razón por la que se creó IBM Databand. La mayoría de las herramientas de observabilidad del producto, como Datadog y New Relic, no fueron diseñadas para analizar pipelines y no pueden aislar dónde se originaron los problemas, agrupar problemas concurrentes para sugerir una causa raíz o para sugerir correcciones.

Sin embargo, la necesidad de observabilidad aún no se comprende completamente, incluso dentro de la comunidad de Airflow. Hoy en día, solo el 32 % dice que han implementado la medición de la calidad de los datos, aunque el hecho de que los redactores de la encuesta estén preguntando es un indicio de mejora. No hicieron esta pregunta en las encuestas de 2019 ni de 2020.

¿Cómo se monitoriza la calidad de los datos en Airflow? En realidad, Airflow le lleva hasta la mitad del camino. Como señalan sus mantenedores, "cuando los flujos de trabajo se definen como código, se vuelven más fáciles de mantener, versionar, probar y colaborar".

Airflow ofrece esa representación formal del código. Lo que necesita es una herramienta de observabilidad creada específicamente para monitorizar los pipelines de datos. Los construidos para monitorizar los productos son una medida a medio camino, aunque suelen formar parte del viaje porque ya disponen de esas licencias.

Descubrimos que hay varias fases por las que pasan las organizaciones de ingeniería en su viaje hacia la plena madurez de la observabilidad: