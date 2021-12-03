Airflow es un caballo de batalla con persianas. No hace nada para corregir el rumbo si las cosas van mal con los datos, solo con el pipeline. Prácticamente todos los usuarios han experimentado alguna versión de Airflow que les indica que se completó un trabajo y verifican los datos solo para descubrir que faltaba una columna y todo estaba mal, o que en realidad no pasaban datos a través de los sistemas.

Esto es especialmente cierto una vez que la organización de datos madura y se pasa de 10 gráficos acíclicos de datos (DAG) a miles. En esa situación, es probable que ahora esté utilizando esos DAG para Ingesta datos de fuentes de datos externas y API, lo que dificulta aún más el control de la calidad de los datos en Airflow. No puede "limpiar" el conjunto de datos de origen ni implementar sus políticas de gobernanza allí.

Si bien puede crear alertas de Slack para verificar cada ejecución manualmente, para incorporar Airflow como una pieza útil de su organización de ingeniería de datos y cumplir con sus SLA, desea automatizar los controles de calidad. Y para hacerlo, necesita visibilidad no solo de si un trabajo se ejecutó, sino también de si se ejecutó correctamente. Y si no funcionó correctamente, ¿por qué y dónde se originó el error? De lo contrario, estará viviendo el Día de la marmota.

No es un reto sencillo y, si somos sinceros, es la razón por la que se creó IBM® Databand. La mayoría de las herramientas de observabilidad del producto, como Datadog y New Relic, no fueron diseñadas para analizar pipelines y no pueden aislar dónde se originaron los problemas, agrupar problemas concurrentes para sugerir una causa principal o para sugerir arreglos.

Sin embargo, la necesidad de observabilidad aún no se comprende completamente, incluso dentro de la comunidad de Airflow. Hoy en día, solo el 32 % dice haber implementado la medición de la calidad de los datos, aunque el hecho de que los redactores de la encuesta pregunten es una indicación de mejora. No hicieron esta pregunta en las encuestas de 2019 ni de 2020.

¿Cómo se hace para monitorear la calidad de los datos en Airflow? En verdad, Airflow lo lleva a la mitad del camino. Como señalan sus responsables, "Cuando los flujos de trabajo se definen como código, se vuelven más mantenibles, versionables, comprobables y colaborativos".

Airflow ofrece esa representación formal del código. Lo que necesita es una herramienta de observabilidad creada específicamente para monitorear pipelines de datos. Las creados para monitorear productos son una medida intermedia, pero generalmente parte del recorrido porque ya tienen esas licencias.

Encontramos que hay varias fases por las que las organizaciones de ingeniería pasan en su camino hacia la madurez total de la observabilidad: