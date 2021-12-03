Airflow è un cavallo di battaglia con i paraocchi. Non fa nulla per correggere la rotta se qualcosa va storto con i dati, ma solo con la pipeline. Praticamente ogni utente ha sperimentato qualche versione di Airflow indicante che un lavoro è completato per poi controllare i dati solo per scoprire che mancava una colonna ed è tutto sbagliato, oppure che nessun dato è effettivamente passato attraverso i sistemi.

Questo è particolarmente vero una volta che l'organizzazione dei dati matura e si passa da 10 a migliaia di grafici aciclici di dati (DAG). In tale situazione, è probabile che tu stia utilizzando quei DAG per inserire dati da API e fonti di dati esterne, il che rende ancora più difficile il controllo della qualità dei dati in Airflow. Non puoi "pulire" il set di dati di origine o implementare lì le tue policy di governance.

Sebbene tu possa creare avvisi Slack per controllare manualmente ogni esecuzione, per incorporare Airflow come parte utile della tua organizzazione di data engineering e rispettare i tuoi SLA, devi automatizzare i controlli di qualità. E per farlo, devi avere visibilità non solo per vedere se un lavoro è stato eseguito, ma anche per capire se è stato eseguito correttamente. E se non è stato eseguito correttamente, perché e da dove è partito l'errore. Altrimenti, vivrai la stessa cosa a ripetizione.

Non si tratta di una sfida semplice e, se vogliamo essere sinceri, è il motivo per cui è stato creato IBM® Databand. La maggior parte degli strumenti di observability dei prodotti, come Datadog e New Relic, non sono stati concepiti per analizzare le pipeline e non riescono a isolare l'origine dei problemi, a raggruppare i problemi concomitanti per suggerire una causa principale o delle correzioni.

Tuttavia, la necessità dell'osservabilità non è ancora pienamente compresa, nemmeno all'interno della comunità Airflow. Oggi, solo il 32% afferma di aver implementato la misurazione della qualità dei dati, anche se il fatto che i redattori del sondaggio pongano questa domanda è un segno di miglioramento. Non avevano posto questa domanda nei sondaggi del 2019 o del 2020.

Come si monitora la qualità dei dati in Airflow? In realtà, Airflow ti porta a metà strada. Come sottolineano i suoi responsabili, "Quando i workflow vengono definiti come codice, diventano più gestibili, controllabili in versione, testabili e collaborativi".

Airflow offre quella rappresentazione formale del codice. Quello di cui hai bisogno è uno strumento di observability realizzato specificamente per monitorare le pipeline di dati. Quelli realizzati per monitorare i prodotti sono una misura a metà strada, ma di solito fanno parte del percorso perché hanno già queste licenze.

Riscontriamo che le organizzazioni ingegneristiche attraversano diverse fasi nel loro percorso verso la piena maturità dell'osservabilità: