Ecco perché qualsiasi organizzazione che consideri i dati importanti per il funzionamento della propria attività, sia interna che esterna, deve praticare la gestione della qualità dei dati e implementare un framework di qualità dei dati. Il che significa: sviluppare processi e modelli ripetibili e idealmente automatici per garantire che i dati che entrano nel tuo sistema e vengono trasmessi a valle siano quelli che tu e i tuoi clienti vi aspettate.
E come voi ingegneri dei dati senior ben sapete, comprendere queste aspettative significa essere solo a metà dell'opera. Gran parte dell'altra metà viene spesa per tradurre tali aspettative in monitoraggio e avvisi che ti aiuteranno a trovare e risolvere i problemi nei complicati processi di inserimento.
In questa guida, condivideremo le strategie per garantire che la gestione della qualità dei dati non sia semplicemente sovrapposta ai processi hard-coded esistenti, ma sia integrata in ogni DAG. Per gestirla bene, è necessario rilevare le anomalie molto prima che i dati di bassa qualità entrino nel livello di trasformazione.