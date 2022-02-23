Gestire i dati è come correre una maratona. Molti fattori determinano il risultato finale, ed è un processo lungo. Tuttavia, supponiamo che un corridore inciampi e si faccia male alla caviglia durante il primo chilometro. In tal caso non riuscirà a completare la maratona. Allo stesso modo, se i dati non vengono monitorati già dopo l'ingestione, il resto della pipeline ne risentirà negativamente.
Come possiamo garantire la governance dei dati durante questo primo miglio del percorso dati?
I dati entrano nella pipeline da varie fonti: API esterne, drop-up di dati da fornitori esterni, prelievi da un database e altre. Il monitoraggio dei dati nei punti di inserimento garantisce che gli ingegneri dei dati possano ottenere un'observability proattiva dei dati in arrivo.
Questo permette loro di gestire e correggere i dati per garantire che il processo sia integro e affidabile fin dall'inizio.
Ottenendo un'osservabilità proattiva delle pipeline di dati, i data engineer possono:
- Fiducia nei dati
- Identificare facilmente i punti di rottura
- Risolvere rapidamente i problemi prima che arrivino al magazzino o al dashboard