Il data lineage è il processo di tracciamento del flusso di dati nel tempo, che fornisce una chiara comprensione dell'origine dei dati, dei loro cambiamenti e della loro destinazione finale all'interno della pipeline dei dati.
Gli strumenti di data lineage forniscono un record dei dati lungo il loro ciclo di vita, comprese le informazioni sulla fonte e tutte le trasformazioni dei dati applicate durante i processi ETL o ELT.
Questo tipo di documentazione consente agli utenti di osservare e tracciare diversi punti di contatto lungo il percorso dei dati, consentendo alle organizzazioni di convalidarne l'accuratezza e la coerenza. Si tratta di una funzionalità fondamentale per garantire la qualità dei dati all'interno di un'organizzazione. Viene comunemente utilizzato per ottenere informazioni sul contesto dei processi storici e per risalire alla causa principale degli errori.
Data lineage, data provenance e governance dei dati sono termini strettamente correlati, che si sovrappongono l'uno all'altro. Insieme, assicurano che un'organizzazione possa mantenere la qualità e la sicurezza dei dati nel tempo.
La governance dei dati crea una struttura all'interno delle organizzazioni per gestire gli asset di dati definendo i proprietari dei dati, i termini aziendali, le regole, le politiche e i processi durante l'intero ciclo di vita dei dati. Le soluzioni di data lineage aiutano i team di governance dei dati a garantire che i dati siano conformi a questi standard, fornendo visibilità su come i dati cambiano all'interno della pipeline. La data provenance viene in genere utilizzata nel contesto del data lineage, ma si riferisce specificamente alla prima istanza di tali dati o alla loro origine.
Il data lineage fornisce una traccia di controllo dei dati a un livello molto granulare; questo livello di dettaglio è incredibilmente utile per il debug di eventuali errori nei dati e consente ai data engineer di risolvere i problemi in modo più efficace e di identificare le soluzioni più rapidamente. Sebbene l'ambito della governance dei dati sia più ampio del data lineage e della data provenance, questo aspetto della gestione dei dati è importante per l'applicazione degli standard dell'organizzazione.
I dati affidabili sono fondamentali per guidare un processo-decisionale migliore e il miglioramento di tutti i settori dell'azienda, dalle vendite alle risorse umane. Tuttavia, queste informazioni sono preziose solo se gli stakeholder hanno fiducia nella loro accuratezza, in quanto gli insight sono validi solo in base alla qualità dei dati. Il data lineage offre visibilità in merito alle modifiche che possono verificarsi a seguito di migrazioni dei dati, aggiornamenti di sistema, errori e altro, garantendo così l'integrità dei dati per il loro intero ciclo di vita.
Il data lineage documenta la relazione tra i dati aziendali in varie applicazioni aziendali e IT. I dettagli possono includere:
I metadati consentono agli utenti degli strumenti di data lineage di comprendere appieno il flusso dei dati attraverso la pipeline. I metadati sono "dati sui dati", che includono varie informazioni sugli asset di dati, come tipo, formato, struttura, autore, data di creazione, data di modifica e dimensione dei file. Gli strumenti di data lineage forniscono un quadro completo dei metadati per aiutare gli utenti a determinare quanto utili saranno i dati per loro.
Negli ultimi anni, il modo in cui memorizziamo e utilizziamo i dati si è evoluto con l'evoluzione dei big data. Le aziende stanno investendo di più nella data science per guidare il processo-decisionale e i risultati aziendali. Tuttavia, per poter costruire un'analisi ben strutturata, dovranno utilizzare strumenti di data lineage e cataloghi di dati per le operazioni di data discovery e data mapping. Mentre gli strumenti di data lineage mostrano l'evoluzione dei dati nel tempo tramite metadati, un inventario utilizza le stesse informazioni per creare un inventario ricercabile di tutti gli asset di un'organizzazione. Insieme, consentono ai cittadini dei dati di comprendere l'importanza dei diversi elementi di dati per un determinato risultato, il che è fondamentale nello sviluppo di qualsiasi algoritmo di apprendimento automatico.
Oggi, le aziende hanno un bisogno crescente di insight in tempo reale, ma questi risultati dipendono dalla comprensione dei dati e del loro percorso lungo la pipeline. Alcuni dei modi in cui i team possono sfruttare gli strumenti di data lineage end-to-end per migliorare i workflow includono:
Data modeling: per creare rappresentazioni visive dei diversi elementi di dati e dei relativi collegamenti all'interno di un'azienda, le aziende devono definire le strutture di dati sottostanti che li supportano. Il data lineage aiuta a modellare queste relazioni, illustrando le diverse dipendenze nell'ecosistema dei dati. Dal momento che i dati si evolvono nel tempo, emergono sempre nuove fonti di dati, devono essere effettuate nuove integrazioni di dati, ecc. Di conseguenza, anche il data model complessivo che le aziende utilizzano per gestire i propri dati deve adattarsi all'ambiente in continua evoluzione. Il data lineage aiuta a riflettere accuratamente questi cambiamenti nel tempo attraverso diagrammi del modello di dati, evidenziando connessioni o tabelle nuove o obsolete. Questo, a sua volta, aiuta gli analisti e i data scientist a facilitare analisi preziose e tempestive in quanto avranno una migliore conoscenza dei set di dati.
Migrazione dei dati: quando si trasferiscono i dati in un nuovo sistema di storage o si esegue l'onboarding di un nuovo software, le organizzazioni utilizzano la migrazione dei dati per scoprire le posizioni e il ciclo di vita dei dati. Fornendo una vista dell'evoluzione dei dati nell'organizzazione, il data lineage aiuta i team a pianificare le migrazioni o gli aggiornamenti del sistema, accelerando la transizione complessiva al nuovo ambiente di storage. Fornisce inoltre ai team l'opportunità di ripulire il sistema di dati, archiviando o eliminando dati obsoleti e irrilevanti; Questo, a sua volta, può migliorare le prestazioni complessive del sistema di dati riducendo la quantità di dati che deve gestire.
Conformità: il data lineage fornisce un meccanismo di conformità per l'audit, il miglioramento della gestione del rischio e la garanzia che i dati siano memorizzati ed elaborati in linea con le politiche e le normative sulla governance dei dati. Ad esempio, nel 2016 è stata creata la legislazione GDPR per proteggere i dati personali degli individui nell'Unione Europea e nello Spazio Economico Europeo, dando ai singoli un maggiore controllo sui propri dati. Negli Stati Uniti, singoli stati, come la California, hanno sviluppato politiche, come il California Consumer Privacy Act (CCPA), che richiede alle aziende di informare i consumatori sulla raccolta dei loro dati. Questo tipo di legislazione rende l'archiviazione e la sicurezza di questi dati una priorità assoluta e, senza gli strumenti di data lineage, le organizzazioni si troverebbero a dover affrontare problemi di non conformità che richiederebbero tempo e denaro.
Analisi dell'impatto: gli strumenti di data lineage possono fornire visibilità sull'impatto di specifiche modifiche aziendali, come qualsiasi reporting a valle. Ad esempio, se il nome di un elemento dati cambia, il data lineage può aiutare i leader a capire quante dashboard potrebbero essere interessate e, di conseguenza, quanti utenti accedono a tale reporting. Può anche aiutare a valutare l'impatto degli errori nei dati e l'esposizione nell'intera organizzazione. Gli errori nei dati possono verificarsi per una miriade di motivi, che possono erodere la fiducia in determinati report di business intelligence o fonti di dati, ma gli strumenti di data lineage possono aiutare i team a risalire alla fonte, consentendo l'ottimizzazione del trattamento dei dati e la comunicazione con i rispettivi team.
Visualizza, trasforma e ottimizza il flusso dei tuoi dati dall'origine al consumo. Applica il data lineage a qualsiasi scenario per una maggiore trasparenza e accuratezza dei dati nelle tue operazioni.
Trasforma rapidamente i dati non elaborati in insight fruibili, unifica governance, qualità, lineage e condivisione dei dati e offri agli utenti dati affidabili e contestualizzati.
Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.