Cos'è il data lineage?

31 maggio 2022

Cos'è il data lineage?

Il data lineage è il processo di tracciamento del flusso di dati nel tempo, che fornisce una chiara comprensione dell'origine dei dati, dei loro cambiamenti e della loro destinazione finale all'interno della pipeline dei dati.

Gli strumenti di data lineage forniscono un record dei dati lungo il loro ciclo di vita, comprese le informazioni sulla fonte e tutte le trasformazioni dei dati applicate durante i processi ETL o ELT.

Questo tipo di documentazione consente agli utenti di osservare e tracciare diversi punti di contatto lungo il percorso dei dati, consentendo alle organizzazioni di convalidarne l'accuratezza e la coerenza. Si tratta di una funzionalità fondamentale per garantire la qualità dei dati all'interno di un'organizzazione. Viene comunemente utilizzato per ottenere informazioni sul contesto dei processi storici e per risalire alla causa principale degli errori.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Data lineage vs. data provenance vs. governance dei dati

Data lineage, data provenance e governance dei dati sono termini strettamente correlati, che si sovrappongono l'uno all'altro. Insieme, assicurano che un'organizzazione possa mantenere la qualità e la sicurezza dei dati nel tempo.

La governance dei dati crea una struttura all'interno delle organizzazioni per gestire gli asset di dati definendo i proprietari dei dati, i termini aziendali, le regole, le politiche e i processi durante l'intero ciclo di vita dei dati. Le soluzioni di data lineage aiutano i team di governance dei dati a garantire che i dati siano conformi a questi standard, fornendo visibilità su come i dati cambiano all'interno della pipeline. La data provenance viene in genere utilizzata nel contesto del data lineage, ma si riferisce specificamente alla prima istanza di tali dati o alla loro origine.

Il data lineage fornisce una traccia di controllo dei dati a un livello molto granulare; questo livello di dettaglio è incredibilmente utile per il debug di eventuali errori nei dati e consente ai data engineer di risolvere i problemi in modo più efficace e di identificare le soluzioni più rapidamente. Sebbene l'ambito della governance dei dati sia più ampio del data lineage e della data provenance, questo aspetto della gestione dei dati è importante per l'applicazione degli standard dell'organizzazione.

Mixture of Experts | 25 aprile, episodio 52

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Perché le aziende utilizzano il data lineage

I dati affidabili sono fondamentali per guidare un processo-decisionale migliore e il miglioramento di tutti i settori dell'azienda, dalle vendite alle risorse umane. Tuttavia, queste informazioni sono preziose solo se gli stakeholder hanno fiducia nella loro accuratezza, in quanto gli insight sono validi solo in base alla qualità dei dati. Il data lineage offre visibilità in merito alle modifiche che possono verificarsi a seguito di migrazioni dei dati, aggiornamenti di sistema, errori e altro, garantendo così l'integrità dei dati per il loro intero ciclo di vita.

Il data lineage documenta la relazione tra i dati aziendali in varie applicazioni aziendali e IT. I dettagli possono includere:

  • Dove si trovano i dati e come vengono archiviati in un ambiente, ad esempio on-premise, in un data warehouse o in un data lake.
  • Come possono essere utilizzati i dati e chi è responsabile del loro aggiornamento, del loro utilizzo e della loro modifica. Questo include anche i ruoli e le applicazioni che sono autorizzati ad accedere a segmenti specifici di dati sensibili, ad esempio le informazioni di identificazione personale (PII).
  • Il monitoraggio dei dati generati, caricati e modificati da utenti business e applicazioni. Ad esempio, può trattarsi dell'aggiunta di contatti a un sistema di gestione delle relazioni con i clienti (CRM) o di una trasformazione dei dati, come la rimozione di record duplicati.
  • I dati creati e integrati da diverse parti dell'organizzazione, come l'hardware di rete e i server.

Come funziona il data lineage

I metadati consentono agli utenti degli strumenti di data lineage di comprendere appieno il flusso dei dati attraverso la pipeline. I metadati sono "dati sui dati", che includono varie informazioni sugli asset di dati, come tipo, formato, struttura, autore, data di creazione, data di modifica e dimensione dei file. Gli strumenti di data lineage forniscono un quadro completo dei metadati per aiutare gli utenti a determinare quanto utili saranno i dati per loro.

Negli ultimi anni, il modo in cui memorizziamo e utilizziamo i dati si è evoluto con l'evoluzione dei big data. Le aziende stanno investendo di più nella data science per guidare il processo-decisionale e i risultati aziendali. Tuttavia, per poter costruire un'analisi ben strutturata, dovranno utilizzare strumenti di data lineage e cataloghi di dati per le operazioni di data discovery e data mapping. Mentre gli strumenti di data lineage mostrano l'evoluzione dei dati nel tempo tramite metadati, un inventario utilizza le stesse informazioni per creare un inventario ricercabile di tutti gli asset di un'organizzazione. Insieme, consentono ai cittadini dei dati di comprendere l'importanza dei diversi elementi di dati per un determinato risultato, il che è fondamentale nello sviluppo di qualsiasi algoritmo di apprendimento automatico.

Casi d'uso di data lineage

Oggi, le aziende hanno un bisogno crescente di insight in tempo reale, ma questi risultati dipendono dalla comprensione dei dati e del loro percorso lungo la pipeline. Alcuni dei modi in cui i team possono sfruttare gli strumenti di data lineage end-to-end per migliorare i workflow includono:

Data modeling: per creare rappresentazioni visive dei diversi elementi di dati e dei relativi collegamenti all'interno di un'azienda, le aziende devono definire le strutture di dati sottostanti che li supportano. Il data lineage aiuta a modellare queste relazioni, illustrando le diverse dipendenze nell'ecosistema dei dati. Dal momento che i dati si evolvono nel tempo, emergono sempre nuove fonti di dati, devono essere effettuate nuove integrazioni di dati, ecc. Di conseguenza, anche il data model complessivo che le aziende utilizzano per gestire i propri dati deve adattarsi all'ambiente in continua evoluzione. Il data lineage aiuta a riflettere accuratamente questi cambiamenti nel tempo attraverso diagrammi del modello di dati, evidenziando connessioni o tabelle nuove o obsolete. Questo, a sua volta, aiuta gli analisti e i data scientist a facilitare analisi preziose e tempestive in quanto avranno una migliore conoscenza dei set di dati.

Migrazione dei dati: quando si trasferiscono i dati in un nuovo sistema di storage o si esegue l'onboarding di un nuovo software, le organizzazioni utilizzano la migrazione dei dati per scoprire le posizioni e il ciclo di vita dei dati. Fornendo una vista dell'evoluzione dei dati nell'organizzazione, il data lineage aiuta i team a pianificare le migrazioni o gli aggiornamenti del sistema, accelerando la transizione complessiva al nuovo ambiente di storage. Fornisce inoltre ai team l'opportunità di ripulire il sistema di dati, archiviando o eliminando dati obsoleti e irrilevanti; Questo, a sua volta, può migliorare le prestazioni complessive del sistema di dati riducendo la quantità di dati che deve gestire.

Conformità: il data lineage fornisce un meccanismo di conformità per l'audit, il miglioramento della gestione del rischio e la garanzia che i dati siano memorizzati ed elaborati in linea con le politiche e le normative sulla governance dei dati. Ad esempio, nel 2016 è stata creata la legislazione GDPR per proteggere i dati personali degli individui nell'Unione Europea e nello Spazio Economico Europeo, dando ai singoli un maggiore controllo sui propri dati. Negli Stati Uniti, singoli stati, come la California, hanno sviluppato politiche, come il California Consumer Privacy Act (CCPA), che richiede alle aziende di informare i consumatori sulla raccolta dei loro dati. Questo tipo di legislazione rende l'archiviazione e la sicurezza di questi dati una priorità assoluta e, senza gli strumenti di data lineage, le organizzazioni si troverebbero a dover affrontare problemi di non conformità che richiederebbero tempo e denaro.

Analisi dell'impatto: gli strumenti di data lineage possono fornire visibilità sull'impatto di specifiche modifiche aziendali, come qualsiasi reporting a valle. Ad esempio, se il nome di un elemento dati cambia, il data lineage può aiutare i leader a capire quante dashboard potrebbero essere interessate e, di conseguenza, quanti utenti accedono a tale reporting. Può anche aiutare a valutare l'impatto degli errori nei dati e l'esposizione nell'intera organizzazione. Gli errori nei dati possono verificarsi per una miriade di motivi, che possono erodere la fiducia in determinati report di business intelligence o fonti di dati, ma gli strumenti di data lineage possono aiutare i team a risalire alla fonte, consentendo l'ottimizzazione del trattamento dei dati e la comunicazione con i rispettivi team.

Soluzioni correlate
IBM Manta Data Lineage

Visualizza, trasforma e ottimizza il flusso dei tuoi dati dall'origine al consumo. Applica il data lineage a qualsiasi scenario per una maggiore trasparenza e accuratezza dei dati nelle tue operazioni.

Scopri IBM Manta Data Lineage
Soluzioni di data intelligence

Trasforma rapidamente i dati non elaborati in insight fruibili, unifica governance, qualità, lineage e condivisione dei dati e offri agli utenti dati affidabili e contestualizzati.

Scopri le soluzioni di data intelligence
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati aziendali con IBM Consulting e crea un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Prossimi passi

Scopri come IBM aiuta a costruire una base di dati governata e conforme. Con IBM Manta Data Lineage, ottieni la trasparenza dei dati monitorando la cronologia, il flusso e i risultati dei tuoi dati, ottimizzando gli insight end-to-end.

Esplora IBM Manta Data Lineage Esplora le soluzioni di data intelligence