Home

topics

Data lineage

Cos'è il data lineage?
Esplora la soluzione di data lineage di IBM Iscriviti per ricevere gli aggiornamenti sull'AI
Illustrazione con collage di pittogrammi di cloud, grafici a torta, pittogrammi grafici su quanto segue
Cos'è il data lineage?

Il data lineage è il processo di tracciamento del flusso di dati nel tempo, che fornisce una chiara comprensione dell'origine dei dati, dei loro cambiamenti e della loro destinazione finale all'interno della pipeline dei dati.

Gli strumenti di data lineage forniscono un record dei dati lungo il loro ciclo di vita, comprese le informazioni sulla fonte e tutte le trasformazioni dei dati applicate durante i processi ETL o ELT.

Questo tipo di documentazione consente agli utenti di osservare e tracciare diversi punti di contatto lungo il percorso dei dati, consentendo alle organizzazioni di convalidarne l'accuratezza e la coerenza. Si tratta di una funzionalità fondamentale per garantire la qualità dei dati all'interno di un'organizzazione. Viene comunemente utilizzato per ottenere informazioni sul contesto dei processi storici e per risalire alla causa principale degli errori.

 

Una guida per i leader dei dati

Scopri come utilizzare i database giusti per le applicazioni, l'analytics e l'AI generativa.

Contenuti correlati Registrati per ricevere l'ebook sugli storage dei dati AI
Data lineage vs. data provenance vs. governance dei dati

Data lineage, data provenance e governance dei dati sono termini strettamente correlati, che si sovrappongono l'uno all'altro. Insieme, assicurano che un'organizzazione possa mantenere la qualità e la sicurezza dei dati nel tempo.

La governance dei dati crea una struttura all'interno delle organizzazioni per gestire gli asset di dati definendo i proprietari dei dati, i termini aziendali, le regole, le politiche e i processi durante l'intero ciclo di vita dei dati. Le soluzioni di data lineage aiutano i team di governance dei dati a garantire che i dati siano conformi a questi standard, fornendo visibilità su come i dati cambiano all'interno della pipeline. La data provenance viene in genere utilizzata nel contesto del data lineage, ma si riferisce specificamente alla prima istanza di tali dati o alla loro origine.

Il data lineage fornisce una traccia di controllo dei dati a un livello molto granulare; questo livello di dettaglio è incredibilmente utile per il debug di eventuali errori nei dati e consente ai data engineer di risolvere i problemi in modo più efficace e di identificare le soluzioni più rapidamente. Sebbene l'ambito della governance dei dati sia più ampio del data lineage e della data provenance, questo aspetto della gestione dei dati è importante per l'applicazione degli standard dell'organizzazione.

Perché le aziende utilizzano il data lineage

Disporre di dati affidabili è essenziale per favorire un migliore processo decisionale e un miglioramento dei processi in tutti gli aspetti dell'azienda, dalle vendite alle risorse umane. Tuttavia, queste informazioni sono preziose solo se gli stakeholder hanno fiducia nella loro accuratezza, perché le informazioni sono valide solo quanto lo è la qualità dei dati. Il data lineage offre visibilità sulle modifiche che possono verificarsi a seguito di migrazioni dei dati, aggiornamenti di sistema, errori e altro, garantendo l'integrità dei dati per il loro intero ciclo di vita.

Il data lineage documenta la relazione tra i dati aziendali in varie applicazioni aziendali e IT. I dettagli possono includere:

  • Dove si trovano i dati e come vengono archiviati in un ambiente, ad esempio on-premise, in un data warehouse o in un data lake.
  • Come possono essere utilizzati i dati e chi è responsabile del loro aggiornamento, del loro utilizzo e della loro modifica. Questo include anche i ruoli e le applicazioni che sono autorizzati ad accedere a segmenti specifici di dati sensibili, ad esempio le informazioni di identificazione personale (PII).
  • Il monitoraggio dei dati generati, caricati e modificati da utenti business e applicazioni. Ad esempio, può trattarsi dell'aggiunta di contatti a un sistema di gestione delle relazioni con i clienti (CRM) o di una trasformazione dei dati, come la rimozione di record duplicati.
  • I dati creati e integrati da diverse parti dell'organizzazione, come l'hardware di rete e i server.
Come funziona il data lineage

I metadati consentono agli utenti degli strumenti di data lineage di comprendere appieno il flusso dei dati attraverso la pipeline. I metadati sono "dati sui dati", che includono varie informazioni sugli asset di dati, come tipo, formato, struttura, autore, data di creazione, data di modifica e dimensione dei file. Gli strumenti di data lineage forniscono un quadro completo dei metadati per aiutare gli utenti a determinare quanto utili saranno i dati per loro.

Negli ultimi anni, il modo in cui archiviamo e sfruttiamo i dati si è evoluto con l'evoluzione dei big data. Le aziende stanno investendo di più nella data science per guidare il processo decisionale e i risultati aziendali. Tuttavia, per poter costruire un'analisi ben strutturata, dovranno utilizzare strumenti di data lineage e cataloghi di dati per le operazioni di data discovery e data mapping. Mentre gli strumenti di data lineage mostrano l'evoluzione dei dati nel tempo tramite metadati, un catalogo di dati utilizza le stesse informazioni per creare un inventario ricercabile di tutti gli asset di dati di un'organizzazione. Insieme, consentono ai data citizen di comprendere l'importanza dei diversi elementi di dati per un determinato risultato, il che è fondamentale nello sviluppo di qualsiasi algoritmo di machine learning.

Casi d'uso di data lineage

Oggi, le aziende hanno un bisogno crescente di insight in tempo reale, ma questi risultati dipendono dalla comprensione dei dati e del loro percorso lungo la pipeline. Alcuni dei modi in cui i team possono sfruttare gli strumenti di data lineage end-to-end per migliorare i workflow includono:

Data modeling: per creare rappresentazioni visive dei diversi elementi di dati e dei relativi collegamenti all'interno di un'azienda, le aziende devono definire le strutture di dati sottostanti che li supportano. Il data lineage aiuta a modellare queste relazioni, illustrando le diverse dipendenze nell'ecosistema dei dati. Poiché i dati si evolvono nel tempo, emergono sempre nuove fonti di dati, devono essere effettuate nuove integrazioni di dati, ecc. Di conseguenza, anche il modello di dati complessivo che le aziende utilizzano per gestire i propri dati deve adattarsi all'ambiente in continua evoluzione. Il data lineage aiuta a riflettere accuratamente questi cambiamenti nel tempo attraverso diagrammi del modello di dati, evidenziando connessioni o tabelle nuove o obsolete. Ciò, a sua volta, aiuta gli analisti e i data scientist a facilitare analisi preziose e tempestive in quanto avranno una migliore comprensione dei set di dati.

Migrazione dei dati: quando si trasferiscono i dati a un nuovo sistema di storage o si esegue l'onboarding di un nuovo software, le organizzazioni utilizzano la migrazione dei dati per comprendere le posizioni e il ciclo di vita dei dati. Fornendo una vista dell'evoluzione dei dati nell'organizzazione, il data lineage aiuta i team a pianificare le migrazioni o gli aggiornamenti del sistema, accelerando la transizione complessiva al nuovo ambiente di storage. Fornisce inoltre ai team l'opportunità di ripulire il sistema di dati, archiviando o eliminando dati obsoleti e irrilevanti; Questo, a sua volta, può migliorare le prestazioni complessive del sistema di dati riducendo la quantità di dati che deve gestire.

Conformità: il data lineage fornisce un meccanismo di conformità per l'audit, il miglioramento della gestione del rischio e la garanzia che i dati siano archiviati ed elaborati in linea con le politiche e le normative sulla governance dei dati. Ad esempio, nel 2016 è stata creata la legislazione GDPR per proteggere i dati personali degli individui nell'Unione Europea e nello Spazio Economico Europeo, dando ai singoli un maggiore controllo sui propri dati. Negli Stati Uniti, singoli stati, come la California, hanno sviluppato politiche, come il California Consumer Privacy Act (CCPA), che richiede alle aziende di informare i consumatori sulla raccolta dei loro dati. Questo tipo di legislazione rende l'archiviazione e la sicurezza di questi dati una priorità assoluta e, senza gli strumenti di data lineage, le organizzazioni si troverebbero a dover affrontare problemi di non conformità che richiederebbero tempo e denaro.

Analisi dell'impatto: gli strumenti di data lineage possono fornire visibilità sull'impatto di specifiche modifiche aziendali, come qualsiasi reporting a valle. Ad esempio, se il nome di un elemento dati cambia, il data lineage può aiutare i leader a capire quante dashboard potrebbero essere interessate e, di conseguenza, quanti utenti accedono a tale reporting. Può anche aiutare a valutare l'impatto degli errori nei dati e l'esposizione nell'intera organizzazione. Gli errori nei dati possono verificarsi per una miriade di motivi, che possono erodere la fiducia in determinati report di business intelligence o fonti di dati, ma gli strumenti di data lineage possono aiutare i team a risalire alla fonte, consentendo l'ottimizzazione dell'elaborazione dei dati e la comunicazione con i rispettivi team.

Soluzioni IBM
IBM Cloud Pak for Data

Prevedi i risultati più velocemente su una piattaforma costruita con un'architettura data fabric. Raccogli, organizza e analizza i dati, indipendentemente dalla loro ubicazione.

IBM Cloud Pak for Data
IBM Knowledge Catalog

Attiva dati business-ready per AI e analytics con catalogazione intelligente, supportata da metadati attivi e gestione delle policy.

IBM Knowledge Catalog
Fasi successive

Scala i workload AI per tutti i tuoi dati, ovunque, con IBM watsonx.data, uno storage dei dati adatto allo scopo costruito su un'architettura open data lakehouse.

Esplora watsonx.data Prenota una demo live