Cos'è la derivazione dei dati?

Scopri cos'è la derivazione dei dati e in che modo le società la stanno utilizzando per migliorare gli insight di business

Due dipendenti seduti a una scrivania condivisa che guardano entrambi il monitor di un computer
Cos'è la derivazione dei dati?

La derivazione dei dati è il processo di tracciamento del flusso di dati nel corso del tempo, fornendo una chiara comprensione di dove hanno avuto origine e della loro destinazione finale all'interno della pipeline di dati. Gli strumenti di derivazione dei dati forniscono un record dei dati lungo tutto il corso del loro ciclo di vita, comprese le informazioni di origine e qualsiasi trasformazione dei dati che è stata applicata durante qualsiasi processo ETL o ELT. Questo tipo di documentazione consente agli utenti di osservare e tracciare diversi punti di contatto lungo il percorso dei dati, consentendo alle organizzazioni di convalidarne accuratezza e coerenza. Questa è una funzionalità fondamentale per assicurare la qualità dei dati all'interno di un'organizzazione. Viene comunemente utilizzata per acquisire contesto sui processi cronologici e per tracciare a ritroso gli errori alla loro causa principale.


Confronto tra derivazione dei dati, provenienza dei dati e governance dei dati

Derivazione dei dati, provenienza dei dati e governance dei dati sono termini strettamente correlati, che si intersecano tra loro. Insieme, garantiscono che un'organizzazione possa preservare la qualità e la sicurezza dei dati nel corso del tempo.

La governance dei dati crea una struttura all'interno delle organizzazioni per gestire gli asset di dati definendo i proprietari dei dati, le regole, le politiche, i processi e i termini di business lungo tutto il ciclo di vita dei dati. Le soluzioni di derivazione dei dati aiutano i team di governance dei dati a garantire che i dati siano conformi a tali standard, fornendo una visibilità del modo in cui dati subiscono variazioni all'interno della pipeline. La provenienza dei dati viene di norma utilizzata nel contesto della derivazione dei dati ma si riferisce specificamente alla prima istanza di tali dati o alla loro origine.

La derivazione dei dati fornisce un audit trail per i dati a un livello molto granulare; questo tipo di dettaglio è incredibilmente utile per eseguire il debug di qualsiasi errore dei dati, consentendo ai data engineer di risolvere i problemi in modo più efficace e di identificare le risoluzioni in tempi più brevi. Sebbene l'ambito della governance dei dati sia più ampio di quello della derivazione dei dati e della provenienza dei dati, questo aspetto della gestione dati è importante nell'applicazione degli standard organizzativi.


Perché le aziende utilizzano la derivazione dei dati

Dei dati affidabili sono essenziali  per promuovere un'ottimizzazione del processo decisionale e un miglioramento dei processi in tutti gli aspetti di un'azienda, dalle vendite alle risorse umane. Tuttavia, queste informazioni sono preziose solo se le parti interessate rimangono fiduciose per quanto riguarda la loro accuratezza poiché, in definitiva, la qualità degli insight è direttamente proporzionale a quella dei dati. La derivazione dei dati offre una visibilità delle modifiche che possono verificarsi in seguito a migrazioni di dati, aggiornamenti di sistema, errori e altro ancora, garantendo l'integrità dei dati lungo tutto il loro ciclo di vita.

La derivazione dei dati documenta la relazione tra i dati aziendali nelle diverse applicazioni di business e IT. Questi dettagli possono includere:

  • Dove si trovano i dati e come sono archiviati in un ambiente, ad esempio on-premise, in un data warehouse o in un data lake.
  • Come possono essere utilizzati i dati e chi è responsabile dell'aggiornamento, dell'utilizzo e della modifica dei dati. Ciò include anche i ruoli e le applicazioni che sono autorizzati ad accedere a specifici segmenti di dati sensibili, ad es. le informazioni che consentono l'identificazione personale degli utenti (PII, personally identifiable information).
  • Tracciamento dei dati generati, caricati e modificati da utenti e applicazioni di business. Può ad esempio trattarsi dell'aggiunta di contatti a un sistema CRM (customer relationship management) oppure di una trasformazione dei dati, come la rimozione di record duplicati.
  • Dati creati e integrati da diverse parti dell'organizzazione, come hardware di rete e server.

Come funziona la derivazione dei dati

I metadati consentono agli utenti degli strumenti di derivazione dei dati di comprendere appieno il modo in cui i dati fluiscono attraverso la pipeline di dati. I metadati sono i "dati sui dati", che includono diverse informazioni sugli asset di dati, quali il tipo, il formato, la struttura, l'autore, la data di creazione, la data di modifica e la dimensione del file. Gli strumenti di derivazione dei dati forniscono un quadro completo dei metadati per orientare gli utenti mentre determinano quanto saranno loro utili i dati.

Negli ultimi anni, con l'evolversi dei big data, si è evoluto il modo in cui archiviamo e sfruttiamo i dati. Le società stanno investendo di più in data science per promuovere il processo decisionale e i risultati di business. Tuttavia, per poter mettere a punto un'analisi ben formata, avranno bisogno di utilizzare gli strumenti di derivazione dei dati e i cataloghi di dati per le attività di rilevamento e associazione dei dati. Mentre gli strumenti di derivazione dei dati mostrano l'evoluzione dei dati nel corso del tempo mediante i metadati, un catalogo dei dati utilizza le stesse informazioni per creare un inventario in cui è possibile eseguire ricerche di tutti gli asset di dati in un'organizzazione. Insieme, consentono ai data citizen di comprendere l'importanza dei diversi elementi di dati per un determinato risultato, il che è fondamentale nello sviluppo di qualsiasi algoritmo di machine learning.


Casi di utilizzo della derivazione dei dati

Le aziende oggi hanno sempre più bisogno di insight in tempo reale, ma tali risultati dipendono dalla comprensione dei dati e del loro percorso lungo tutta la pipeline. Alcuni dei modi in cui i team possono sfruttare gli strumenti di derivazione dei dati end-to-end per migliorare i flussi di lavoro includono:

La modellazione dei dati: per creare rappresentazioni visive dei diversi elementi di dati e dei loro corrispondenti collegamenti all'interno di un'azienda, le società devono definire le strutture di dati sottostanti che li supportano. La derivazione dei dati aiuta a modellare queste relazioni, illustrando le diverse dipendenze nell'ecosistema dei dati.  Poiché i dati si evolvono nel corso del tempo, ci sono sempre nuove origini di dati che emergono, nuove integrazioni di dati che devono essere effettuate eccetera. Di conseguenza, anche il modello di dati complessivo utilizzato dalle aziende per gestire i loro dati deve adattarsi all'ambiente in continua evoluzione. La derivazione dei dati aiuta a riflettere in modo accurato queste variazioni nel corso del tempo mediante diagrammi di modelli di dati, che mettono in evidenza connessioni o tabelle nuove oppure obsolete. Ciò, a sua volta, aiuta gli analisti e i data scientist a facilitare un'analisi preziosa e tempestiva poiché avranno una migliore comprensione dei dataset.

La migrazione dei dati: quando spostano i dati in un nuovo sistema di archiviazione oppure eseguono l'onboarding di nuovo software, le organizzazioni utilizzano la migrazione dei dati per comprendere le ubicazioni e il ciclo di vita dei dati. Poiché fornisce una vista del modo in cui tali dati sono avanzati nell'organizzazione, la derivazione dei dati assiste i team nella pianificazione di tali migrazioni o upgrade di sistema, accelerando la transizione complessiva al nuovo ambiente di storage. Fornisce inoltre ai team l'opportunità di ripulire i dati di sistema, archiviando o eliminando i dati obsoleti e irrilevanti; ciò, a sua volta, può migliorare le prestazioni complessive del sistema di dati riducendo la quantità di dati che deve gestire.

La conformità: la derivazione dei dati fornisce un meccanismo di conformità per la verifica, migliorando la gestione dei rischi e garantendo che i dati siano archiviati ed elaborati in linea con le politiche e le normative di governance dei dati. Ad esempio, nel 2016, è stata creata la legislazione GDPR per proteggere i dati personali dei cittadini dell'Unione europea e dello Spazio economico europeo, dando alle persone un maggior controllo sui loro dati. Negli Stati Uniti, singoli Stati come la California hanno sviluppato politiche quali il CCPA (California Consumer Privacy Act), che hanno imposto alle aziende di informare i consumatori della raccolta dei loro dati. Questo tipo di legislazione rende lo storage e la sicurezza di questi dati una priorità massima e, senza strumenti di derivazione dei dati, i problemi di non conformità per le organizzazioni risulterebbero un'impresa onerosa in termini di tempo e denaro.

Un'analisi dell'impatto: gli strumenti di derivazione dei dati possono fornire una visibilità dell'impatto di specifiche modifiche di business, come ad esempio qualsiasi reportistica downstream. Ad esempio, se il nome di un elemento di dati subisce variazioni, la derivazione dei dati può aiutare i leader a comprendere quanti dashboard potrebbero risentirne e, di conseguenza, quanti utenti che accedono a tale reportistica. Può anche aiutare a valutare l'impatto degli errori di dati e l'esposizione nell'organizzazione. Gli errori di dati possono verificarsi per una miriade di modifiche, il che potrebbe erodere la fiducia in determinati origini di dati o report di intelligence di business, ma gli strumenti di derivazione dei dati possono aiutare i team a tracciarli alla loro origine, consentendo ottimizzazioni dell'elaborazione dei dati e comunicazioni ai rispettivi team.


Soluzioni IBM

IBM Cloud Pak for Data

Prevedi i risultati finali più velocemente utilizzando una piattaforma costruita con un'architettura di infrastruttura di dati. Raccogli, organizza e analizza i dati, indipendentemente dall'ubicazione.


IBM Watson Knowledge Catalog

Attiva dati di business per l'AI e l'analytics, con catalogazione intelligente, supportata da una gestione attiva di politiche e metadati



Passa alla fase successiva

IBM Cloud Pak for Data utilizza efficacemente i microservizi e le sue funzionalità di dati e AI leader del settore per automatizzare l'integrazione intelligente dei dati nei sistemi distribuiti, fornendo alle aziende una vista olistica delle prestazioni aziendali. Ciò facilita una raccolta, un'organizzazione e degli insight dei dati aziendali più rapidi e consente alle aziende di prendere decisioni su larga scala. I team di gestione dei dati possono anche contare sul fatto che i dati siano al sicuro grazie ai competitivi framework di sicurezza di IBM, garantendo il rispetto delle politiche normative e riducendo qualsiasi rischio di conformità. Scopri in che modo IBM® Cloud Pak for Data e IBM Streams possono aiutarti a comprendere e gestire l'architettura dei dati della tua azienda tramite la derivazione dei dati in più ambienti.