La sfida fondamentale nella gestione dei dati non è semplicemente quella di utilizzare tecniche di integrazione, ovvero l'atto di spostare e combinare i dati, ma piuttosto quella di garantirne la qualità.
Sebbene l'integrazione renda disponibili i dati, spesso si limita a trasferire il disordine. L'approccio multilivello di Medallion Data Architecture va oltre l'Integrazione per implementare i controlli di qualità essenziali, assicurando che i dati siano progressivamente puliti, convalidati e affidabili nel passaggio dallo stato grezzo alle analytics pronte per il consumo.
Medallion Data Architecture (MDA) è il miglior approccio incentrato sulla qualità, progettato per risolvere le sfide significative che le organizzazioni devono affrontare per diventare basate sui dati.
MDA è un modello di progettazione dei dati che organizza i dati in aree distinte e stratificate (Bronzo, Argento e Oro) durante tutto il loro ciclo di vita. Questo ciclo passa dalla data ingestion alla trasformazione dei dati e dall'aggregazione al consumo di dati.
Questo approccio è progettato per superare i limiti dell'integrazione semplice come estrazione, trasformazione e carico (ETL). In questo caso, si dedica troppo tempo alla pulizia dei dati a causa della loro qualità incoerente, il che in ultima analisi ostacola la capacità di estrarre insight fruibili. La struttura stratificata dell'architettura è ciò che migliora progressivamente la qualità e la struttura dei dati, affrontando direttamente le carenze dei metodi tradizionali.
Questo framework coeso, spesso supportato da sistemi come IBM watsonx.data, raggiunge obiettivi chiave che superano l'integrazione di base, tra cui la realizzazione di prodotti di dati ripetibili e di alta qualità, una governance migliorata tra le zone di dati e la massimizzazione del valore dei dati consentendo all'organizzazione di superare le difficoltà con i dati fino a prendere decisioni basate su di essi.
Mentre l'ETL tradizionale si concentra principalmente sul trasferimento efficiente dei dati da una fonte a un obiettivo, l'architettura Medallion è progettata specificamente per migliorare la qualità dei dati in ogni fase. I cinque punti presentati più avanti descrivono in dettaglio come i livelli Bronzo, Argento e Oro di MDA risolvono sistematicamente i problemi strutturali e di precisione comuni nei processi ETL classici:
In un sistema ETL tradizionale, i dati vengono spesso modificati durante il trasferimento, prima ancora di raggiungere il data storage finale. Questo processo "in-flight" ha i suoi rischi: se si verifica un errore nelle regole di trasformazione, il file sorgente originale viene spesso perso o sovrascritto. Trovare un errore in seguito significa che potresti avere difficoltà a ricontrollare i dati originali, rendendo difficile la risoluzione del problema di base.
L'architettura Medallion evita completamente questo rischio usando il "livello Bronzo" (dati non elaborati) come fonte sicura e immutabile. Questo livello conserva i dati originali esattamente come sono stati ricevuti, separando il processo di pulizia dal caricamento iniziale dei dati. Ciò garantisce che il file sorgente originale sia sempre disponibile per riavviare la pulizia o convalidare i risultati, garantendoci la massima affidabilità dei dati.
La fase di "trasformazione" (T) nell'ETL tradizionale è spesso solo un lavoro strutturale: conversione dei tipi di dati, applicazione di filtri semplici e allineamento delle colonne per adattarle al formato di destinazione. Poiché l'ETL si concentra solo su questo allineamento, spesso non riesce a risolvere profondi problemi di qualità semantica, ovvero questioni legate al significato effettivo e all'identità dei dati.
Il “livello Argento” (dati purificati, strutturati e arricchiti) dell’architettura Medallion è il luogo in cui avviene questo lavoro critico e profondo. Invece di limitarsi a spostare i dati, il livello Argento è dedicato alla correzione attiva dei dati, alla standardizzazione e alla risoluzione delle entità. Questo processo unifica i record in conflitto (come gli ID cliente duplicati) in un unico "golden record" affidabile, il che significa che si fissa l'identità commerciale effettiva dei dati. Questa attenzione alla vera integrità va ben oltre il semplice allineamento strutturale.
Un problema importante della gestione tradizionale dei dati è che permette a diversi team di calcolare metriche chiave, come vendite o tasso di abbandono, utilizzando formule leggermente diverse con strumenti separati. Questa decentralizzazione crea un'immediata incoerenza nei risultati e genera sfiducia in tutta l'azienda.
Il “livello Oro” (dati aziendali raffinati) dell’architettura Medallion è progettato per porre fine a questa confusione. Agisce come singola fonte affidabile, imponendo la logica aziendale finale e corretta. Tutte le metriche critiche vengono definite e precalcolate una sola volta in questo livello, garantendo che ogni utilizzatore, dalle dashboard esecutive ai modelli di dati, usi la stessa definizione convalidata. Questo approccio risolve il problema della qualità organizzativa relativa all'incoerenza e alla sfiducia.
Nei sistemi ETL tradizionali, una delle principali vulnerabilità è la "deviazione dello schema". Questo errore si verifica quando la sorgente dei dati originale cambia improvvisamente il suo formato (ad esempio, una colonna viene rimossa o un campo numerico diventa un carattere). Poiché la trasformazione avviene all'inizio della sorgente, queste modifiche possono interrompere silenziosamente la definizione dei dati o caricare dati indefiniti senza essere segnalati fino a quando le applicazioni iniziano a fallire.
Al contrario, i livelli Argento e Oro dell'architettura Medallion utilizzano una rigorosa applicazione degli schemi. Questa caratteristica funge da controllo di sicurezza attivo: se un record viola la struttura prevista, il sistema lo metterà in quarantena o lo rifiuterà istantaneamente. Questo approccio proattivo garantisce che i dati danneggiati siano completamente bloccati al controllo di qualità, mantenendo pulito e affidabile il livello Oro pronto per l'analytics finale.
In un processo ETL tradizionale, se troviamo un errore di dati nei report, si riconduce l'errore alla sua fonte. Che si tratti dei dati sorgente, del codice di trasformazione o del carico, spesso si tratta di uno sforzo significativo e difficile a causa di una tracciabilità immatura. Questa sfida rende difficile la diagnosi rapida degli errori e la responsabilizzazione.
L'architettura Medallion risolve questo problema perché la sua struttura stratificata fornisce intrinsecamente un data lineage end-to-end. La progressione esplicita e strutturata dei dati dal livello grezzo di Bronzo, attraverso quello pulito di Argento e fino allo strato finale di Oro, garantisce che ogni punto dati finale possa essere immediatamente rintracciato attraverso l'intera cronologia di trasformazione fino allo stato grezzo originale.
Questa responsabilità semplice e integrata è essenziale per il controllo della qualità e consente ai team di diagnosticare rapidamente la causa principale di qualsiasi problema.
L'architettura Medallion corregge gli errori e organizza le informazioni in tre passaggi chiari: Bronzo, Argento e Oro. Questa semplice configurazione elimina lo stress causato dai dati errati, consentendoti di prendere decisioni rapide e intelligenti per la tua attività.