Home
topics
Cos'è ETL (Extract, Transform, Load)?
L'ETL, che sta per Extract (estrarre), Transform (trasformare), Load (caricare), è un processo di integrazione dati a lungo termine utilizzato per combinare i dati da più origini in un unico set di dati coerente per il caricamento in un data warehouse, data lake o altro sistema di destinazione.
Con la crescente popolarità dei database negli anni '70, l'ETL è stato introdotto come processo per l'integrazione e il caricamento dei dati per il calcolo e l'analisi, diventando alla fine il metodo principale per elaborare i dati per i progetti di data warehousing.
L'ETL fornisce le basi per gli analytics dei dati e i flussi di lavoro di machine learning. Attraverso una serie di business rules, l'ETL ripulisce e organizza i dati in modo da soddisfare esigenze specifiche di business intelligence, come il reporting mensile, ma può anche affrontare analytics più avanzati, che possono migliorare i processi di back-end o le esperienze degli utenti finali. L'ETL viene spesso utilizzato da un'organizzazione per:
Leggi l'ebook gratuito di O'Reilly per imparare a muovere i primi passi con Presto, il motore SQL open source per l'analisi dei dati.
La differenza più ovvia tra ETL ed ELT è la differenza nell'ordine delle operazioni. L'ELT copia o esporta i dati dalle posizioni di origine, ma invece di caricarli in un'area di staging per la trasformazione, carica i dati non elaborati direttamente nello storage dei dati di destinazione per trasformali in base alle esigenze.
Sebbene entrambi i processi utilizzino una varietà di repository di dati, come database, data warehouse e data lake, ciascun processo presenta vantaggi e svantaggi. L'ELT è particolarmente utile per i set di dati non strutturati ad alto volume, poiché il caricamento può avvenire direttamente dall'origine. L'ELT può essere più ideale per la gestione dei big data poiché non richiede molta pianificazione iniziale per l'estrazione e lo storage dei dati.
Il processo ETL, d'altro canto, richiede una maggiore definizione all'inizio. È necessario identificare punti dati specifici per l'estrazione insieme a eventuali "chiavi" potenziali da integrare tra sistemi di origine eterogenei. Anche dopo che il lavoro è stato completato, è necessario costruire le business rules per le trasformazioni dei dati. Questo lavoro può solitamente dipendere dai requisiti dei dati per un determinato tipo di analisi, che determinerà il livello di sintesi che i dati devono avere.
Sebbene l'ELT sia diventato sempre più popolare con l'adozione dei cloud database, ha i suoi svantaggi in quanto è un processo più recente, il che significa che le best practice sono ancora in fase di definizione.
Il modo più semplice per capire come funziona l'ETL è capire cosa accade in ogni fase del processo.
Durante l'estrazione dei dati, i dati non elaborati vengono copiati o esportati dalle posizioni di origine in un'area di staging. I team di gestione dei dati possono estrarre dati da una varietà di origini dati, che possono essere strutturate o non strutturate. Tali fonti includono, a titolo esemplificativo ma non esaustivo:
Nell'area di staging i dati non elaborati vengono sottoposti al trattamento dei dati. Qui i dati vengono trasformati e consolidati per il loro previsto caso d'uso analitico. Questa fase può comportare le seguenti attività:
In questo ultimo passaggio, i dati trasformati vengono spostati dall'area di staging a un data warehouse di destinazione. In genere, ciò comporta un caricamento iniziale di tutti i dati, seguito dal caricamento periodico delle modifiche incrementali dei dati e, meno spesso, da aggiornamenti completi per cancellare e sostituire i dati nel warehouse. Per la maggior parte delle organizzazioni che utilizzano ETL, il processo è automatizzato, ben definito, continuo e basato su batch. In genere, l'ETL si verifica durante le ore di inattività, quando il traffico sui sistemi di origine e sul data warehouse è al minimo.
ETL ed ELT sono solo due metodi di integrazione dei dati ed esistono anche altri approcci utilizzati per facilitare i workflow di integrazione dei dati. Alcuni di questi includono:
Le soluzioni ETL migliorano la qualità eseguendo la pulizia dei dati prima di caricare i dati su un repository diverso. Essendo un'operazione batch che richiede molto tempo, l'ETL è consigliato più spesso per la creazione di repository di dati di destinazione più piccoli che richiedono aggiornamenti meno frequenti, mentre altri metodi di integrazione dei dati, tra cui l'ELT (Extract, Load, Transform), il CDC (Change Data Capture) e la virtualizzazione dei dati, vengono utilizzati per integrare volumi di dati sempre più grandi che cambiano o flussi di dati in tempo reale.
In passato, le organizzazioni scrivevano il proprio codice ETL. Ora ci sono molti strumenti ETL open source e commerciali e cloud service tra cui scegliere. Le funzionalità tipiche di questi prodotti sono le seguenti:
Inoltre, molti strumenti ETL si sono evoluti per includere funzionalità ELT e per supportare l'integrazione dei dati in tempo reale e in streaming per applicazioni di intelligenza artificiale (AI).
Le API (Application Programming Interface) che utilizzano l'EAI (Enterprise Application Integration) possono essere utilizzate al posto dell'ETL per una soluzione più flessibile e scalabile che include l'integrazione del workflow. Sebbene l'ETL sia ancora la principale risorsa di integrazione dei dati, l'EAI viene sempre più utilizzata con le API in ambienti basati sul web.
IBM Cloud Pak for Data è una piattaforma dati aperta ed estensibile che fornisce un data fabric per rendere tutti i dati disponibili per l'AI e gli analytics su qualsiasi cloud.
L'AI sta sbloccando il valore dei dati in nuovi modi. Organizza i tuoi dati per prepararli a un mondo AI e multicloud con le soluzioni DataOps.
L'integrazione dei dati consente di trasformare i dati strutturati e non strutturati e di distribuirli a qualsiasi sistema su una piattaforma di big data scalabile.
Impara a estrarre, trasformare e caricare OPPURE estrarre, caricare e quindi trasformare mentre scopri come elaborare e analizzare facilmente set di dati di grandi dimensioni utilizzando questo strumento.
Scopri le similitudini e le differenze nelle definizioni, nei benefici e nei casi d'uso di ELT ed ETL.
Scopri la potenza dei flussi ETL con Node-RED e impara a semplificare, implementare e automatizzare questi processi critici e sbloccare tutto il potenziale dei tuoi dati.