Cos'è l'ETL (Extract, Transform, Load)?

Cos'è l'ETL?

L'ETL, che sta per Extract (estrarre), Transform (trasformare), Load (caricare), è un processo di integrazione dati a lungo termine utilizzato per combinare i dati da più origini in un unico set di dati coerente per il caricamento in un data warehouse, data lake o altro sistema di destinazione.

Con la crescente popolarità dei database negli anni '70, l'ETL è stato introdotto come processo per l'integrazione e il caricamento dei dati per il calcolo e l'analisi, diventando alla fine il metodo principale per elaborare i dati per i progetti di data warehousing.

L'ETL fornisce le basi per gli analytics dei dati e i flussi di lavoro di machine learning. Attraverso una serie di business rules, l'ETL ripulisce e organizza i dati in modo da soddisfare esigenze specifiche di business intelligence, come il reporting mensile, ma può anche affrontare analytics più avanzati, che possono migliorare i processi di back-end o le esperienze degli utenti finali. L'ETL viene spesso utilizzato da un'organizzazione per:

Estrarre i dati dai sistemi legacy
Pulire i dati per migliorarne la qualità e stabilirne la coerenza
Caricare i dati in un database di destinazione

Imparare e utilizzare Presto

Leggi l’ebook gratuito di O’Reilly per imparare a muovere i primi passi con Presto, il motore SQL open source per l’analisi dei dati.

Contenuti correlati

ETL vs ELT

La differenza più ovvia tra ETL ed ELT è la differenza nell'ordine delle operazioni. L'ELT copia o esporta i dati dalle posizioni di origine, ma invece di caricarli in un'area di staging per la trasformazione, carica i dati non elaborati direttamente nello storage dei dati di destinazione per trasformali in base alle esigenze.

Sebbene entrambi i processi utilizzino una varietà di repository di dati, come database, data warehouse e data lake, ciascun processo presenta vantaggi e svantaggi. L'ELT è particolarmente utile per i set di dati non strutturati ad alto volume, poiché il caricamento può avvenire direttamente dall'origine. L'ELT può essere più ideale per la gestione dei big data poiché non richiede molta pianificazione iniziale per l'estrazione e lo storage dei dati.

Il processo ETL, d'altro canto, richiede una maggiore definizione all'inizio. È necessario identificare punti dati specifici per l'estrazione insieme a eventuali "chiavi" potenziali da integrare tra sistemi di origine eterogenei. Anche dopo che il lavoro è stato completato, è necessario costruire le business rules per le trasformazioni dei dati. Questo lavoro può solitamente dipendere dai requisiti dei dati per un determinato tipo di analisi, che determinerà il livello di sintesi che i dati devono avere.

Sebbene l'ELT sia diventato sempre più popolare con l'adozione dei cloud database, ha i suoi svantaggi in quanto è un processo più recente, il che significa che le best practice sono ancora in fase di definizione.

Come funziona l'ETL

Il modo più semplice per capire come funziona l'ETL è capire cosa accade in ogni fase del processo.

Estrai

Durante l'estrazione dei dati, i dati non elaborati vengono copiati o esportati dalle posizioni di origine in un'area di staging. I team di gestione dei dati possono estrarre dati da una varietà di origini dati, che possono essere strutturate o non strutturate. Tali fonti includono, a titolo esemplificativo ma non esaustivo:

Server SQL o NoSQL
Sistemi CRM ed ERP
Flat file
E-mail
Pagine web

Trasformazione

Nell'area di staging i dati non elaborati vengono sottoposti al trattamento dei dati. Qui i dati vengono trasformati e consolidati per il loro previsto caso d'uso analitico. Questa fase può comportare le seguenti attività:

Filtraggio, pulizia, deduplicazione, convalida e autenticazione dei dati.
Esecuzione di calcoli, traduzioni o riepiloghi basati sui dati non elaborati. Ciò può includere la modifica delle intestazioni di riga e colonna per la coerenza, la conversione di valute o altre unità di misura, la modifica di stringhe di testo e altro ancora.
Conduzione di audit per garantire la qualità dei dati e la conformità.
Rimozione, crittografia o protezione dei dati regolati dalle autorità di regolamentazione del settore o governative.
Formattazione dei dati in tabelle o tabelle collegate in modo che corrispondano allo schema del data warehouse di destinazione.

Caricamento

In questo ultimo passaggio, i dati trasformati vengono spostati dall'area di staging a un data warehouse di destinazione. In genere, ciò comporta un caricamento iniziale di tutti i dati, seguito dal caricamento periodico delle modifiche incrementali dei dati e, meno spesso, da aggiornamenti completi per cancellare e sostituire i dati nel warehouse. Per la maggior parte delle organizzazioni che utilizzano ETL, il processo è automatizzato, ben definito, continuo e basato su batch. In genere, l'ETL si verifica durante le ore di inattività, quando il traffico sui sistemi di origine e sul data warehouse è al minimo.

ETL e altri metodi di integrazione dei dati

ETL ed ELT sono solo due metodi di integrazione dei dati ed esistono anche altri approcci utilizzati per facilitare i workflow di integrazione dei dati. Alcuni di questi includono:

Il CDC (Change Data Capture) identifica e acquisisce solo i dati di origine che sono cambiati e li sposta nel sistema di destinazione. Il CDC può essere utilizzato per ridurre le risorse necessarie durante il passaggio ETL di estrazione; può anche essere utilizzato in modo indipendente per spostare i dati che sono stati trasformati in un data lake o in un altro repository in tempo reale.
La replica dei dati copia le modifiche nelle fonti di dati in tempo reale o in batch in un database centrale. La replica dei dati è spesso elencata come metodo di integrazione dei dati. In effetti, viene spesso utilizzata per creare backup per il disaster recovery.
La virtualizzazione dei dati utilizza un livello di astrazione del software per creare una visualizzazione unificata, integrata e completamente utilizzabile dei dati, senza copiare, trasformare o caricare fisicamente i dati di origine in un sistema di destinazione. La funzionalità di virtualizzazione dei dati consente a un'organizzazione di creare data warehouse virtuali, data lake e data mart dagli stessi dati di origine per lo storage dei dati senza le spese e la complessità di creazione e gestione di piattaforme separate per ciascuno di essi. Sebbene la virtualizzazione dei dati possa essere utilizzata insieme all'ETL, è sempre più vista come un'alternativa all'ETL e ad altri metodi di integrazione dei dati fisici.
L'SDI (Stream Data Integration) , come suggerisce il nome stesso, consuma continuamente flussi di dati in tempo reale, li trasforma e li carica in un sistema di analisi di destinazione. La parola chiave qui è continuamente. Invece di integrare istantanee di dati estratti dalle fonti in un determinato momento, l'SDI integra costantemente i dati man mano che diventano disponibili. L'SDI abilita uno storage dei dati per consolidare gli analytics, il machine learning e le applicazioni in tempo reale per migliorare l'esperienza del cliente, il rilevamento delle frodi e altro ancora.

I benefici e le sfide dell'ETL

Le soluzioni ETL migliorano la qualità eseguendo la pulizia dei dati prima di caricare i dati su un repository diverso. Essendo un'operazione batch che richiede molto tempo, l'ETL è consigliato più spesso per la creazione di repository di dati di destinazione più piccoli che richiedono aggiornamenti meno frequenti, mentre altri metodi di integrazione dei dati, tra cui l'ELT (Extract, Load, Transform), il CDC (Change Data Capture) e la virtualizzazione dei dati, vengono utilizzati per integrare volumi di dati sempre più grandi che cambiano o flussi di dati in tempo reale.

Scopri di più sull'integrazione dei dati

Strumenti ETL

In passato, le organizzazioni scrivevano il proprio codice ETL. Ora ci sono molti strumenti ETL open source e commerciali e cloud service tra cui scegliere. Le funzionalità tipiche di questi prodotti sono le seguenti:

Automazione completa e facilità d'uso: i principali strumenti ETL automatizzano l'intero flusso di dati, dalle origini dati al data warehouse di destinazione. Molti strumenti consigliano regole per l'estrazione, la trasformazione e il caricamento dei dati.
Un'interfaccia visiva drag and drop: questa funzionalità può essere utilizzata per specificare regole e flussi di dati.
Supporto per la gestione dei dati complessi: include l'assistenza per calcoli complessi, integrazioni di dati e manipolazioni di stringhe.
Sicurezza e conformità: i migliori strumenti ETL crittografano i dati sia in movimento che a riposo e sono certificati conformi alle normative di settore o governative, come HIPAA e GDPR.

Inoltre, molti strumenti ETL si sono evoluti per includere funzionalità ELT e per supportare l'integrazione dei dati in tempo reale e in streaming per applicazioni di intelligenza artificiale (AI).

Il futuro dell'integrazione: API che utilizza l'EAI

Le API (Application Programming Interface) che utilizzano l'EAI (Enterprise Application Integration) possono essere utilizzate al posto dell'ETL per una soluzione più flessibile e scalabile che include l'integrazione del workflow. Sebbene l'ETL sia ancora la principale risorsa di integrazione dei dati, l'EAI viene sempre più utilizzata con le API in ambienti basati sul web.

Soluzioni correlate

IBM Cloud Pak for Data

IBM Cloud Pak for Data è una piattaforma dati aperta ed estensibile che fornisce un data fabric per rendere tutti i dati disponibili per l'AI e gli analytics su qualsiasi cloud.

Scopri IBM Cloud Pak for Data

IBM DataOps

L'AI sta sbloccando il valore dei dati in nuovi modi. Organizza i tuoi dati per prepararli a un mondo AI e multicloud con le soluzioni DataOps.

Esplora IBM DataOps

Integrazione dei dati

L'integrazione dei dati consente di trasformare i dati strutturati e non strutturati e di distribuirli a qualsiasi sistema su una piattaforma di big data scalabile.

Esplora l'integrazione dei dati

Risorse

Hive come strumento per ETL o ELT

Impara a estrarre, trasformare e caricare OPPURE estrarre, caricare e quindi trasformare mentre scopri come elaborare e analizzare facilmente set di dati di grandi dimensioni utilizzando questo strumento.

ELT vs. ETL: qual è la differenza?

Scopri le similitudini e le differenze nelle definizioni, nei benefici e nei casi d’uso di ELT ed ETL.

Implementazione di flussi ETL con Node-RED

Scopri la potenza dei flussi ETL con Node-RED e impara a semplificare, implementare e automatizzare questi processi critici e sbloccare tutto il potenziale dei tuoi dati.

Fai il passo successivo

IBM DataStage è uno strumento di integrazione dei dati leader di settore che aiuta a progettare, sviluppare ed eseguire attività di spostamento e trasformazione dei dati. DataStage supporta i modelli ETL (Extract, Transform, Load) ed ELT (Extract, Load, Transform).

Esplora DataStage

Fai una prova gratuita