Che cos'è la trasformazione dei dati?

Vista aerea del cantiere di Barangaroo

Che cos'è la trasformazione dei dati?

La trasformazione dei dati è una parte fondamentale del processo di integrazione dei dati in cui quelli non elaborati vengono convertiti in una struttura o in un formato unificato. La trasformazione dei dati garantisce la compatibilità con i sistemi di destinazione e migliora la loro usabilità e qualità. Si tratta di un aspetto fondamentale delle pratiche di gestione dei dati, tra cui il data wrangling, l'analisi dei dati e il data warehousing.

Sebbene gli specialisti possano realizzare manualmente la trasformazione dei dati, le grandi quantità di dati richieste per alimentare le moderne applicazioni aziendali necessitano in genere un certo livello di automazione. Gli strumenti e le tecnologie implementati attraverso il processo di conversione dei dati possono essere semplici o complessi.

Ad esempio, una trasformazione dei dati potrebbe essere semplice come convertire un campo data (ad esempio: MM/GG/AA) in un altro o dividere una singola colonna Excel in due. Tuttavia, le trasformazioni di dati più complesse, che puliscono e standardizzano i dati provenienti da fonti disparate e consistono di più workflow, potrebbero richiedere competenze avanzate di data science.

Queste funzioni avanzate di data engineering includono la normalizzazione dei dati, che definisce le relazioni tra i punti dati; e l'arricchimento dei dati, che integra le informazioni esistenti con set di dati di terze parti.

Nell'odierna economia globale digital-first, le trasformazioni dei dati aiutano le organizzazioni a sfruttare grandi volumi di dati provenienti da diverse fonti per migliorare il servizio, addestrare modelli di apprendimento automatico e implementare big data analytics.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Casi d'uso della trasformazione dei dati

Standardizzando i set di dati e preparandoli per la successiva elaborazione, la trasformazione dei dati rende possibili diverse pratiche aziendali cruciali in materia. I motivi più comuni per la trasformazione dei dati nel mondo degli affari includono:

Business intelligence

Le organizzazioni trasformano i dati per utilizzarli in applicazioni di business intelligence come dashboard in tempo reale e report di previsione, consentendo un processo decisionale basato sui dati che tiene conto di grandi quantità di informazioni.

Data warehousing

La trasformazione dei dati prepara i dati per lo storage e la gestione in un data warehouse o in un data lake, facilitando interrogazioni e analisi efficienti.

Apprendimento automatico

I modelli di apprendimento automatico richiedono dati puliti e organizzati. Garantire che i dati siano affidabili e nel formato corretto consente alle organizzazioni di utilizzarli per la formazione e l'ottimizzazione degli strumenti di intelligenza artificiale (AI).

big data analytics

Prima che i big data possano essere analizzati per la business intelligence, le ricerche di mercato o altre applicazioni, devono essere raccolti e formattati in modo appropriato.

Migrazione dei dati

Lo spostamento dei dati da vecchi sistemi on-premise a piattaforme moderne come un data warehouse cloud o un data lakehouse spesso comporta complesse trasformazioni dei dati.

Processo di trasformazione dei dati

Le trasformazioni dei dati in genere seguono un processo strutturato per produrre dati utilizzabili e preziosi a partire dalla loro forma non elaborata. Le fasi comuni in un processo di trasformazione dei dati comprendono:

1. Data discovery

Durante il processo di rilevamento, vengono raccolti i dati di origine. Questo processo potrebbe includere l'estrazione di dati non elaborati da API, un SQL database o file interni in formati eterogenei. Nell'individuare ed estrarre queste informazioni, i professionisti dei dati assicurano che le informazioni raccolte siano complete e pertinenti per la loro eventuale applicazione. Durante il processo di rilevamento, gli ingegneri iniziano anche a scoprire le caratteristiche e la struttura dei dati in un processo noto come profilazione dei dati.

2. Pulizia dei dati

La preparazione dei dati e la pulizia richiedono l'identificazione e la correzione di errori, incongruenze e imprecisioni nei dati non elaborati. Questo passaggio garantisce la qualità e l'affidabilità dei dati attraverso la rimozione dei duplicati e outlier o la gestione dei missing values.

3. Mappatura dei dati

La mappatura dei dati comporta la creazione di uno schema o di un processo di mappatura per guidare il processo di trasformazione. Durante questo processo, gli ingegneri dei dati definiscono come gli elementi del sistema di origine corrispondono a elementi specifici nel formato di destinazione.

4. Generazione di codice

Utilizzando uno strumento di terze parti o generando codice internamente, durante questo passaggio un'organizzazione crea il codice che trasformerà i dati.

5. Esecuzione e convalida del codice

Durante questa fase, la trasformazione vera e propria avviene quando il codice viene applicato ai dati non elaborati. I dati trasformati vengono caricati nel sistema di destinazione per ulteriori analisi o elaborazioni. I dati trasformati e il modello di dati vengono quindi convalidati per garantire coerenza e correttezza.

6. Revisione

Durante il processo di revisione, gli analisti di dati, gli ingegneri o gli utenti finali esaminano i dati di output, confermando che soddisfino i requisiti.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Trasformazione dei dati ETL vs. ELT

ETL (Extract, Transform, Load) ed ELT (Extract, Load, Transform) sono due processi di trasformazione dei dati utilizzati di frequente e che implementano tecniche di pipeline di dati leggermente differenti. Ognuno di questi processi presenta vantaggi e svantaggi a seconda delle dimensioni e della complessità della trasformazione.

Estrazione, trasformazione, caricamento: trasformazione dei dati in un'area di staging

Nel processo ETL, un sottoinsieme predeterminato di dati strutturati viene estratto dalla sua fonte, dove viene trasformato in un'area di staging o in un server di elaborazione secondario prima di essere caricato nel sistema di destinazione. L'ETL è più adatto per lo storage on-premise e set di dati più piccoli. Tuttavia, l'ETL può essere preferibile in scenari con esigenze specifiche di qualità e coerenza dei dati, in quanto è possibile introdurre fasi di pulizia e convalida dei dati più rigorose. L'ETL può anche essere necessario per proteggere i dati sensibili, come le informazioni protette dall'HIPAA, durante la migrazione.

Estrarre, caricare, trasformare: trasformazione dei dati nel cloud 

Nel processo ELT, le informazioni vengono estratte dalle fonti di dati e caricate nel sistema di destinazione basato su cloud, dove vengono quindi trasformate. Questo approccio, dal momento che sfrutta la potenza del cloud computing, consente in genere un'elaborazione più rapida e una gestione dei dati più agile. Può essere utilizzato anche con dati non strutturati come le immagini. Con il vantaggio della potenza di elaborazione e di storage basata sul cloud, il processo ELT beneficia di una maggiore scalabilità.

Tipi di trasformazione dei dati

I data scientist e gli ingegneri utilizzano diverse tecniche distinte durante il processo di trasformazione dei dati. Le tattiche da utilizzare dipendono esclusivamente dal progetto e dall'uso previsto dei dati, anche se possono essere utilizzati congiuntamente diversi metodi come parte di un processo complesso.

  • Pulizia dei dati: la pulizia dei dati migliora la qualità dei dati correggendo errori e incongruenze, ad esempio eliminando i record duplicati.
  • Aggregazione di dati: l'aggregazione di dati riassume i dati unendo più record in un unico valore o set di dati.
  • Normalizzazione dei dati: la normalizzazione standardizza i dati portando tutti i valori in una scala o formato comune, ad esempio i valori numerici da 1 a 10.
  • Codifica dei dati: La codifica converte i dati categorici in un formato numerico, semplificandone l'analisi. Ad esempio, la codifica dei dati potrebbe assegnare un numero univoco a ciascuna delle categorie di dati.
  • Arricchimento dei dati: l'arricchimento dei dati migliora i dati aggiungendo informazioni pertinenti da fonti esterne, come ad esempio dati demografici di terze parti o metadati pertinenti.
  • Imputazione dei dati: l'imputazione dei dati sostituisce i dati mancanti con valori plausibili. Ad esempio, potrebbe sostituire i valori mancanti con il valore mediano o medio.
  • Suddivisione dei dati: i dati vengono suddivisi in sottoinsiemi per scopi diversi. Ad esempio, gli ingegneri potrebbero suddividere un set di dati per utilizzarne uno per l'addestramento e l'altro per i test nell'apprendimento automatico.
  • Discretizzazione dei dati: i dati vengono convertiti in bucket o intervalli discreti in un processo talvolta denominato binning. Ad esempio, la discretizzazione potrebbe essere utilizzata in campo sanitario per tradurre dati come l'età del paziente in categorie quali "bambino" o "adulto".
  • Generalizzazione dei dati: la generalizzazione astrae set di dati di grandi dimensioni in un modulo di livello superiore o riassuntivo, riducendo i dettagli e rendendo i dati più facili da comprendere.
  • Visualizzazione dei dati: i dati vengono rappresentati graficamente, rivelando modelli o insight che potrebbero non essere immediatamente evidenti.

Strumenti di trasformazione dei dati

Sebbene sia possibile eseguire una trasformazione dei dati impiegando solo ingegneri interni, numerosi servizi di terze parti facilitano il processo di conversione e migrazione. Alcuni dei servizi più comuni comprendono:

  • Strumenti ETL ed ELT: strumenti come Apache NiFi e Informatica facilitano un processo ETL o ELT plug-and-play.
  • Piattaforme di integrazione dei dati: una serie di strumenti come IBM® Cloud Pak for Data supportano l'integrazione dei dati e l'elaborazione in tempo reale.
  • Strumenti di preparazione dei dati: questi strumenti sono progettati specificamente per la pulizia e la trasformazione dei dati prima di una trasformazione o migrazione dei dati.
  • Linguaggi di programmazione: linguaggi di programmazione come Python e R, con librerie come i panda open source, offrono funzionalità affidabili per la trasformazione dei dati.

Vantaggi della trasformazione dei dati

La trasformazione è una fase cruciale nel trattamento dei dati. Migliora la capacità di analisi, reporting, processo decisionale e storage di un'organizzazione. I vantaggi fondamentali includono:

Qualità dei dati migliorata

La trasformazione dei dati include processi come la pulizia, che migliora la qualità complessiva di un set di dati. Con dati migliori e architetture di dati ben definite, le organizzazioni migliorano l'efficienza operativa in aree come la gestione dell'inventario e l'elaborazione degli ordini. Dati migliori ottimizzano anche l' esperienza del cliente, fornendo una visione a 360 gradi dei consumatori attuali e potenziali. 

Migliore compatibilità e integrazione dei dati

La trasformazione dei dati standardizza i formati e le strutture dei dati, semplificando l'integrazione delle informazioni in un set di dati coeso. Abbattendo i silo di dati e facendo convergere le informazioni provenienti da reparti o sistemi diversi, un'organizzazione elimina le incongruenze e ottiene una visione unificata dell'attività.

Visualizzazione dei dati migliorata

In genere, i dati trasformati sono più organizzati e strutturati, semplificando così la creazione di visualizzazioni significative che comunicano gli insight in modo efficace. Le visualizzazioni aiutano i responsabili delle decisioni a individuare tendenze oppure opportunità e possono presentare dati fondamentali, come le pipeline di vendita o di approvvigionamento, quasi in tempo reale.

Migliore accessibilità dei dati

La trasformazione dei dati converte dati complessi o non strutturati in formati più facili da comprendere, accedervi e analizzare. Le organizzazioni utilizzano questi dati per creare previsioni avanzate di mercato o identificare aree di miglioramento.

Sicurezza e conformità avanzate

La trasformazione dei dati può includere l'anonimizzazione e la crittografia dei dati, la protezione delle informazioni sensibili e il rispetto delle normative sulla privacy. Tale sicurezza rimane fondamentale per i settori altamente regolamentati, come la sanità e la finanza, nonché per le organizzazioni che operano in più aree geografiche con leggi sulla privacy diverse.

Migliore scalabilità e flessibilità 

I dati trasformati sono spesso più flessibili e semplici da razionalizzare, facilitando l'adattamento a nuovi casi d'uso o l'aumento del trattamento dei dati man mano che la quantità di dati aumenta. I dati scalabili garantiscono la crescita di un'organizzazione senza svariate e costose riorganizzazioni e implementazioni IT.

Soluzioni correlate
Software e soluzioni per la gestione dei dati

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati
IBM watsonx.data™

Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data