Home

Think

Argomenti

Trasformazione dei dati

Che cos'è la trasformazione dei dati?
Esplora IBM® watsonx.data Iscriviti per ricevere gli aggiornamenti sull'AI
Un dito che indica una schermata di testo che scorre

Data di pubblicazione: 19 giugno 2024
Autori: Molly Hayes, Amanda Downie

Che cos'è la trasformazione dei dati?

La trasformazione dei dati è una parte fondamentale del processo di integrazione dei dati in cui i dati non elaborati vengono convertiti in una struttura o in un formato unificato. La trasformazione dei dati garantisce la compatibilità con i sistemi di destinazione e migliora l'usabilità e la qualità dei dati. Si tratta di un aspetto fondamentale delle pratiche di gestione dei dati, tra cui il data wrangling, l'analisi dei dati e il data warehousing.

Sebbene gli specialisti possano realizzare manualmente la trasformazione dei dati, le grandi quantità di dati richieste per alimentare le moderne applicazioni aziendali necessitano in genere un certo livello di automazione. Gli strumenti e le tecnologie implementati attraverso il processo di conversione dei dati possono essere semplici o complessi.

Ad esempio, una trasformazione dei dati potrebbe essere semplice come convertire un campo data (ad esempio: MM/GG/AA) in un altro o dividere una singola colonna Excel in due. Tuttavia, le trasformazioni di dati più complesse, che puliscono e standardizzano i dati provenienti da fonti disparate e consistono di più workflow, potrebbero richiedere competenze avanzate di data science.

Queste funzioni avanzate di data engineering includono la normalizzazione dei dati, che definisce le relazioni tra i punti dati; e l'arricchimento dei dati, che integra le informazioni esistenti con set di dati di terze parti.

Nell'odierna economia globale digital-first, le trasformazioni dei dati aiutano le organizzazioni a sfruttare grandi volumi di dati provenienti da diverse fonti per migliorare il servizio, addestrare modelli di apprendimento automatico e implementare big data analytics

L'AI richiede una nuova gestione dei dati

Accedi alla guida all'AI e alla gestione dei dati di IBM per scoprire come effettuare un investimento ottimale nella giusta base di dati aperta e affidabile.

Casi d'uso della trasformazione dei dati

Standardizzando i set di dati e preparandoli per la successiva elaborazione, la trasformazione dei dati rende possibili diverse pratiche aziendali cruciali in materia. I motivi più comuni per la trasformazione dei dati nel mondo degli affari includono:

Business intelligence

Le organizzazioni trasformano i dati per utilizzarli in applicazioni di business intelligence come dashboard in tempo reale e report di previsione, consentendo un processo decisionale basato sui dati che tiene conto di grandi quantità di informazioni. 

Data warehousing

La trasformazione dei dati prepara i dati per lo storage e la gestione in un data warehouse o in un data lake, facilitando interrogazioni e analisi efficienti.

Apprendimento automatico

I modelli di apprendimento automatico richiedono dati puliti e organizzati. Garantire che i dati siano affidabili e nel formato corretto consente alle organizzazioni di utilizzarli per la formazione e l'ottimizzazione degli strumenti di intelligenza artificiale (AI).

big data analytics

Prima che i big data possano essere analizzati per la business intelligence, le ricerche di mercato o altre applicazioni, devono essere raccolti e formattati in modo appropriato. 

Migrazione dei dati

Lo spostamento dei dati da vecchi sistemi on-premise a piattaforme moderne come un data warehouse cloud o un data lakehouse spesso comporta complesse trasformazioni dei dati. 

Processo di trasformazione dei dati

Le trasformazioni dei dati in genere seguono un processo strutturato per produrre dati utilizzabili e preziosi a partire dalla loro forma non elaborata. Le fasi comuni in un processo di trasformazione dei dati comprendono:

1. Data discovery

Durante il processo di discovery, vengono raccolti i dati di origine. Questo processo potrebbe includere l'estrazione di dati non elaborati da API, un SQL database o file interni in formati eterogenei. Nell'individuare ed estrarre queste informazioni, i professionisti dei dati assicurano che le informazioni raccolte siano complete e pertinenti per la loro eventuale applicazione. Durante il processo di discovery, gli ingegneri iniziano anche a scoprire le caratteristiche e la struttura dei dati in un processo noto come profilazione dei dati.

2. Pulizia dei dati

La preparazione dei dati e la pulizia richiedono l'identificazione e la correzione di errori, incongruenze e imprecisioni nei dati non elaborati. Questo passaggio garantisce la qualità e l'affidabilità dei dati rimuovendo duplicati e outlier o gestendo i missing values. 

3. Mappatura dei dati

La mappatura dei dati comporta la creazione di uno schema o di un processo di mappatura per guidare il processo di trasformazione. Durante questo processo, gli ingegneri dei dati definiscono come gli elementi del sistema di origine corrispondono a elementi specifici nel formato di destinazione. 

4. Generazione di codice

Utilizzando uno strumento di terze parti o generando codice internamente, durante questo passaggio un'organizzazione crea il codice che trasformerà i dati. 

5. Esecuzione e convalida del codice

Durante questa fase, la trasformazione vera e propria avviene quando il codice viene applicato ai dati non elaborati. I dati trasformati vengono caricati nel sistema di destinazione per ulteriori analisi o elaborazioni. I dati trasformati e il modello di dati vengono quindi convalidati per garantire coerenza e correttezza. 

6. Revisione

Durante il processo di revisione, gli analisti di dati, gli ingegneri o gli utenti finali esaminano i dati di output, confermando che soddisfino i requisiti. 

Trasformazione dei dati ETL vs. ELT

ETL (extract, transform, load) ed ELT (extract, load, transform) sono due processi di trasformazione dei dati utilizzati di frequente e che implementano tecniche di pipeline di dati leggermente differenti. Ognuno di questi processi presenta vantaggi e svantaggi a seconda delle dimensioni e della complessità della trasformazione.

Estrazione, trasformazione, caricamento: trasformazione dei dati in un'area di staging

Nel processo ETL, un sottoinsieme predeterminato di dati strutturati viene estratto dalla sua fonte, dove viene trasformato in un'area di staging o in un server di elaborazione secondario prima di essere caricato nel sistema di destinazione. L'ETL è più adatto per lo storage on premise e set di dati più piccoli. Tuttavia, l'ETL può essere preferibile in scenari con esigenze specifiche di qualità e coerenza dei dati, in quanto è possibile introdurre fasi di pulizia e convalida dei dati più rigorose. L'ETL può anche essere necessario per proteggere i dati sensibili, come le informazioni protette dall'HIPAA, durante la migrazione. 

Estrarre, caricare, trasformare: trasformazione dei dati nel cloud 

Nel processo ELT, le informazioni vengono estratte dalle fonti di dati e caricate nel sistema di destinazione basato su cloud, dove vengono quindi trasformate. Questo approccio, dal momento che sfrutta la potenza del cloud computing, consente in genere un'elaborazione più rapida e una gestione dei dati più agile. Può essere utilizzato anche con dati non strutturati come le immagini. Con il vantaggio della potenza di elaborazione e di storage basata sul cloud, il processo ELT beneficia di una maggiore scalabilità.

Tipi di trasformazione dei dati

I data scientist e gli ingegneri utilizzano diverse tecniche distinte durante il processo di trasformazione dei dati. Le tattiche da utilizzare dipendono esclusivamente dal progetto e dall'uso previsto dei dati, anche se possono essere utilizzati congiuntamente diversi metodi come parte di un processo complesso.

  • Pulizia dei dati: la pulizia dei dati migliora la qualità dei dati correggendo errori e incongruenze, ad esempio eliminando i record duplicati.
  • Aggregazione di dati: l'aggregazione di dati riassume i dati unendo più record in un unico valore o set di dati.
  • Normalizzazione dei dati: la normalizzazione standardizza i dati portando tutti i valori in una scala o formato comune, ad esempio i valori numerici da 1 a 10.
  • Codifica dei dati: La codifica converte i dati categorici in un formato numerico, semplificandone l'analisi. Ad esempio, la codifica dei dati potrebbe assegnare un numero univoco a ciascuna delle categorie di dati.
  • Arricchimento dei dati: l'arricchimento dei dati migliora i dati aggiungendo informazioni pertinenti da fonti esterne, come ad esempio dati demografici di terze parti o metadati pertinenti.
  • Imputazione dei dati: l'imputazione dei dati sostituisce i dati mancanti con valori plausibili. Ad esempio, potrebbe sostituire i valori mancanti con il valore mediano o medio.
  • Suddivisione dei dati: la suddivisione dei dati suddivide i dati in sottoinsiemi per scopi diversi. Ad esempio, gli ingegneri potrebbero suddividere un set di dati per utilizzarne uno per l'addestramento e l'altro per i test nell'apprendimento automatico.
  • Discretizzazione dei dati: nella discretizzazione dei dati, i dati vengono convertiti in bucket o intervalli discreti in un processo talvolta denominato binning. Ad esempio, la discretizzazione potrebbe essere utilizzata in campo sanitario per tradurre dati come l'età del paziente in categorie quali "bambino" o "adulto".
  • Generalizzazione dei dati: la generalizzazione astrae set di dati di grandi dimensioni in un modulo di livello superiore o riassuntivo, riducendo i dettagli e rendendo i dati più facili da comprendere.
  • Visualizzazione dei dati: la visualizzazione dei dati rappresenta graficamente i dati, rivelando modelli o insight che potrebbero non essere immediatamente evidenti.
Strumenti di trasformazione dei dati

Sebbene sia possibile eseguire una trasformazione dei dati impiegando solo ingegneri interni, numerosi servizi di terze parti facilitano il processo di conversione e migrazione. Alcuni dei servizi più comuni comprendono:

  • Strumenti ETL ed ELT: strumenti come Apache NiFi e Informatica facilitano un processo ETL o ELT plug-and-play.
  • Piattaforme di integrazione dei dati: una serie di strumenti come IBM® Cloud Pak for Data supportano l'integrazione dei dati e l'elaborazione in tempo reale.
  • Strumenti di preparazione dei dati: questi strumenti sono progettati specificamente per la pulizia e la trasformazione dei dati prima di una trasformazione o migrazione dei dati.
  • Linguaggi di programmazione: linguaggi di programmazione come Python e R, con librerie come i panda open source, offrono funzionalità affidabili per la trasformazione dei dati.
Vantaggi della trasformazione dei dati

La trasformazione è una fase cruciale nel trattamento dei dati. Migliora la capacità di analisi, reporting, processo decisionale e storage di un'organizzazione. I vantaggi fondamentali includono:

Qualità dei dati migliorata 

La trasformazione dei dati include processi come la pulizia dei dati, che migliora la qualità complessiva di un set di dati. Con dati migliori e architetture di dati ben definite, le organizzazioni migliorano l'efficienza operativa in aree come la gestione dell'inventario e l'elaborazione degli ordini. Dati migliori migliorano anche l'esperienza del cliente, fornendo una visione a 360 gradi dei consumatori attuali e potenziali. 

Migliore compatibilità e integrazione dei dati

La trasformazione dei dati standardizza i formati e le strutture dei dati, semplificando l'integrazione delle informazioni in un set di dati coeso. Abbattendo i silo di dati e facendo convergere le informazioni provenienti da reparti o sistemi diversi, un'organizzazione elimina le incongruenze e ottiene una visione unificata dell'attività.

Visualizzazione dei dati migliorata

In genere, i dati trasformati sono più organizzati e strutturati, semplificando così la creazione di visualizzazioni significative che comunicano gli insight in modo efficace. Le visualizzazioni aiutano i responsabili delle decisioni a individuare tendenze oppure opportunità e possono presentare dati fondamentali, come le pipeline di vendita o di approvvigionamento, quasi in tempo reale.

Migliore accessibilità dei dati

La trasformazione dei dati converte dati complessi o non strutturati in formati più facili da comprendere, accedervi e analizzare. Le organizzazioni utilizzano questi dati per creare previsioni avanzate di mercato o identificare aree di miglioramento. 

Sicurezza e conformità avanzate

La trasformazione dei dati può includere l'anonimizzazione e la crittografia dei dati, la protezione delle informazioni sensibili e il rispetto delle normative sulla privacy. Tale sicurezza rimane fondamentale per i settori altamente regolamentati, come la sanità e la finanza, nonché per le organizzazioni che operano in più aree geografiche con leggi sulla privacy diverse.

Migliore scalabilità e flessibilità 

I dati trasformati sono spesso più flessibili e semplici da razionalizzare, facilitando l'adattamento a nuovi casi d'uso o l'aumento dell'elaborazione dei dati man mano che la quantità di dati aumenta. I dati scalabili garantiscono la crescita di un'organizzazione senza svariate e costose riorganizzazioni e implementazioni IT.  

Soluzioni e prodotti correlati
Consulenza su dati e analisi IBM

Scopri il valore dei dati aziendali e crea un'organizzazione basata su insight in grado di offrire vantaggi aziendali con IBM® Consulting.

Esplora i servizi di consulenza per dati e analytics di IBM

Piattaforma IBM DataOps

Con la piattaforma IBM DataOps, le organizzazioni eliminano la distinzione tra team focalizzati sui dati e sullo sviluppo, aumentando l'efficienza in tutto, dalla correzione dei bug alla definizione degli obiettivi. 

Esplora la piattaforma IBM DataOps

Gestione dei dati IBM

Le soluzioni IBM per i dati e l'AI consentono alle organizzazioni di utilizzare i dati aziendali per migliorare la resilienza, l'affidabilità e l'efficacia dei costi senza sacrificare la sicurezza o la qualità dei dati.

Esplora i prodotti di gestione dei dati di IBM

IBM watsonx.data

IBM watsonx.data consente alle organizzazioni di scalare l'AI e l'analytics con tutti i loro dati, ovunque risiedano. 

Esplora IBM® watsonx.data

Prodotti Data Fabric IBM

Le moderne architetture dei dati, come il data fabric, possono aiutare a plasmare e unificare un'azienda basata sui dati, guidando il processo decisionale e aumentando la qualità della governance e dell'integrazione dei dati.

Esplora i prodotti Data Fabric di IBM
Risorse AI Academy: gestione dei dati

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa e scopri come i dati aziendali possono aumentare la produttività.

IBM watsonx.data

Esplora l'esperienza di prova di watsonx.data seguendo Amelia, la data engineer, mentre si connette alle sue origini dati esterne, accede ed esegue query sui dati e li trasferisce dal suo data warehouse per ottimizzare i costi.

The Data Differentiator

Esplora le risorse per la leadership dei dati utilizzando questa guida, che ti aiuterà a implementare la strategia, le tecnologie e la cultura fondamentali per guidare un'organizzazione basata sui dati alimentata dall'AI.

Migliorare la visibilità della supply chain farmaceutica per la sicurezza dei pazienti

Scopri come IBM e la National Association of Boards of Pharmacy (NABP) hanno centralizzato un hub digitale per aumentare la trasparenza e preservare l'integrità della supply chain dei farmaci.

La virtualizzazione dei dati unifica i dati per una perfetta attività di AI e analisi

Scopri in che modo la virtualizzazione dei dati semplifica l'unione dei dati provenienti da fonti diverse e come alimenta l'apprendimento automatico abbattendo i silo di dati.

Rivoluziona l'analisi e l'indagine dei dati non strutturati per combattere frodi e criminalità organizzata

Scopri come IBM watsonx.data e Cogniware hanno unificato i dati provenienti da fonti eterogenee per visualizzare le connessioni ed esaminare le attività delle persone oggetto di indagine.

Fai il passo successivo

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno strumento aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una quantità di dati minima.

Esplora watsonx.ai Prenota una demo live