Che cos'è il data wrangling?

20 novembre 2024

Autori

Amanda McGrath

Writer, IBM

Alexandra Jonker

Editorial Content Lead

Che cos'è il data wrangling?

Il data wrangling è il processo di pulizia, strutturazione e arricchimento dei dati non elaborati da utilizzare nelle applicazioni di data science, machine learning (ML) e in altre applicazioni basate sui dati.

Noto anche come munging o preparazione dei dati, il data wrangling è un modo per risolvere problemi di qualità dei dati come missing value, duplicati, outlier e incongruenze di formattazione. L'obiettivo del data wrangling è quello di trasformare dati grezzi, non strutturati o problematici in set di dati puliti che possano essere analizzati in modo efficace. Il data wrangling aiuta i data scientist, i data analyst e altri utenti aziendali ad applicare i dati in modi che supportano un processo decisionale informato.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Perché il data wrangling è importante?

Le organizzazioni hanno attualmente accesso a una valanga di dati provenienti da diverse fonti. Tuttavia, questi dati non elaborati possono essere disordinati, incoerenti o inadatti all'uso con vari processi e strumenti che li trasformano in insight preziosi. Senza un'adeguata gestione dei dati, i risultati dell'analisi dei dati possono essere fuorvianti. Le aziende potrebbero trarre conclusioni imprecise e prendere decisioni aziendali errate.

Il data wrangling è fondamentale per supportare risultati di alta qualità. Trasforma e mappa i dati attraverso una serie di passaggi per renderli puliti, uniformi, affidabili e utili per l'applicazione prevista. I set di dati risultanti vengono utilizzati per attività come la creazione di modelli di machine learning, l'esecuzione di data analytics, la creazione di visualizzazioni dei dati, la generazione di report di business intelligence e per prendere decisioni esecutive informate.

Via via che le tecnologie basate sui dati, inclusa l'intelligenza artificiale (AI), diventano più avanzate, la gestione dei dati diventa più importante. I modelli AI sono validi solo nella misura in cui lo sono anche i dati di addestramento.

Il processo di data wrangling consente di garantire l'accuratezza delle informazioni utilizzate per sviluppare e migliorare i modelli. Questo processo migliora l'interpretabilità, poiché i dati puliti e ben strutturati sono più facili da comprendere per gli esseri umani e gli algoritmi. Aiuta inoltre con l'integrazione dei dati, facilitando la combinazione e l'interconnessione di informazioni provenienti da fonti eterogenee.

Mixture of Experts | Podcast

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Il processo di data wrangling

Il processo di elaborazione dei dati segue in genere questi passaggi:

  • Scoperta
  • Strutturazione
  • Pulizia
  • Arricchimento
  • Convalida

Scoperta

Questa fase iniziale si concentra sulla valutazione della qualità del set completo di dati, comprese le fonti e i formati di dati. I dati provengono da database, application programming interface (API), file CSV, web scraping o altre fonti? Come sono strutturati? Come saranno utilizzati?

Il processo di scoperta evidenzia e risolve i problemi di qualità, come dati mancanti, incongruenze di formattazione, errori o bias e outlier che potrebbero distorcere l'analisi. I risultati sono in genere documentati in un report sulla qualità dei dati o in un documento più tecnico noto come rapporto di profilazione dei dati, che include statistiche, distribuzioni e altri risultati.

Strutturazione

La fase di strutturazione dei dati, talvolta chiamata trasformazione dei dati, si concentra sull'organizzazione dei dati in un formato unificato, affinché siano adatti all'analisi. Comprende:

  • Aggregazione: combinazione di righe di dati utilizzando statistiche di riepilogo e raggruppamento dei dati in base a determinate variabili.

  • Pivoting: spostamento dei dati tra righe e colonne o trasformazione dei dati in altri formati per prepararli all'utilizzo.

  • Unire: unione dei dati di più tabelle e unione delle informazioni correlate provenienti da fonti eterogene.

  • Conversione del tipo di dati: modifica del tipo di dati di una variabile per facilitare l'esecuzione di calcoli e l'applicazione di metodi statistici.

Pulizia

La pulizia dei dati implica la gestione dei missing value, la rimozione dei duplicati e la correzione di errori o incongruenze. Questo processo potrebbe anche comportare l'attenuazione dei dati «rumorosi», ovvero l'applicazione di tecniche che riducano l'impatto di variazioni casuali o altri problemi nei dati. Durante la pulizia, è importante evitare inutili perdite o pulizie eccessive dei dati, che potrebbero rimuovere informazioni preziose o distorcere i dati.

Arricchimento

L'arricchimento dei dati comporta l'aggiunta di nuove informazioni ai set di dati esistenti per aumentarne il valore. Noto anche come data augmentation, implica la valutazione di quali siano le informazioni aggiuntive necessarie e da dove potrebbero provenire. Le informazioni aggiuntive devono essere poi integrate con il set di dati esistenti e pulite nello stesso modo dei dati originali.

L'arricchimento dei dati potrebbe comportare l'inserimento di dati demografici, geografici, comportamentali o ambientali rilevanti per il caso d'uso previsto. Ad esempio, se il progetto di gestione dei dati è correlato alle operazioni della supply chain, arricchire i dati sulle spedizioni con informazioni meteorologiche potrebbe aiutare a prevedere i ritardi.

Convalida

Questo passaggio comporta la verifica dell'accuratezza e della coerenza dei dati elaborati. Innanzitutto,devono essere stabilite delle regole di convalida in base alla logica di business, ai vincoli dei dati e ad altre problematiche. Vengono quindi applicate tecniche di convalida, ad esempio:

  • Convalida del tipo di dati: aiuta a garantire la correttezza dei tipi di dati.

  • Controlli dell'intervallo o del formato: per verificare che i valori rientrino in intervalli accettabili e rispettino determinati formati.

  • Controlli di coerenza: assicurano che ci sia un accordo logico tra le variabili correlate.

  • Controlli di unicità: verificano che alcune variabili (come i numeri ID cliente o prodotto) abbiano valori univoci.

  • Convalida cross-field: verifica delle relazioni logiche tra variabili (ad esempio, età e data di nascita).

  • Analisi statistica: identifica gli outlier o le anomalie utilizzando statistiche descrittive e visualizzazioni.

Dopo un'accurata convalida, un'azienda potrebbe pubblicare i dati elaborati o prepararli per l'uso nelle applicazioni. Questo processo potrebbe comportare il caricamento dei dati in un data warehouse, la creazione di visualizzazioni dei dati o l'esportazione dei dati in un formato specifico da utilizzare con algoritmi di machine learning automatico.

Il processo di gestione dei dati può richiedere molto tempo, soprattutto perché il volume di dati complessi continua a crescere. Di fatto, la ricerca suggerisce che la preparazione dei dati e il lavoro per trasformarli in forme utilizzabili occupano tra il 45% e l'80% del tempo di un analista di dati. 1 2

Il data wrangling richiede un certo livello di competenza tecnica in linguaggi di programmazione, tecniche di manipolazione dei dati e strumenti specializzati. Tuttavia migliora la qualità dei dati e supporta un'analisi dei dati più efficiente ed efficace.

Strumenti e tecnologie di data wrangling

Le organizzazioni utilizzano vari strumenti e tecnologie per raccogliere dati provenienti da diverse fonti e integrarli in una pipeline di dati che supporta le esigenze aziendali complessive. Questi includono:

  • Linguaggi di programmazione
  • Fogli di calcolo
  • Strumenti specializzati
  • Piattaforme per big data
  • Intelligenza artificiale

Linguaggi di programmazione

Python e R sono ampiamente utilizzati per attività di data wrangling, tra cui data mining, manipolazione e analisi. Il linguaggio di query strutturato (SQL) è essenziale per lavorare con database relazionali e gestione dei dati.

Fogli di calcolo

I data wrangler utilizzano strumenti come Microsoft Excel e Google Sheets per la pulizia e la manipolazione dei dati di base, in particolare per i set di dati più piccoli.

Strumenti specializzati

Gli strumenti di data wrangling forniscono un'interfaccia visiva per la pulizia e la trasformazione dei dati, aiutando a semplificare i workflow e ad automatizzare le attività. Ad esempio, lo strumento di affinamento dei dati disponibile nelle piattaforme IBM può trasformare rapidamente i dati non elaborati in una forma utilizzabile per l'analytics e altri scopi.

Piattaforme per big data

Le piattaforme di big data aiutano a gestire set di dati complessi e su larga scala fornendo gli strumenti e le funzionalità di scalabilità necessari per gestire il volume e la varietà dei big data. Piattaforme come Apache Hadoop e Apache Spark sono utilizzate per il wrangling di set di dati di grandi dimensioni. Utilizzano le tecnologie dei big data per trasformare le informazioni in una forma utilizzabile per l'analytics e il processo decisionale di alto livello.

Intelligenza artificiale

L'AI supporta la gestione dei dati attraverso l'automazione e l'analisi avanzata. I modelli e gli algoritmi di machine learning potrebbero rivelarsi utili per risolvere problemi quali il rilevamento degli outlier e la scalabilità. Altri strumenti di AI possono elaborare rapidamente grandi set di dati, gestire trasformazioni in tempo reale e riconoscere i modelli per guidare le attività di pulizia. Le interfacce di elaborazione del linguaggio naturale (NLP) consentono agli utenti di interagire con i dati in modo intuitivo, riducendo potenzialmente le barriere tecniche.

Note a piè di pagina

Tutti i link sono esterni a ibm.com

1 State of Data Science, Anaconda, luglio 2020.

2 Hellerstein et al. Principles of Data Wrangling. O'Reilly Media. Luglio 2017.

Soluzioni correlate
Strumenti e soluzioni di data science

Usa strumenti e soluzioni di data science per scoprire modelli e creare previsioni utilizzando dati, algoritmi, tecniche di machine learning e AI.

Esplora le soluzioni di data science
IBM Cognos Analytics

Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.

Esplora Cognos Analytics
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fasi successive

Usa strumenti e soluzioni di data science per scoprire modelli e creare previsioni utilizzando dati, algoritmi, tecniche di machine learning e AI.

Esplora le soluzioni di data science Esplora i servizi di analytics