Il data wrangling è il processo di pulizia, strutturazione e arricchimento dei dati non elaborati da utilizzare nelle applicazioni di data science, machine learning (ML) e in altre applicazioni basate sui dati.
Noto anche come munging o preparazione dei dati, il data wrangling è un modo per risolvere problemi di qualità dei dati come missing value, duplicati, outlier e incongruenze di formattazione. L'obiettivo del data wrangling è quello di trasformare dati grezzi, non strutturati o problematici in set di dati puliti che possano essere analizzati in modo efficace. Il data wrangling aiuta i data scientist, i data analyst e altri utenti aziendali ad applicare i dati in modi che supportano un processo decisionale informato.
Le organizzazioni hanno attualmente accesso a una valanga di dati provenienti da diverse fonti. Tuttavia, questi dati non elaborati possono essere disordinati, incoerenti o inadatti all'uso con vari processi e strumenti che li trasformano in insight preziosi. Senza un'adeguata gestione dei dati, i risultati dell'analisi dei dati possono essere fuorvianti. Le aziende potrebbero trarre conclusioni imprecise e prendere decisioni aziendali errate.
Il data wrangling è fondamentale per supportare risultati di alta qualità. Trasforma e mappa i dati attraverso una serie di passaggi per renderli puliti, uniformi, affidabili e utili per l'applicazione prevista. I set di dati risultanti vengono utilizzati per attività come la creazione di modelli di machine learning, l'esecuzione di data analytics, la creazione di visualizzazioni dei dati, la generazione di report di business intelligence e per prendere decisioni esecutive informate.
Via via che le tecnologie basate sui dati, inclusa l'intelligenza artificiale (AI), diventano più avanzate, la gestione dei dati diventa più importante. I modelli AI sono validi solo nella misura in cui lo sono anche i dati di addestramento.
Il processo di data wrangling consente di garantire l'accuratezza delle informazioni utilizzate per sviluppare e migliorare i modelli. Questo processo migliora l'interpretabilità, poiché i dati puliti e ben strutturati sono più facili da comprendere per gli esseri umani e gli algoritmi. Aiuta inoltre con l'integrazione dei dati, facilitando la combinazione e l'interconnessione di informazioni provenienti da fonti eterogenee.
Il processo di elaborazione dei dati segue in genere questi passaggi:
Questa fase iniziale si concentra sulla valutazione della qualità del set completo di dati, comprese le fonti e i formati di dati. I dati provengono da database, application programming interface (API), file CSV, web scraping o altre fonti? Come sono strutturati? Come saranno utilizzati?
Il processo di scoperta evidenzia e risolve i problemi di qualità, come dati mancanti, incongruenze di formattazione, errori o bias e outlier che potrebbero distorcere l'analisi. I risultati sono in genere documentati in un report sulla qualità dei dati o in un documento più tecnico noto come rapporto di profilazione dei dati, che include statistiche, distribuzioni e altri risultati.
La fase di strutturazione dei dati, talvolta chiamata trasformazione dei dati, si concentra sull'organizzazione dei dati in un formato unificato, affinché siano adatti all'analisi. Comprende:
La pulizia dei dati implica la gestione dei missing value, la rimozione dei duplicati e la correzione di errori o incongruenze. Questo processo potrebbe anche comportare l'attenuazione dei dati «rumorosi», ovvero l'applicazione di tecniche che riducano l'impatto di variazioni casuali o altri problemi nei dati. Durante la pulizia, è importante evitare inutili perdite o pulizie eccessive dei dati, che potrebbero rimuovere informazioni preziose o distorcere i dati.
L'arricchimento dei dati comporta l'aggiunta di nuove informazioni ai set di dati esistenti per aumentarne il valore. Noto anche come data augmentation, implica la valutazione di quali siano le informazioni aggiuntive necessarie e da dove potrebbero provenire. Le informazioni aggiuntive devono essere poi integrate con il set di dati esistenti e pulite nello stesso modo dei dati originali.
L'arricchimento dei dati potrebbe comportare l'inserimento di dati demografici, geografici, comportamentali o ambientali rilevanti per il caso d'uso previsto. Ad esempio, se il progetto di gestione dei dati è correlato alle operazioni della supply chain, arricchire i dati sulle spedizioni con informazioni meteorologiche potrebbe aiutare a prevedere i ritardi.
Questo passaggio comporta la verifica dell'accuratezza e della coerenza dei dati elaborati. Innanzitutto,devono essere stabilite delle regole di convalida in base alla logica di business, ai vincoli dei dati e ad altre problematiche. Vengono quindi applicate tecniche di convalida, ad esempio:
Dopo un'accurata convalida, un'azienda potrebbe pubblicare i dati elaborati o prepararli per l'uso nelle applicazioni. Questo processo potrebbe comportare il caricamento dei dati in un data warehouse, la creazione di visualizzazioni dei dati o l'esportazione dei dati in un formato specifico da utilizzare con algoritmi di machine learning automatico.
Il processo di gestione dei dati può richiedere molto tempo, soprattutto perché il volume di dati complessi continua a crescere. Di fatto, la ricerca suggerisce che la preparazione dei dati e il lavoro per trasformarli in forme utilizzabili occupano tra il 45% e l'80% del tempo di un analista di dati. 1 2
Il data wrangling richiede un certo livello di competenza tecnica in linguaggi di programmazione, tecniche di manipolazione dei dati e strumenti specializzati. Tuttavia migliora la qualità dei dati e supporta un'analisi dei dati più efficiente ed efficace.
Le organizzazioni utilizzano vari strumenti e tecnologie per raccogliere dati provenienti da diverse fonti e integrarli in una pipeline di dati che supporta le esigenze aziendali complessive. Questi includono:
Python e R sono ampiamente utilizzati per attività di data wrangling, tra cui data mining, manipolazione e analisi. Il linguaggio di query strutturato (SQL) è essenziale per lavorare con database relazionali e gestione dei dati.
I data wrangler utilizzano strumenti come Microsoft Excel e Google Sheets per la pulizia e la manipolazione dei dati di base, in particolare per i set di dati più piccoli.
Gli strumenti di data wrangling forniscono un'interfaccia visiva per la pulizia e la trasformazione dei dati, aiutando a semplificare i workflow e ad automatizzare le attività. Ad esempio, lo strumento di affinamento dei dati disponibile nelle piattaforme IBM può trasformare rapidamente i dati non elaborati in una forma utilizzabile per l'analytics e altri scopi.
Le piattaforme di big data aiutano a gestire set di dati complessi e su larga scala fornendo gli strumenti e le funzionalità di scalabilità necessari per gestire il volume e la varietà dei big data. Piattaforme come Apache Hadoop e Apache Spark sono utilizzate per il wrangling di set di dati di grandi dimensioni. Utilizzano le tecnologie dei big data per trasformare le informazioni in una forma utilizzabile per l'analytics e il processo decisionale di alto livello.
L'AI supporta la gestione dei dati attraverso l'automazione e l'analisi avanzata. I modelli e gli algoritmi di machine learning potrebbero rivelarsi utili per risolvere problemi quali il rilevamento degli outlier e la scalabilità. Altri strumenti di AI possono elaborare rapidamente grandi set di dati, gestire trasformazioni in tempo reale e riconoscere i modelli per guidare le attività di pulizia. Le interfacce di elaborazione del linguaggio naturale (NLP) consentono agli utenti di interagire con i dati in modo intuitivo, riducendo potenzialmente le barriere tecniche.
Tutti i link sono esterni a ibm.com
1 State of Data Science, Anaconda, luglio 2020.
2 Hellerstein et al. Principles of Data Wrangling. O'Reilly Media. Luglio 2017.
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Scopri come un approccio di data lakehouse aperto può fornire dati affidabili e maggior rapidità in termini di analytics ed esecuzione dei progetti di AI.
Usa questo ebook per allinearti con altri leader sui 3 obiettivi chiave di MLOps e dell'AI affidabile: fiducia nei dati, fiducia nei modelli e fiducia nei processi.
Scopri perché data intelligence e integrazione dei dati basate su AI sono critiche per guidare la preparazione dei dati strutturati e non strutturati e accelerare i risultati dell'AI.
Esplora la guida per i leader dei dati che desiderano creare un'organizzazione basata sui dati e ottenere un vantaggio aziendale.
Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.
Scopri come incorporare l'AI generativa, il machine learning e i foundation model nelle operazioni di business per migliorare le prestazioni.
Scopri perché disporre di una completa libertà nella scelta dei linguaggi di programmazione, degli strumenti e dei framework migliora il pensiero creativo e l'evoluzione.
Usa strumenti e soluzioni di data science per scoprire modelli e creare previsioni utilizzando dati, algoritmi, tecniche di machine learning e AI.
Introduzione a Cognos Analytics 12.0, insight basati sull'AI per prendere decisioni migliori.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.