Cos'è la pulizia dei dati?

Una persona che guarda uno schermo digitale sfuocato

Autori

Julie Rogers

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Cos'è la pulizia dei dati?

L'obiettivo della pulizia dei dati è quello di garantire che i dati siano accurati, completi, coerenti e utilizzabili per l'analisi o il processo decisionale. I processi di pulizia dei dati affrontano problemi comuni della qualità dei dati come duplicati, valori mancanti, incongruenze, errori di sintassi, dati irrilevanti ed errori strutturali.

La pulizia dei dati è anche una componente fondamentale di una efficace gestione dei dati, per garantire che i dati rimangano accurati, sicuri e accessibili in ogni fase del loro ciclo di vita.

I dati di alta qualità o "puliti" sono fondamentali per l'adozione efficace dell'intelligenza artificiale (IA) e degli strumenti di automazione. Le organizzazioni possono anche utilizzare l'AI per semplificare il processo di pulizia dei dati

.
Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Perché la pulizia dei dati è importante?

Le organizzazioni con dati puliti e ben gestiti sono meglio attrezzate per prendere decisioni affidabili e basate sui dati, così come per rispondere rapidamente ai cambiamenti del mercato e semplificare le operazioni dei workflow.

La pulizia dei dati è un componente integrante della data science, in quanto rappresenta un primo passo essenziale per la trasformazione dei dati: la pulizia dei dati migliora la qualità dei dati, mentre la trasformazione dei dati converte i dati non elaborati di qualità in un formato utilizzabile per l'analisi.

La trasformazione dei dati consente alle organizzazioni di sbloccare tutto il potenziale dei dati al fine di utilizzare la business intelligence (BI), i data warehouse e l'analytics dei big data. Se i dati di origine non sono puliti, gli output di questi strumenti e tecnologie potrebbero essere inaffidabili o imprecisi, portando a decisioni sbagliate e a inefficienze.

Allo stesso modo, i dati puliti sono alla base del successo dell'AI e del machine learning (ML) in un'organizzazione. Ad esempio, la pulizia dei dati aiuta a garantire che gli algoritmi di apprendimento automatico siano addestrati su set di dati accurati, coerenti e imparziali. Senza questa base di dati puliti, gli algoritmi potrebbero produrre previsioni imprecise, incoerenti o distorte, riducendo l'efficacia e l'affidabilità del processo decisionale.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Quali sono i benefici della pulizia dei dati?

I vantaggi fondamentali della pulizia dei dati includono:

  • Processo decisionale informato
  • Miglioramento della produttività
  • Convenienza
  • Conformità e sicurezza dei dati
  • Prestazioni del modello migliorate
  • Migliore coerenza dei dati

Processo decisionale informato

Le decisioni basate su dati puliti e di alta qualità hanno maggiori probabilità di essere efficaci e in linea con gli obiettivi aziendali. Al contrario, le decisioni aziendali basate su dati sporchi, ovvero con dati duplicati, errori tipografici (refusi) o incongruenze, possono comportare sprechi di risorse, opportunità mancate o passi falsi strategici.

Miglioramento della produttività

I dati puliti consentono ai dipendenti di dedicare meno tempo a correggere errori e incongruenze, accelerando l'elaborazione dei dati. I team hanno quindi più tempo per concentrarsi sull'analisi dei dati e sugli insight.

Convenienza

Una scarsa qualità dei dati può portare a errori costosi, come un eccesso di scorte di inventario a causa di record duplicati o un'interpretazione errata del comportamento dei clienti a causa di dati incompleti. La pulizia dei dati aiuta a prevenire questi errori, a risparmiare denaro e a ridurre i rischi operativi.

Conformità e sicurezza dei dati

Dati puliti possono aiutare le organizzazioni a rispettare le normative sulla protezione dei dati, come il Regolamento generale sulla protezione dei dati (GDPR) dell'Unione Europea, mantenendo i dati accurati e aggiornati. Inoltre, impedisce la conservazione accidentale di informazioni ridondanti o sensibili, riducendo i rischi per la sicurezza.

Prestazioni del modello migliorate

La pulizia dei dati è essenziale per l'addestramento di efficaci modelli di apprendimento automatico. I dati puliti migliorano l'accuratezza degli output e aiutano a garantire che i modelli si generalizzino bene ai nuovi dati, portando a previsioni più solide

.

Maggiore coerenza dei dati

La pulizia dei dati aiuta a garantire che i dati combinati siano coerenti e utilizzabili tra i vari sistemi, evitando i problemi che possono derivare da formati o standard di dati contrastanti. Questo è importante per l'integrazione dei dati, dove dati puliti e standardizzati aiutano a garantire che sistemi eterogenei possano comunicare e condividere i dati in modo efficace.

Tecniche di pulizia dei dati

La pulizia dei dati inizia in genere con la valutazione dei dati. Anche nota come profilazione dei dati, questa valutazione comporta la revisione di un set di dati per identificare i problemi di qualità che richiedono una correzione. Una volta identificate, le organizzazioni potrebbero utilizzare varie tecniche di pulizia dei dati, tra cui:

  • Standardizzazione
  • Gestione degli outlier
  • Deduplica
  • Gestione dei valori mancanti
  • Convalida

Standardizzazione

Le incongruenze si verificano quando i dati sono rappresentati in formati o strutture diverse all'interno dello stesso set di dati. Ad esempio, una discrepanza comune è il formato della data, come "MM-GG-AAAA" rispetto a "GG-MM-AAAA". La standardizzazione dei formati e delle strutture può aiutare a garantire l'uniformità e la compatibilità per un'analisi accurata.

Gestione degli outlier

Gli outlier sono punti di dati che si discostano in modo significativo dagli altri in una serie di dati, a causa di errori, eventi rari o vere e proprie anomalie. Questi valori estremi possono distorcere l'analisi e l'accuratezza del modello, alterando le medie o le tendenze. I professionisti della gestione dei dati possono gestire gli outlier valutando se si tratta di errori di dati o di valori significativi. Possono quindi decidere di mantenere, regolare o rimuovere questi outlier in base alla loro rilevanza ai fini dell'analisi.

Deduplica

La deduplica dei dati è un processo di semplificazione in cui i dati ridondanti vengono ridotti eliminando copie extra delle stesse informazioni. I record duplicati si verificano quando lo stesso punto dati viene ripetuto a causa di problemi di integrazione, errori di immissione manuale dei dati o problemi tecnici del sistema. I duplicati possono gonfiare i set di dati o distorcere l'analisi, portando a conclusioni imprecise.

Gestione dei valori mancanti

I valori mancanti si verificano quando i punti dati sono assenti a causa di una raccolta dati incompleta, errori di input o guasti del sistema. Queste lacune possono distorcere l'analisi, ridurre l'accuratezza del modello e limitare l'utilità del set di dati. Per risolvere questo problema, i professionisti dei dati potrebbero sostituire i valori mancanti con dati stimati, rimuovere le voci incomplete o contrassegnare i valori mancanti per ulteriori indagini.

Convalida

Un controllo finale al termine del processo di pulizia dei dati è fondamentale per verificare che i dati siano puliti, accurati e pronti per l'analisi o la visualizzazione. La convalida dei dati spesso comporta l'utilizzo di strumenti di controllo manuale o di pulizia automatizzata dei dati per verificare la presenza di eventuali errori rimanenti, dati incoerenti o anomalie.

Utilizzare l'AI per la pulizia dei dati

Data scientist, data analyst, data engineer e altri professionisti della gestione dei dati possono eseguire tecniche di pulizia dei dati attraverso metodi manuali, come l'ispezione visiva, i riferimenti incrociati o le tabelle pivot nei fogli di calcolo di Microsoft Excel.

Potrebbero anche usare linguaggi di programmazione come Python, SQL e R per eseguire script e automatizzare il processo di pulizia dei dati. Molti di questi approcci sono supportati da strumenti open source, che forniscono flessibilità e soluzioni convenienti per organizzazioni di qualsiasi dimensione.

Tuttavia, l'AI può essere utilizzato anche per automatizzare e ottimizzare diverse fasi della pulizia dei dati, tra cui:

  • Analisi dei dati di origine: gli strumenti di pulizia dei dati basati su AI possono identificare automaticamente pattern, anomalie e incongruenze nei dati di origine. L'AI può anche suggerire regole aziendali pertinenti analizzando le tendenze e le relazioni dei dati, riducendo così le attività manuali nella definizione di queste regole. Ad esempio, l'AI può identificare che in una colonna di numeri di telefono spesso mancano i prefissi e quindi suggerire una regola per la standardizzazione
  • Standardizzazione dei dati: le tecniche di elaborazione del linguaggio naturale (NLP) possono standardizzare il testo non strutturato, come la formattazione degli indirizzi o le descrizioni dei prodotti. I modelli di machine learning possono anche identificare e consigliare formati coerenti per i dati, ad esempio date o valute. I generatori di espressioni regolari basati su AI possono automatizzare il rilevamento e la normalizzazione di formati incoerenti.
  • Consolidamento dei duplicati: i modelli AI possono decidere quale sia il record migliore che deve "sopravvivere" quando si eliminano i duplicati, considerandone l'accuratezza, l'attualità o l'affidabilità. Ad esempio, i modelli possono assegnare priorità a campi specifici in base al contesto, magari mantenendo l'e-mail più recente nel record consolidato.
  • Applicazione delle regole: i modelli AI possono automatizzare la creazione e l'applicazione delle regole di pulizia dei dati apprendendo dalle correzioni storiche e dal feedback. Possono applicare queste regole in modo dinamico a più set di dati, contribuendo a garantire la coerenza tra i sistemi. I sistemi di AI possono anche generare regole personalizzate per settori specifici, come i numeri di Partita IVA nell'Unione Europea.
Soluzioni correlate
Software e soluzioni per la gestione dei dati

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati
IBM watsonx.data™

Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data