Cos'è la convalida dei dati?

Un magazziniere con barba e giubbotto ad alta visibilità controlla un documento mentre tiene in mano un tablet in un magazzino con scaffali e scatole sullo sfondo.

Autori

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Cos'è la convalida dei dati?

La convalida dei dati è il processo con il quale si verifica che i dati siano puliti, accurati e pronti per essere utilizzati.
 

I dati validi rientrano nei limiti o negli intervalli consentiti, sono conformi ai formati di dati specificati, sono privi di errori e soddisfano i criteri di convalida specifici di un'organizzazione.

La convalida dei dati è una fase consolidata nei workflow di gestione dei dati: i dati non validi, infatti, possono creare problemi nell'analisi dei dati. Tuttavia, la sua urgenza e la sua importanza si sono moltiplicate con il crescere dell'impegno, da parte delle organizzazioni, a livelli di raccolta dei dati senza precedenti, per alimentare il processo decisionale basato sui dati e le iniziative di intelligenza artificiale (AI).

Perché la convalida dei dati è importante?

Le aziende accumulano attualmente grandi set di dati contenenti terabyte o petabyte di dati. Queste informazioni provengono da varie fonti di dati, come dispositivi Internet of Things (IoT) o social media, e vengono spesso trasferite nei data warehouse e in altri sistemi di destinazione. Tuttavia, le informazioni provenienti da un'ampia gamma di fonti, combinate con la portata delle massicce migrazioni di dati, possono porre le basi per una serie di problemi: formati diversi e discrepanze, dati duplicati, campi di dati incompleti, errori di immissione dei dati e persino data poisoning.

Questi problemi di qualità dei dati possono compromettere l'integrità dei dati e mettere in pericolo un processo decisionale informato. Inoltre, i dati non validi non creano solo grattacapi agli analisti, bensì sono anche un problema per ingegneri, data scientist e altri ruoli che lavorano con i modelli AI.

I modelli AI, inclusi i modelli di machine learning e i modelli di AI generativa, richiedono dati affidabili e accurati per l'addestramento e le prestazioni. Poiché un'efficace implementazione dell'AI diventa un vantaggio competitivo critico, le aziende non possono permettersi che dati non validi mettano a repentaglio le loro iniziative di AI. Le aziende utilizzano i processi di convalida dei dati per garantire che la qualità dei dati sia sufficiente per l'uso nell'analisi dei dati e nell'AI.

La convalida dei dati è diventata sempre più importante anche in relazione alla conformità normativa. Ad esempio, l'EU Artificial Intelligence Act prevede che la convalida dei dati per i sistemi di AI "ad alto rischio" sia soggetta a rigorose pratiche di governance dei dati.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Come funziona la convalida dei dati?

La convalida dei dati comporta l'istituzione e l'applicazione di regole aziendali e controlli di convalida dei dati.

Sebbene le diverse organizzazioni utilizzino regole e tecniche di convalida dei dati diverse, i tipi più comuni di controlli di convalida dei dati sono:

  • Controlli del codice
  • Controlli della coerenza
  • Controlli del tipo di dati
  • Controlli del formato
  • Controlli dell'intervallo di dati
  • Controlli dell'unicità

Controlli del codice

Un controllo del codice determina se un valore di dati è valido confrontandolo con un elenco di valori accettabili. Alcuni esempi includono i codici della nazione, i codici ISBN (International Standard Book Number) e i codici del North American Industry Classification System (NAICS) per la classificazione delle aziende.

Controlli della coerenza

I controlli della coerenza confermano che i dati di input sono logici e non sono in conflitto con altri valori. Ad esempio, in un database di coppie sposate, le date del fidanzamento dovrebbero essere precedenti alle date del matrimonio.

Controlli del tipo di dati

Un tipo di dati definisce il formato valido per i dati in una determinata colonna. Esempi di tipi di dati possono essere testo, numeri o date. Questo controllo identifica ogni valore che non corrisponde al tipo di dati selezionato in termini di lunghezza, precisione o scala o che viola il tipo di dati specificato.

Controlli del formato

I controlli del formato sono implementati per le colonne che hanno requisiti di formattazione dei dati specifici, come le colonne per numeri di telefono, indirizzi e-mail e date.

Controlli dell'intervallo di dati

I controlli dell'intervallo di dati determinano se i dati numerici rientrano in un intervallo predefinito di valori minimi e massimi. Ad esempio, una colonna di pressioni accettabili dei pneumatici dei veicoli potrebbe variare da 2-2,5 bar.

Controlli dell'unicità

I controlli di unicità si applicano alle colonne in cui ogni immissione di dati deve essere unica e non sono presenti valori duplicati.

Altri controlli utilizzati per la convalida dei dati includono i controlli della lunghezza (garantire il corretto numero di caratteri in un campo), i controlli della presenza (assicurarsi che i campi obbligatori non siano vuoti) e la convalida dello schema (garantire che i dati siano conformi a una struttura predefinita).

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Convalida dei dati, pulizia dei dati e gestione della qualità dei dati a confronto

La convalida dei dati viene spesso menzionata insieme alla pulizia dei dati, che è la correzione di errori e incongruenze nei set di dati grezzi. A volte la convalida dei dati è considerata una componente della pulizia dei dati, mentre in altri casi viene definita un processo distinto.

Sia la convalida che la pulizia dei dati sono elementi della gestione della qualità dei dati (DQM), una raccolta di pratiche per mantenere dati di alta qualità in un'organizzazione. Ulteriori processi DQM complementari includono la profilazione dei dati, il monitoraggio della qualità dei dati e la gestione dei metadati.

Strumenti per la convalida dei dati

Sebbene la convalida dei dati possa essere eseguita manualmente, può essere un'operazione ardua e dispendiosa in termini di tempo. Diversi strumenti possono aiutare i professionisti dei dati ad accelerare, automatizzare e semplificare il processo di convalida dei dati.

Software per fogli di calcolo

Un software per fogli di calcolo come Microsoft Excel offre funzionalità di convalida dei dati, come la possibilità di creare elenchi a discesa, formule personalizzate e limitare le voci a valori che soddisfino regole specifiche. Ad esempio, un utente potrebbe non essere in grado di inserire un valore che non rispetta i limiti di lunghezza del testo e i requisiti di formato. I programmi per fogli di calcolo sono i più efficaci per gestire e convalidare set di dati più piccoli.

Script

I professionisti dei dati possono utilizzare strumenti open source e linguaggi di programmazione come Python ed SQL per eseguire gli script e automatizzare il processo di convalida dei dati. Gli utenti di Excel possono utilizzare il linguaggio di programmazione VBA (Visual Basic for Applications) per creare regole di convalida dei dati personalizzate e automatizzare i processi di convalida.

Integrazione dei dati

Le piattaforme di integrazione dei dati combinano e armonizzano i dati provenienti da più fonti in formati unificati e coerenti che possono essere utilizzati per vari scopi analitici, operativi e di processo decisionale. La convalida dei dati è un passaggio comune nel processo di integrazione dei dati. L'approccio di integrazione dei dati ETL (extract, transform, load), in particolare, è noto per la rigorosa convalida dei dati.

Osservabilità dei dati

Le soluzioni di osservabilità dei dati monitorano lo stato di salute dei dati nell'ecosistema dei dati dell'organizzazione e forniscono dashboard per la visibilità. Il monitoraggio e l'analisi continui basati sull'AI possono rilevare e risolvere, quasi in tempo reale, anomalie nei dati e altri problemi relativi ai dati. Le principali piattaforme di integrazione dei dati presentano caratteristiche di osservabilità dei dati.

Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data