I dati validi rientrano nei limiti o negli intervalli consentiti, sono conformi ai formati di dati specificati, sono privi di errori e soddisfano i criteri di convalida specifici di un'organizzazione.
La convalida dei dati è una fase consolidata nei workflow di gestione dei dati: i dati non validi, infatti, possono creare problemi nell'analisi dei dati. Tuttavia, la sua urgenza e la sua importanza si sono moltiplicate con il crescere dell'impegno, da parte delle organizzazioni, a livelli di raccolta dei dati senza precedenti, per alimentare il processo decisionale basato sui dati e le iniziative di intelligenza artificiale (AI).
Le aziende accumulano attualmente grandi set di dati contenenti terabyte o petabyte di dati. Queste informazioni provengono da varie fonti di dati, come dispositivi Internet of Things (IoT) o social media, e vengono spesso trasferite nei data warehouse e in altri sistemi di destinazione. Tuttavia, le informazioni provenienti da un'ampia gamma di fonti, combinate con la portata delle massicce migrazioni di dati, possono porre le basi per una serie di problemi: formati diversi e discrepanze, dati duplicati, campi di dati incompleti, errori di immissione dei dati e persino data poisoning.
Questi problemi di qualità dei dati possono compromettere l'integrità dei dati e mettere in pericolo un processo decisionale informato. Inoltre, i dati non validi non creano solo grattacapi agli analisti, bensì sono anche un problema per ingegneri, data scientist e altri ruoli che lavorano con i modelli AI.
I modelli AI, inclusi i modelli di machine learning e i modelli di AI generativa, richiedono dati affidabili e accurati per l'addestramento e le prestazioni. Poiché un'efficace implementazione dell'AI diventa un vantaggio competitivo critico, le aziende non possono permettersi che dati non validi mettano a repentaglio le loro iniziative di AI. Le aziende utilizzano i processi di convalida dei dati per garantire che la qualità dei dati sia sufficiente per l'uso nell'analisi dei dati e nell'AI.
La convalida dei dati è diventata sempre più importante anche in relazione alla conformità normativa. Ad esempio, l'EU Artificial Intelligence Act prevede che la convalida dei dati per i sistemi di AI "ad alto rischio" sia soggetta a rigorose pratiche di governance dei dati.
Newsletter di settore
Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
La convalida dei dati comporta l'istituzione e l'applicazione di regole aziendali e controlli di convalida dei dati.
Sebbene le diverse organizzazioni utilizzino regole e tecniche di convalida dei dati diverse, i tipi più comuni di controlli di convalida dei dati sono:
Un controllo del codice determina se un valore di dati è valido confrontandolo con un elenco di valori accettabili. Alcuni esempi includono i codici della nazione, i codici ISBN (International Standard Book Number) e i codici del North American Industry Classification System (NAICS) per la classificazione delle aziende.
I controlli della coerenza confermano che i dati di input sono logici e non sono in conflitto con altri valori. Ad esempio, in un database di coppie sposate, le date del fidanzamento dovrebbero essere precedenti alle date del matrimonio.
Un tipo di dati definisce il formato valido per i dati in una determinata colonna. Esempi di tipi di dati possono essere testo, numeri o date. Questo controllo identifica ogni valore che non corrisponde al tipo di dati selezionato in termini di lunghezza, precisione o scala o che viola il tipo di dati specificato.
I controlli del formato sono implementati per le colonne che hanno requisiti di formattazione dei dati specifici, come le colonne per numeri di telefono, indirizzi e-mail e date.
I controlli dell'intervallo di dati determinano se i dati numerici rientrano in un intervallo predefinito di valori minimi e massimi. Ad esempio, una colonna di pressioni accettabili dei pneumatici dei veicoli potrebbe variare da 2-2,5 bar.
I controlli di unicità si applicano alle colonne in cui ogni immissione di dati deve essere unica e non sono presenti valori duplicati.
Altri controlli utilizzati per la convalida dei dati includono i controlli della lunghezza (garantire il corretto numero di caratteri in un campo), i controlli della presenza (assicurarsi che i campi obbligatori non siano vuoti) e la convalida dello schema (garantire che i dati siano conformi a una struttura predefinita).
La convalida dei dati viene spesso menzionata insieme alla pulizia dei dati, che è la correzione di errori e incongruenze nei set di dati grezzi. A volte la convalida dei dati è considerata una componente della pulizia dei dati, mentre in altri casi viene definita un processo distinto.
Sia la convalida che la pulizia dei dati sono elementi della gestione della qualità dei dati (DQM), una raccolta di pratiche per mantenere dati di alta qualità in un'organizzazione. Ulteriori processi DQM complementari includono la profilazione dei dati, il monitoraggio della qualità dei dati e la gestione dei metadati.
Sebbene la convalida dei dati possa essere eseguita manualmente, può essere un'operazione ardua e dispendiosa in termini di tempo. Diversi strumenti possono aiutare i professionisti dei dati ad accelerare, automatizzare e semplificare il processo di convalida dei dati.
Un software per fogli di calcolo come Microsoft Excel offre funzionalità di convalida dei dati, come la possibilità di creare elenchi a discesa, formule personalizzate e limitare le voci a valori che soddisfino regole specifiche. Ad esempio, un utente potrebbe non essere in grado di inserire un valore che non rispetta i limiti di lunghezza del testo e i requisiti di formato. I programmi per fogli di calcolo sono i più efficaci per gestire e convalidare set di dati più piccoli.
I professionisti dei dati possono utilizzare strumenti open source e linguaggi di programmazione come Python ed SQL per eseguire gli script e automatizzare il processo di convalida dei dati. Gli utenti di Excel possono utilizzare il linguaggio di programmazione VBA (Visual Basic for Applications) per creare regole di convalida dei dati personalizzate e automatizzare i processi di convalida.
Le piattaforme di integrazione dei dati combinano e armonizzano i dati provenienti da più fonti in formati unificati e coerenti che possono essere utilizzati per vari scopi analitici, operativi e di processo decisionale. La convalida dei dati è un passaggio comune nel processo di integrazione dei dati. L'approccio di integrazione dei dati ETL (extract, transform, load), in particolare, è noto per la rigorosa convalida dei dati.
Le soluzioni di osservabilità dei dati monitorano lo stato di salute dei dati nell'ecosistema dei dati dell'organizzazione e forniscono dashboard per la visibilità. Il monitoraggio e l'analisi continui basati sull'AI possono rilevare e risolvere, quasi in tempo reale, anomalie nei dati e altri problemi relativi ai dati. Le principali piattaforme di integrazione dei dati presentano caratteristiche di osservabilità dei dati.
Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.
Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.