Perché la qualità dei dati di AI è fondamentale per il successo dell'AI

Uno sfondo astratto e digitale con codice binario blu luminoso (zeri e uno) con fasci arancioni di luce che intersecano il flusso di dati.

Definizione di qualità dei dati di AI

La qualità dei dati dell'intelligenza artificiale (AI) è il grado in cui i dati sono accurati, completi, affidabili e adatti all'uso durante tutto il ciclo di vita dell'AI, inclusi addestramento, validazione e implementazione. 

Nei sistemi di AI, la qualità dei dati comprende anche fattori meno enfatizzati nelle tradizionali dimensioni della qualità dei dati, come rappresentatività, bias, accuratezza delle etichette e variazioni irrilevanti (rumore), che possono influenzare il comportamento del modello.

L'importanza della qualità dei dati nell'AI non può essere sottovalutata: i dati di scarsa qualità sono uno dei motivi più comuni per cui le iniziative di AI falliscono. Modelli AI addestrati su dati errati, distorti o incompleti produrranno output inaffidabili, indipendentemente da quanto sofisticate possano essere le architetture. Come si suol dire: spazzatura dentro, spazzatura fuori.

I dati di alta qualità, invece, costituiscono la base per un'AI affidabile ed efficace. Via via che i sistemi di AI diventano più complessi e scalabili, una gestione della qualità dei dati robusta e continua determinerà se tali sistemi possono funzionare in modo affidabile, adattarsi agli ambienti in cambiamento e supportare decisioni informate.

Strumenti avanzati per la qualità dei dati possono aiutare a semplificare la gestione della qualità dei dati tramite AI integrando il monitoraggio e la validazione continui direttamente nelle pipeline di dati e modelli. Oltre all'automazione basata su regole, AI può essere utilizzata per migliorare la qualità dei dati rilevando sottili anomalie, dando priorità ai problemi in base all'impatto del modello a valle e molto altro. Automatizzando i controlli di accuratezza, coerenza, completezza e altre dimensioni della qualità dei dati, questi strumenti aiutano i team a rilevare tempestivamente i problemi e a mantenere la qualità dei dati allineata via via che i sistemi AI si evolvono.

L'AI è valida solo con dati validi

Le organizzazioni di tutto il mondo continuano a investire pesantemente nell'AI. Si prevede che la spesa globale per l'AI supererà i 2 trilioni di dollari nel 2026, con una crescita annuale del 37%, secondo Gartner.1 Tuttavia, questa rapida espansione maschera il fatto che molte iniziative di AI faticano a fornire un valore duraturo.

Lo studio sui CEO del 2025 dell'IBM Institute for Business Value ha rilevato che solo il 16% delle iniziative di AI è riuscita a scalare con successo in tutta l'azienda,2 mentre lo studio NANDA3 del MIT riporta che fino al 95% dei progetti pilota di AI generativa non riesce a progredire oltre la sperimentazione.

Le ricerche suggeriscono che la qualità dei dati di AI e la governance dei dati sono fattori chiave di differenziazione all'interno dell'ecosistema dell'AI. Uno studio separato di IBV ha rilevato che il 68% delle organizzazioni AI-first dichiara di avere framework di dati e governance maturi e ben consolidati, rispetto ad appena il 32% delle altre organizzazioni.4

Come osservano gli autori dello studio, “Sebbene meno appariscente rispetto ad algoritmi all'avanguardia o a casi d'uso ambiziosi, questa base di dati strutturati, accessibili e di alta qualità rappresenta la condizione essenziale per un successo duraturo dell’AI".

Questa base è importante perché i modelli di machine learning (una parte fondamentale di molti sistemi di AI) "apprendono" direttamente dai set di dati che ricevono. Quando questi dati rappresentano in modo errato la realtà a causa di errori, lacune, informazioni obsolete, silos o bias sistematici, i modelli non solo ereditano queste debolezze, ma possono anche amplificare i problemi dei dati su larga scala.

Ad esempio, nei sistemi di AI generativa, come i modelli linguistici di grandi dimensioni (LLM) utilizzati per l'elaborazione del linguaggio naturale, possono emergere problemi di qualità dei dati come testi con inesattezze fattuali o output di immagini distorti da bias. Una scarsa qualità dei dati può anche portare a prestazioni non uniformi, in particolare nei casi limite come input non comuni e scenari poco rappresentati.

Anche piccole percentuali di dati di bassa qualità possono avere effetti enormi. Bastano pochi risultati scadenti per compromettere il processo decisionale e la fiducia nella tecnologia in generale, portando i dirigenti a concludere che uno strumento di AI è difettoso quando la causa principale risiede invece nella qualità dei dati che lo informano.

Oltre ai risultati tecnici, la bassa qualità dei dati di AI comporta implicazioni legali ed etiche, inclusi rischi legati alla privacy dei dati e all'uso responsabile dei dati. I modelli addestrati su dati governati possono perpetuare la discriminazione in aree come assunzioni, prestiti, sanità e servizi pubblici. Allo stesso tempo, regolamenti come l'Artificial Intelligence Act dell'UE e un numero crescente di leggi statunitensi sull'AI a livello statale rendono le organizzazioni sempre più responsabili della privacy dei dati, nonché della qualità, rappresentatività e provenienza dei dati di addestramento.

In che modo la qualità dei dati di AI è diversa dalla qualità dei dati tradizionali?

La misurazione della qualità dei dati di AI si basa su molte delle stesse dimensioni della qualità dei dati che vengono tracciate tramite metriche sulla qualità dei dati. La differenza sta nel modo in cui le dimensioni della qualità dei dati vengono riformulate negli scenari di AI, poiché vengono valutate in base al loro impatto su addestramento dei modelli, generalizzazione dei modelli, equità e rischio operativo, in particolare quando i modelli vengono sviluppati e distribuiti in diversi ambienti di dati.

Quando applicata ai sistemi di IA, la qualità dei dati viene valutata utilizzando versioni adattate delle seguenti dimensioni della qualità dei dati:

  • Accuratezza dei dati
  • Completezza
  • Integrità dei dati
  • Consistenza
  • Tempestività
  • Pertinenza

Accuratezza dei dati

Nei contesti tradizionali, l'accuratezza si concentra sul fatto che i valori dei dati rappresentino correttamente entità o eventi del mondo reale, spesso verificati tramite controlli di base e soglie predefinite. Nei sistemi di AI, l'accuratezza dipende anche da processi robusti di validazione dei dati che valutano come il rumore delle etichette (esempi di addestramento etichettati in modo errato o ambiguo), l'errore di misurazione e le variabili proxy influenzino l'addestramento del modello.

Completezza

Oltre a verificare l'eventuale mancanza di campi o record obbligatori in termini di completezza, ai fini della qualità dei dati dell'AI, si estende a valutare se i dati coprano in modo sufficiente l’intera gamma di casi che il modello si aspetta di incontrare, come casi limite, eventi rari e popolazioni minoritarie. Le lacune nella copertura possono generare modelli fragili che funzionano bene in media ma falliscono negli scenari poco rappresentati, aumentando i rischi legati all’equità e all’operatività.

Integrità dei dati

Tradizionalmente, l'integrità dei dati consiste nell'assicurarsi che i dati seguano le regole di base, come l'aderenza allo schema giusto e la corretta connessione tra i sistemi. Per l'AI, l'integrità dei dati significa anche sapere esattamente da dove provengono i dati ed essere in grado di ricreare come sono stati preparati e utilizzati nell'intera pipeline di dati.

I team dovrebbero essere in grado di tracciare i dati fino alla loro fonte originale e mantenere un registro chiaro di ogni modifica apportata. Gli asset di dati importanti, inclusi dati di addestramento e input dei modelli, dovrebbero essere protetti affinché problemi come danni accidentali, duplicazioni o modifiche non autorizzate possano essere rilevati e investigati.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Consistenza

Oltre a formati e definizioni coerenti, misurare la qualità dei dati di AI significa esaminare se i dati vengono raccolti, elaborati e integrati in modo coerente tra dati storici e nuovi. Questo controllo aiuta a garantire che i cambiamenti nelle pipeline o nelle fonti non introducano involontariamente distorsioni, bias o rischi del modello a valle.

Tempestività

La tempestività classica si concentra su quanto i dati siano aggiornati al momento della loro acquisizione. Nei sistemi di AI, la tempestività richiede anche di monitorare come i dati nuovi o in tempo reale differiscono dai dati di addestramento, poiché la deriva di dati o concetti può degradare le prestazioni del modello.

Pertinenza

Invece di chiedersi se i dati siano generalmente utili o pertinenti al dominio del problema, valutare la rilevanza dei dati nei casi d’uso dell’AI significa determinare se ciascuna caratteristica ed esempio fornisce informazioni che supportano la funzione prevista del sistema. Questa metrica comprende l’esame del fatto che i dati migliorino le prestazioni predittive, supportino la robustezza in condizioni diverse, riducano la sensibilità al rumore o a correlazioni spurie e facilitino l'interpretabilità o la diagnostica a valle.

Come raggiungere un'elevata qualità dei dati di AI

La misurazione della qualità dei dati di AI stabilisce una base iniziale, tuttavia mantenerla richiede un continuo monitoraggio della qualità dei dati via via che dati, modelli di utilizzo e condizioni operative evolvono. Quattro pratiche fondamentali per migliorare e sostenere la qualità dei dati di AI sono:

  • Profilazione ed esplorazione dei dati nelle prime fasi del ciclo di vita
  • Data observability come fondamento
  • Controlli di qualità dei dati utilizzando l'AI
  • Chiusura del ciclo con correzione e feedback
Profilazione ed esplorazione dei dati nelle prime fasi del ciclo di vita

Il profiling aiuta i team a comprendere le fonti di dati sottostanti, come i dati sono stati raccolti, strutturati e trasformati e come scorrono attraverso le pipeline tramite il data lineage. Questo processo include l'identificazione degli outlier, il controllo dei valori mancanti e l'analisi delle relazioni tra dati strutturati e dati non strutturati, come testo o immagini.

Queste pratiche stabiliscono una solida base di dati accurati per l'addestramento del modello. Queste attività dovrebbero precedere lo sviluppo del modello ed essere integrate nei workflow iniziali di preparazione dei dati, utilizzando sia i dati non elaborati che i metadati associati.

Data observability come fondamento

La data observability fornisce la visibilità necessaria per consentire un monitoraggio continuo e controlli efficaci su larga scala nei workflow di produzione. Monitorando i flussi di dati, l'observability aiuta i team a comprendere come i dati cambiano nel tempo, a rintracciare i problemi di qualità fino alla loro origine e a correlare le variazioni dei dati con i risultati dei modelli a valle.

Questa visibilità end-to-end è critica per mantenere la qualità dei dati via via che i sistemi AI crescono in complessità, volume e scalabilità.

Controlli di qualità dei dati utilizzando l'AI

La stessa AI può essere utilizzata per migliorare la qualità, l'affidabilità e la governance dei dati che alimentano i suoi modelli. Le soluzioni di qualità dei dati basate su AI, con automazione integrata e agenti AI, possono profilare continuamente nuovi set di dati grandi e complessi mentre si spostano attraverso le pipeline di dati.

Inoltre, possono eseguire il rilevamento delle anomalie per identificare incongruenze, punti dati fuori intervallo e variazioni nella distribuzione e applicare la deduplicazione per rilevare ed eliminare record doppi e problemi di qualità dei dati correlati.

Chiusura del ciclo con correzione e feedback

Il mantenimento della qualità dei dati di AI richiede anche cicli di feedback che colleghino i segnali di monitoraggio all'azione. Gli insight derivanti dal monitoraggio della qualità dei dati e dall’observability guidano le azioni correttive, come il riaddestramento dei modelli, l’aggiornamento delle linee guida per l’etichettatura, la modifica della logica di pre-elaborazione o la raccolta di dati aggiuntivi nelle aree poco rappresentate.

Nel tempo, questo feedback continuo consente ai team di ottimizzare sia le pratiche di qualità dei dati che le prestazioni dei modelli via via che il sistema AI evolve.

Alexandra Jonker

Staff Editor

IBM Think

Judith Aquino

Staff Writer

IBM Think

Soluzioni correlate
IBM watsonx.governance

Metti all'opera un'AI affidabile monitorando i modelli, gestendo i rischi e facendo rispettare la governance in tutto il ciclo di vita dell'AI.

Esplora watsonx.governance
Soluzioni di governance dei dati

Acquisisci il controllo dei tuoi dati con strumenti di governance che migliorano la qualità, garantiscono la conformità e abilitano analytics e AI.

Esplora le soluzioni di governance dei dati
Consulenza sulla governance dell'AI

Stabilisci pratiche di AI responsabile con la guida degli esperti per gestire i rischi, rispettare le normative e rendere operativa un'AI affidabile su larga scala.

Esplora la consulenza sulla governance dell'AI
Fasi successive

Dirigi, gestisci e monitora la tua AI attraverso un portfolio unificato, accelerando risultati responsabili, trasparenti e spiegabili.

  1. Esplora watsonx.governance
  2. Esplora le soluzioni di governance dell'AI
Note a piè di pagina

1 Gartner Says Worldwide AI Spending Will Total $1.5 Trillion in 2025, Gartner, 17 settembre 2025
2 2025 CEO Study: 5 mindshifts to supercharge business growth, IBM Institute for Business Value, 9 luglio 2025
3 The GenAI Divide: State of AI in Business 2025, MIT NANDA, luglio 2025
4 From AI projects to profits: How agentic AI can sustain financial returns, IBM Institute for Business Value, 12 giugno 2025