Perché la qualità dei dati è la chiave del successo dell'AI

By Alexandra Jonker , Judith Aquino

Definizione di qualità dei dati di AI

La qualità dei dati dell'intelligenza artificiale (AI) è il grado in cui i dati sono accurati, completi, affidabili e adatti all'uso durante tutto il ciclo di vita dell'AI, inclusi addestramento, validazione e implementazione.

Nei sistemi di AI, la qualità dei dati comprende anche fattori meno enfatizzati nelle tradizionali dimensioni della qualità dei dati, come rappresentatività, bias, accuratezza delle etichette e variazioni irrilevanti (rumore), che possono influenzare il comportamento del modello.

L'importanza della qualità dei dati nell'AI non può essere sottovalutata: i dati di scarsa qualità sono uno dei motivi più comuni per cui le iniziative di AI falliscono. Modelli AI addestrati su dati errati, distorti o incompleti produrranno output inaffidabili, indipendentemente da quanto sofisticate possano essere le architetture. Come si suol dire: spazzatura dentro, spazzatura fuori.

I dati di alta qualità, invece, costituiscono la base per un'AI affidabile ed efficace. Via via che i sistemi di AI diventano più complessi e scalabili, una gestione della qualità dei dati robusta e continua determinerà se tali sistemi possono funzionare in modo affidabile, adattarsi agli ambienti in cambiamento e supportare decisioni informate.

Strumenti avanzati per la qualità dei dati possono aiutare a semplificare la gestione della qualità dei dati tramite AI integrando il monitoraggio e la validazione continui direttamente nelle pipeline di dati e modelli. Oltre all'automazione basata su regole, AI può essere utilizzata per migliorare la qualità dei dati rilevando sottili anomalie, dando priorità ai problemi in base all'impatto del modello a valle e molto altro. Automatizzando i controlli di accuratezza, coerenza, completezza e altre dimensioni della qualità dei dati, questi strumenti aiutano i team a rilevare tempestivamente i problemi e a mantenere la qualità dei dati allineata via via che i sistemi AI si evolvono.

L'AI è valida solo con dati validi

Le organizzazioni di tutto il mondo continuano a investire pesantemente nell'AI. Si prevede che la spesa globale per l'AI supererà i 2 trilioni di dollari nel 2026, con una crescita annuale del 37%, secondo Gartner.¹ Tuttavia, questa rapida espansione maschera il fatto che molte iniziative di AI faticano a fornire un valore duraturo.

Lo studio sui CEO del 2025 dell'IBM Institute for Business Value ha rilevato che solo il 16% delle iniziative di AI è riuscita a scalare con successo in tutta l'azienda,² mentre lo studio NANDA³ del MIT riporta che fino al 95% dei progetti pilota di AI generativa non riesce a progredire oltre la sperimentazione.

Le ricerche suggeriscono che la qualità dei dati di AI e la governance dei dati sono fattori chiave di differenziazione all'interno dell'ecosistema dell'AI. Uno studio separato di IBV ha rilevato che il 68% delle organizzazioni AI-first dichiara di avere framework di dati e governance maturi e ben consolidati, rispetto ad appena il 32% delle altre organizzazioni.⁴

Come osservano gli autori dello studio, “Sebbene meno appariscente rispetto ad algoritmi all'avanguardia o a casi d'uso ambiziosi, questa base di dati strutturati, accessibili e di alta qualità rappresenta la condizione essenziale per un successo duraturo dell’AI".

Questa base è importante perché i modelli di machine learning (una parte fondamentale di molti sistemi di AI) "apprendono" direttamente dai set di dati che ricevono. Quando questi dati rappresentano in modo errato la realtà a causa di errori, lacune, informazioni obsolete, silos o bias sistematici, i modelli non solo ereditano queste debolezze, ma possono anche amplificare i problemi dei dati su larga scala.

Ad esempio, nei sistemi di AI generativa, come i modelli linguistici di grandi dimensioni (LLM) utilizzati per l'elaborazione del linguaggio naturale, possono emergere problemi di qualità dei dati come testi con inesattezze fattuali o output di immagini distorti da bias. Una scarsa qualità dei dati può anche portare a prestazioni non uniformi, in particolare nei casi limite come input non comuni e scenari poco rappresentati.

Anche piccole percentuali di dati di bassa qualità possono avere effetti enormi. Bastano pochi risultati scadenti per compromettere il processo decisionale e la fiducia nella tecnologia in generale, portando i dirigenti a concludere che uno strumento di AI è difettoso quando la causa principale risiede invece nella qualità dei dati che lo informano.

Oltre ai risultati tecnici, la bassa qualità dei dati di AI comporta implicazioni legali ed etiche, inclusi rischi legati alla privacy dei dati e all'uso responsabile dei dati. I modelli addestrati su dati governati possono perpetuare la discriminazione in aree come assunzioni, prestiti, sanità e servizi pubblici. Allo stesso tempo, regolamenti come l'Artificial Intelligence Act dell'UE e un numero crescente di leggi statunitensi sull'AI a livello statale rendono le organizzazioni sempre più responsabili della privacy dei dati, nonché della qualità, rappresentatività e provenienza dei dati di addestramento.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

In che modo la qualità dei dati di AI è diversa dalla qualità dei dati tradizionali?

La misurazione della qualità dei dati di AI si basa su molte delle stesse dimensioni della qualità dei dati che vengono tracciate tramite metriche sulla qualità dei dati. La differenza sta nel modo in cui le dimensioni della qualità dei dati vengono riformulate negli scenari di AI, poiché vengono valutate in base al loro impatto su addestramento dei modelli, generalizzazione dei modelli, equità e rischio operativo, in particolare quando i modelli vengono sviluppati e distribuiti in diversi ambienti di dati.

Quando applicata ai sistemi di IA, la qualità dei dati viene valutata utilizzando versioni adattate delle seguenti dimensioni della qualità dei dati:

Accuratezza dei dati
Completezza
Integrità dei dati
Consistenza
Tempestività
Pertinenza

Accuratezza dei dati

Nei contesti tradizionali, l'accuratezza si concentra sul fatto che i valori dei dati rappresentino correttamente entità o eventi del mondo reale, spesso verificati tramite controlli di base e soglie predefinite. Nei sistemi di AI, l'accuratezza dipende anche da processi robusti di validazione dei dati che valutano come il rumore delle etichette (esempi di addestramento etichettati in modo errato o ambiguo), l'errore di misurazione e le variabili proxy influenzino l'addestramento del modello.

Maggiori informazioni sull'accuratezza dell'AI

Completezza

Oltre a verificare l'eventuale mancanza di campi o record obbligatori in termini di completezza, ai fini della qualità dei dati dell'AI, si estende a valutare se i dati coprano in modo sufficiente l’intera gamma di casi che il modello si aspetta di incontrare, come casi limite, eventi rari e popolazioni minoritarie. Le lacune nella copertura possono generare modelli fragili che funzionano bene in media ma falliscono negli scenari poco rappresentati, aumentando i rischi legati all’equità e all’operatività.

Integrità dei dati

Tradizionalmente, l'integrità dei dati consiste nell'assicurarsi che i dati seguano le regole di base, come l'aderenza allo schema giusto e la corretta connessione tra i sistemi. Per l'AI, l'integrità dei dati significa anche sapere esattamente da dove provengono i dati ed essere in grado di ricreare come sono stati preparati e utilizzati nell'intera pipeline di dati.

I team dovrebbero essere in grado di tracciare i dati fino alla loro fonte originale e mantenere un registro chiaro di ogni modifica apportata. Gli asset di dati importanti, inclusi dati di addestramento e input dei modelli, dovrebbero essere protetti affinché problemi come danni accidentali, duplicazioni o modifiche non autorizzate possano essere rilevati e investigati.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Vai all'episodio

Consistenza

Oltre a formati e definizioni coerenti, misurare la qualità dei dati di AI significa esaminare se i dati vengono raccolti, elaborati e integrati in modo coerente tra dati storici e nuovi. Questo controllo aiuta a garantire che i cambiamenti nelle pipeline o nelle fonti non introducano involontariamente distorsioni, bias o rischi del modello a valle.

Tempestività

La tempestività classica si concentra su quanto i dati siano aggiornati al momento della loro acquisizione. Nei sistemi di AI, la tempestività richiede anche di monitorare come i dati nuovi o in tempo reale differiscono dai dati di addestramento, poiché la deriva di dati o concetti può degradare le prestazioni del modello.

Pertinenza

Invece di chiedersi se i dati siano generalmente utili o pertinenti al dominio del problema, valutare la rilevanza dei dati nei casi d’uso dell’AI significa determinare se ciascuna caratteristica ed esempio fornisce informazioni che supportano la funzione prevista del sistema. Questa metrica comprende l’esame del fatto che i dati migliorino le prestazioni predittive, supportino la robustezza in condizioni diverse, riducano la sensibilità al rumore o a correlazioni spurie e facilitino l'interpretabilità o la diagnostica a valle.

Come raggiungere un'elevata qualità dei dati di AI

La misurazione della qualità dei dati di AI stabilisce una base iniziale, tuttavia mantenerla richiede un continuo monitoraggio della qualità dei dati via via che dati, modelli di utilizzo e condizioni operative evolvono. Quattro pratiche fondamentali per migliorare e sostenere la qualità dei dati di AI sono:

Profilazione ed esplorazione dei dati nelle prime fasi del ciclo di vita
Data observability come fondamento
Controlli di qualità dei dati utilizzando l'AI
Chiusura del ciclo con correzione e feedback

Profilazione ed esplorazione dei dati nelle prime fasi del ciclo di vita

Il profiling aiuta i team a comprendere le fonti di dati sottostanti, come i dati sono stati raccolti, strutturati e trasformati e come scorrono attraverso le pipeline tramite il data lineage. Questo processo include l'identificazione degli outlier, il controllo dei valori mancanti e l'analisi delle relazioni tra dati strutturati e dati non strutturati, come testo o immagini.

Queste pratiche stabiliscono una solida base di dati accurati per l'addestramento del modello. Queste attività dovrebbero precedere lo sviluppo del modello ed essere integrate nei workflow iniziali di preparazione dei dati, utilizzando sia i dati non elaborati che i metadati associati.

Data observability come fondamento

La data observability fornisce la visibilità necessaria per consentire un monitoraggio continuo e controlli efficaci su larga scala nei workflow di produzione. Monitorando i flussi di dati, l'observability aiuta i team a comprendere come i dati cambiano nel tempo, a rintracciare i problemi di qualità fino alla loro origine e a correlare le variazioni dei dati con i risultati dei modelli a valle.

Questa visibilità end-to-end è critica per mantenere la qualità dei dati via via che i sistemi AI crescono in complessità, volume e scalabilità.

Controlli di qualità dei dati utilizzando l'AI

La stessa AI può essere utilizzata per migliorare la qualità, l'affidabilità e la governance dei dati che alimentano i suoi modelli. Le soluzioni di qualità dei dati basate su AI, con automazione integrata e agenti AI, possono profilare continuamente nuovi set di dati grandi e complessi mentre si spostano attraverso le pipeline di dati.

Inoltre, possono eseguire il rilevamento delle anomalie per identificare incongruenze, punti dati fuori intervallo e variazioni nella distribuzione e applicare la deduplicazione per rilevare ed eliminare record doppi e problemi di qualità dei dati correlati.

Chiusura del ciclo con correzione e feedback

Il mantenimento della qualità dei dati di AI richiede anche cicli di feedback che colleghino i segnali di monitoraggio all'azione. Gli insight derivanti dal monitoraggio della qualità dei dati e dall’observability guidano le azioni correttive, come il riaddestramento dei modelli, l’aggiornamento delle linee guida per l’etichettatura, la modifica della logica di pre-elaborazione o la raccolta di dati aggiuntivi nelle aree poco rappresentate.

Nel tempo, questo feedback continuo consente ai team di ottimizzare sia le pratiche di qualità dei dati che le prestazioni dei modelli via via che il sistema AI evolve.

Autori

Alexandra Jonker

Staff Editor

IBM Think

Judith Aquino

Staff Writer

IBM Think

Rendering 3D di una spirale di diverse icone allineate, come una fotocamera, una manopola del volume e una lavagnetta

Leggi la guida per i Data Leader per scoprire come rendere i dati della tua organizzazione AI-ready.

Risorse

Rendering 3D di diverse icone allineate, come un microfono e una fotocamera

Gli agenti AI funzionano con i dati: i tuoi sono pronti?

I dati sono il tuo vantaggio competitivo. Scopri come sbloccarli in modo sicuro e ottenere un ROI misurabile dall'AI in questo breve webinar.

Cos'è la gestione dei dati

Techsplainers by IBM analizza gli elementi essenziali dei dati per l'AI, dai concetti chiave ai casi d'uso del mondo reale. Gli episodi chiari e rapidi ti aiutano ad apprendere rapidamente le nozioni fondamentali.

Rendering 3D di diverse icone allineate, come una manopola del volume e una cartellina

Unifica e accedi ai tuoi dati per scalare la tua AI

Scopri perché il percorso verso i dati AI-ready spesso inizia con un accesso efficace ai dati strutturati e non strutturati e quali problematiche possono ostacolare i leader dei dati.

Gli oneri legali si trasformano in insight strategici

Scopri come un agente legale basato su AI aiuta ad accelerare il processo decisionale, ridurre il lavoro manuale e migliorare la conformità normativa.

Due uomini che parlano tra loro in un podcast

AI Academy: sviluppare una strategia dei dati per l'AI aziendale

In questo episodio, Cathy Reese spiega come le organizzazioni necessitino attualmente di una strategia dei dati pronta per l’AI avanzata, utilizzando al meglio i loro dati di qualità superiore.

Rendering 3D di diverse icone allineate, come una fotocamera e aeroplani di carta

Il data lakehouse ibrido e aperto per l'AI

Semplifica l'accesso ai dati e automatizza la governance dei dati. Scopri la potenza dell'integrazione di una strategia di data lakehouse nella tua architettura di dati, con ottimizzazione dei costi dei workload e scalabilità dell'AI e dell'analytics, con tutti i tuoi dati, ovunque.

Report Cost of a Data Breach 2025

I costi delle violazioni dei dati non sono mai stati così elevati. Ottieni insight aggiornati sulle minacce alla cybersecurity e sul loro impatto finanziario sulle organizzazioni.

Rendering 3D di due righe di diverse icone come una fotocamera, una manopola del volume e una cartellina

La guida ai dati AI-ready per i leader dei dati

Scopri i passi concreti che i leader dei dati possono intraprendere per superare le sfide legate ai dati, creare le basi per una piattaforma dati affidabile e preparare i dati della tua organizzazione per l’AI.

Rendering 3D di diverse icone allineate, come la fotocamera, la manopola del volume e gli appunti

Come i vertici aziendali trasformano le informazioni in impatto

Esplora gli insight di 1.700 CDO in questo report intersettoriale per i leader dei dati.

Soluzioni correlate

IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets

IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data

Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics

Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Note a piè di pagina

¹ Gartner Says Worldwide AI Spending Will Total $1.5 Trillion in 2025, Gartner, 17 settembre 2025
² 2025 CEO Study: 5 mindshifts to supercharge business growth, IBM Institute for Business Value, 9 luglio 2025
³ The GenAI Divide: State of AI in Business 2025, MIT NANDA, luglio 2025
⁴ From AI projects to profits: How agentic AI can sustain financial returns, IBM Institute for Business Value, 12 giugno 2025