Che cos'è la distorsione dei dati?

Due persone con un laptop e un tablet in piedi accanto a uno schermo digitale con grafici e tabelle

Autori

Julie Rogers

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Che cos'è la distorsione dei dati?

La distorsione dei dati si verifica quando le distorsioni presenti nei set di dati di addestramento e di messa a punto dei modelli di intelligenza artificiale (AI) influiscono negativamente sul comportamento del modello.

I modelli AI sono programmi addestrati su insiemi di dati per riconoscere determinati modelli o prendere determinate decisioni. Applicano diversi algoritmi a input di dati rilevanti per raggiungere le attività o l'output per cui sono stati programmati.

Addestrare un modello AI su dati con distorsioni, come ad esempio distorsioni storiche o rappresentative, potrebbe portare a output distorti o alterati che potrebbero rappresentare ingiustamente o anche discriminare determinati gruppi o individui. Questi impatti erodono la fiducia nell'AI e nelle organizzazioni che la utilizzano. Possono anche comportare sanzioni legali e normative per le aziende.

La distorsione dei dati è un fattore importante da considerare per i settori ad alto rischio, come sanità, risorse umane e finanza, che utilizzano l'AI sempre più per contribuire a informare il processo decisionale. Le organizzazioni possono mitigare la distorsione dei dati comprendendo i diversi tipi di distorsione e come si verificano e identificando, riducendo e gestendo tali distorsioni durante tutto il ciclo di vita dell'AI.

Quali sono i rischi delle distorsioni dei dati?

La distorsione dei dati può portare a sistemi AI ingiusti, imprecisi e inaffidabili con gravi conseguenze per individui, aziende e società. Alcuni rischi di distorsione dei dati includono:

Discriminazione e disuguaglianza

Le distorsioni dei dati all'interno dei sistemi AI possono perpetuare i pregiudizi sociali esistenti, portando a trattamenti ingiusti basati su caratteristiche come il sesso, l'età, la razza o l'etnia. I gruppi emarginati potrebbero essere sottorappresentati o esclusi dai dati, con il risultato di decisioni che non rispondono alle esigenze della popolazione reale.

Ad esempio, un algoritmo di assunzione addestrato principalmente sui dati di una forza lavoro maschile omogenea potrebbe favorire i candidati uomini e svantaggiare le candidate donne qualificate, perpetuando la disuguaglianza di genere sul posto di lavoro.

Previsioni e decisioni imprecise

I modelli AI addestrati su dati distorti possono produrre risultati errati, il che può indurre le organizzazioni a prendere decisioni sbagliate o proporre soluzioni inefficaci. Ad esempio, le aziende che utilizzano analytics predittiva distorte potrebbero interpretare erroneamente le tendenze del mercato, con conseguenti lanci di prodotti scadenti o una errata allocazione delle risorse.

Conseguenze legali ed etiche

La distorsione dei dati può esporre le organizzazioni al rischio di controlli normativi, inadempienze legali e sanzioni consistenti. Ad esempio, ai sensi dell'AI Act dell'UE, il mancato rispetto delle pratiche vietate in materia di AI può comportare sanzioni fino a 35.000.000 EUR o al 7% del fatturato annuo globale, se tale valore è superiore.

Le organizzazioni che violano le leggi locali e regionali potrebbero anche subire un'erosione della reputazione e della fiducia dei clienti. Pensiamo a un'azienda retail dichiarata colpevole di discriminazione per aver utilizzato un modello di prezzi con tecnologia AI che applicava prezzi più elevati a determinati gruppi demografici. Questa situazione potrebbe portare a una crisi delle pubbliche relazioni che danneggia l'immagine del brand dell'azienda e la fidelizzazione dei clienti.

Perdita di fiducia

La distorsione dei dati può erodere la fiducia nei sistemi AI. Casi gravi o ripetuti di decisioni distorte o imprecise basate sull'AI potrebbero spingere individui e comunità a mettere in dubbio l'integrità dell'organizzazione che distribuisce l'AI. Le persone potrebbero anche diventare sempre più scettiche sull'affidabilità e sull'equità dell'AI in generale, con una maggiore diffidenza ad adottare la tecnologia.

Cicli di feedback

I sistemi di AI che utilizzano risultati con distorsioni come dati di input per il processo decisionale creano un ciclo di feedback che può anche rafforzare le distorsioni nel tempo. Questo ciclo, in cui l'algoritmo apprende e perpetua costantemente gli stessi modelli distorti, porta a risultati sempre più distorti.

Ad esempio, una discriminazione storica come il redlining, ovvero servizi finanziari negati alle persone in base alla loro razza, può riflettersi nei dati di addestramento per un modello AI incaricato del processo decisionale sui prestiti bancari. Quando un sistema AI elabora le applicazioni utilizzando questi dati, potrebbe penalizzare ingiustamente gli individui che hanno caratteristiche socioeconomiche simili alle vittime di redlining negli anni passati. I dati di questi più recenti rifiuti di prestito potrebbero influenzare il futuro processo decisionale in materia di AI, portando a un ciclo in cui i membri di gruppi sottorappresentati continuano a ricevere meno opportunità di credito.

Distorsione dell'AI, distorsione algoritmica e distorsione dei dati a confronto

La distorsione dei dati, la distorsione dell'AI e la distorsione algoritmica possono tutte portare a output distorti e potenzialmente dannosi, ma ci sono sottili differenze tra questi termini.

distorsioni dell'ai

La distorsione dell'AI, chiamata anche distorsione dell'apprendimento automatico, è un termine generico per i diversi tipi di distorsioni associati ai sistemi di intelligenza artificiale. Si riferisce al verificarsi di risultati distorti dovuti a pregiudizi umani che distorcono i dati di addestramento originali o l'algoritmo di AI.

Distorsione algoritmica

La distorsione algoritmica è un sottoinsieme della distorsione dell'AI che si verifica quando errori sistematici negli algoritmi di apprendimento automatico producono risultati iniqui o discriminatori. La distorsione algoritmica non è causata dall'algoritmo stesso, ma dal modo in cui gli sviluppatori raccolgono e codificano i dati di addestramento.

Distorsione dei dati

Anche la distorsione dei dati rientra nell'ambito delle distorsioni dell'AI e può essere una delle cause della distorsione algoritmica. La distorsione dei dati si riferisce specificamente alla natura distorta o non rappresentativa dei dati utilizzati per addestrare un modello AI.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Notizie e insight a cura di esperti di AI, cloud e molto altro nella newsletter settimanale Think. 

Quali sono i diversi tipi di distorsione nei dati?

Comprendere e correggere i diversi tipi di distorsione può aiutare a creare sistemi AI accurati e affidabili. Alcuni tipi comuni di distorsioni dei dati includono:

  • Distorsione cognitiva
  • Distorsione di automazione
  • Distorsione di conferma
  • Distorsione di esclusione
  • Distorsione storica (temporale)
  • Distorsione implicita
  • Distorsione di misurazione
  • Distorsione di segnalazione
  • Distorsione di selezione
  • Distorsione di campionamento

Distorsione cognitiva

Quando le persone elaborano informazioni e prendono decisioni, sono inevitabilmente influenzate dalle loro esperienze e dalle preferenze personali. Di conseguenza, le persone potrebbero integrare questi pregiudizi nei sistemi AI attraverso la selezione dei dati o il modo in cui i dati vengono ponderati. Le distorsioni cognitive potrebbero portare a errori sistematici, come favorire set di dati raccolti dagli statunitensi piuttosto che prelevare campioni da una serie di popolazioni in tutto il mondo.

Distorsione di automazione

La distorsione dell'automazione si verifica quando gli utenti si affidano eccessivamente a tecnologie dell'automazione, portando a un'accettazione acritica dei loro output, che può perpetuare e amplificare le distorsioni esistenti nei dati. Nel settore sanitario, ad esempio, un medico potrebbe fare grande affidamento su uno strumento diagnostico AI per suggerire piani terapeutici per i pazienti. Senza verificare i risultati dello strumento con la propria esperienza clinica, il medico potrebbe diagnosticare erroneamente un paziente se la decisione dello strumento derivasse da dati distorti.

Distorsione di conferma

Il distorsione di conferma si verifica quando i dati vengono inclusi in modo selettivo per confermare convinzioni o ipotesi preesistenti. La distorsione di conferma si verifica, ad esempio, nella polizia predittiva quando le forze dell'ordine concentrano la raccolta di dati sui quartieri con tassi di criminalità storicamente elevati. Questo si traduce in un controllo eccessivo di questi quartieri, dovuto all'inclusione selettiva di dati che supportano le ipotesi esistenti sull'area.

Distorsione di esclusione

La distorsione di esclusione si verifica quando i dati importanti vengono esclusi dai set di dati. Nelle previsioni economiche, l'esclusione sistematica dei dati dalle aree a basso reddito si traduce in set di dati accuratamente rappresentativi della popolazione, il che porta a previsioni che si orientano a favore delle aree più ricche.

Distorsione storica (temporale)

La distorsione storica, noto anche come distorsione temporale, si verifica quando i dati riflettono disuguaglianze storiche o distorsioni presenti durante la raccolta dei dati, in contrasto con il contesto attuale. Esempi di distorsione dei dati in questa categoria includono i sistemi di assunzione basati sull'AI addestrati sui dati storici di impiego. In questi set di dati, le persone di colore potrebbero essere sottorappresentate nelle posizioni di alto livello e il modello potrebbe perpetuare la disuguaglianza.

Distorsione implicita

I pregiudizi impliciti si verificano quando le ipotesi delle persone basate su esperienze personali, piuttosto che su dati più generali, vengono introdotte nella creazione o nei test dell'apprendimento automatico. Ad esempio, un sistema AI addestrato a valutare i candidati potrebbe dare priorità ai curriculum con un linguaggio al maschile, riflettendo i pregiudizi inconsci dello sviluppatore, anche se il genere non è un fattore esplicito nel modello.

Distorsione di misurazione

La distorsione di misurazione può verificarsi quando l'accuratezza o la qualità dei dati differisce tra i gruppi o quando le variabili chiave dello studio sono misurate o classificate in modo impreciso. Ad esempio, un modello di ammissione all'università che utilizza una media elevata come fattore principale per l'accettazione, non considera che in alcune scuole potrebbe essere più facile prendere voti più alti. Uno studente con una media più bassa ma una mole di corsi più impegnativa in una scuola potrebbe essere un candidato migliore rispetto a uno studente con una media più alta ma una mole di corsi meno impegnativa altrove. Data la sua enfasi sulla media, il modello potrebbe non tenere conto di questa possibilità nei suoi processi decisionali.

Distorsione di segnalazione

Il bias di reporting si verifica quando la frequenza degli eventi o dei risultati nel set di dati non è rappresentativa della frequenza reale. Questo tipo di distorsione si manifesta spesso quando gli esseri umani sono coinvolti nella selezione dei dati, poiché le persone tendono a documentare più facilmente informazioni che sembrano importanti o degne di nota.

Un modello di analisi del sentiment, ad esempio, viene addestrato per prevedere se i prodotti su un grande sito di e-commerce vengono valutati positivamente o negativamente. La maggior parte delle recensioni di prodotti simili nel set di dati di addestramento riflettono opinioni estreme perché è meno probabile che le persone lascino una recensione se non hanno avuto esperienze polarizzanti, rendendo le previsioni del modello meno accurate.

Distorsione di selezione

La distorsione di selezione si verifica quando il set di dati utilizzato per l'addestramento non è sufficientemente rappresentativo, non abbastanza grande o completo per addestrare sufficientemente il sistema. Ad esempio, l'addestramento di un'auto autonoma sui dati di guida diurna non è rappresentativo dell'intera gamma di scenari di guida che il veicolo potrebbe incontrare nel mondo reale.

Distorsione di campionamento

La distorsione di campionamento è un tipo di distorsione di selezione che si verifica quando i dati del campione vengono raccolti in modo tale da rendere più probabile che alcune informazioni vengano incluse rispetto ad altre, senza un'adeguata casualizzazione. Ad esempio, se un sistema medico AI progettato per prevedere il rischio di malattie cardiache fosse addestrato esclusivamente sui dati di pazienti maschi di mezza età, potrebbe fornire previsioni imprecise. Questo sistema colpirebbe soprattutto le donne e le persone di altre fasce d'età.

Mitigare la distorsione dei dati

La mitigazione delle distorsioni all'interno dell'AI inizia con la governance dell'AI. La governance dell'AI si riferisce alle linee guida che contribuiscono a garantire che gli strumenti e i sistemi AI siano e rimangano sicuri ed etici. Le pratiche di AI responsabile, che enfatizzano la trasparenza, la responsabilità e le considerazioni etiche, possono spingere le organizzazioni ad affrontare le complessità della mitigazione delle distorsioni.

Per mitigare la distorsione dei dati, le organizzazioni dovrebbero implementare strategie e pratiche solide volte a identificare, ridurre e gestire le distorsioni durante la raccolta e l'analisi dei dati, come:

  • Raccolta rappresentativa dei dati
  • Controlli e valutazioni
  • Trasparenza
  • Strumenti di rilevamento delle distorsioni
  • Team inclusivi
  • Dati sintetici

Raccolta rappresentativa dei dati

Un'ampia rappresentazione nei dati di origine aiuta a ridurre le distorsioni. Il processo di raccolta dei dati deve comprendere un'ampia gamma di dati demografici, contesti e condizioni che siano tutti adeguatamente rappresentati. Ad esempio, se i dati raccolti per gli strumenti di riconoscimento facciale includono prevalentemente immagini di individui bianchi, il modello potrebbe non riconoscere o differenziare accuratamente i volti delle persone di colore.

Controlli e valutazioni

Gli audit sulle distorsioni consentono alle organizzazioni di valutare regolarmente i propri dati e algoritmi per individuare potenziali distorsioni, esaminare i risultati e le fonti di dati alla ricerca di indicatori di un trattamento ingiusto tra i diversi gruppi demografici. Il monitoraggio continuo delle prestazioni tra vari gruppi demografici aiuta a rilevare e risolvere le discrepanze nei risultati, contribuendo a garantire che eventuali distorsioni presenti vengano identificate e rimosse in modo tempestivo.

Trasparenza

Documentare i metodi di raccolta dei dati e il modo in cui gli algoritmi prendono le decisioni migliora la trasparenza, in particolare per quanto riguarda il modo in cui le potenziali distorsioni vengono identificate e risolte. Le politiche sui dati aperti possono facilitare la revisione esterna e le critiche, promuovendo la responsabilità nella raccolta e nell'analisi dei dati, il che è essenziale per rafforzare la fiducia nei sistemi AI.

Strumenti di rilevamento delle distorsioni

L'uso di strumenti e framework di equità algoritmica può aiutare a rilevare e mitigare le distorsioni nei modelli di apprendimento automatico. AI Fairness 360, un toolkit open source sviluppato da IBM, fornisce varie metriche per rilevare le distorsioni nei set di dati e nei modelli di apprendimento automatico, insieme ad algoritmi per mitigare le distorsioni e promuovere l'equità. L'implementazione di metodi statistici per valutare l'equità delle previsioni tra diversi gruppi demografici può migliorare ulteriormente l'obiettività.

Team inclusivi

Promuovere la diversità nei team di data science e analytics introduce diverse prospettive e può ridurre il rischio di pregiudizi. I team eterogenei hanno maggiori probabilità di riconoscere e affrontare le potenziali distorsioni nei set di dati e negli algoritmi, siccome portano in dote una gamma più ampia di esperienze e punti di vista. Per esempio, un team che comprende membri di provenienza razziale, genere e livello socioeconomico diversi può identificare meglio le aree in cui i dati potrebbero rappresentare in modo errato o non prendere in considerazione alcuni gruppi di persone.

Dati sintetici

I dati sintetici sono dati generati artificialmente creati mediante simulazioni al computer o algoritmi per sostituire i dati raccolti da eventi del mondo reale. I data scientist spesso trovano i dati sintetici un'alternativa utile quando i dati non sono facilmente disponibili e perché offrono una maggiore protezione sulla loro privacy. I dati sintetici mitigano le distorsioni consentendo la creazione intenzionale di serie di dati equilibrati che includono gruppi e scenari sottorappresentati, per contribuire a garantire risultati più equi del modello.

Soluzioni correlate
IBM watsonx.governance™

Gestisci i modelli di AI generativa da qualsiasi luogo ed effettua l'implementazione su cloud o on-premise con IBM watsonx.governance.

Scopri watsonx.governance
Soluzioni di governance dell'AI

Scopri come la governance dell'AI può aiutare ad aumentare la fiducia dei suoi dipendenti nell'AI, accelerare l'adozione e l'innovazione e migliorare la fidelizzazione dei clienti.

Scopri le soluzioni di governance dell'AI
Servizi di consulenza sulla governance dell'AI

Preparati alla legge europea sull'AI e definisci un approccio di governance dell'AI responsabile con l'aiuto di IBM Consulting.

Scopri i servizi di governance dell'AI
Prossimi passi

Indirizza, gestisci e monitora l'AI con un singolo portfolio per sviluppare un'AI responsabile, trasparente e spiegabile.

Esplora watsonx.governance Prenota una demo live