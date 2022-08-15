A volte, come data scientist, siamo così determinati a costruire un modello perfetto che possiamo involontariamente includere pregiudizi umani (distorsioni) nei nostri modelli. Spesso le distorsioni si insinuano attraverso i dati di addestramento e poi vengono amplificati e incorporati nel modello. Se tale modello entra in un ciclo produttivo, può avere implicazioni serie dovute a distorsioni, come false previsioni del merito creditizio o dell'esito di esami medici. In vari settori, i requisiti normativi per l'equità dei modelli e l'AI affidabile mirano a prevenire l'ingresso di modelli distorti nei cicli di produzione.
Per essere un data scientist responsabile, ci sono due considerazioni chiave da tenere in considerazione quando si crea una pipeline di modelli:
Individuare e definire le distorsioni e le ingiustizie non è facile. Per aiutare gli scienziati dei dati a riflettere e identificare possibili problemi etici, il processo standard per il data mining dovrebbe includere 3 passaggi aggiuntivi: valutazione del rischio dei dati, gestione del rischio del modello e monitoraggio della produzione.
Questo passaggio permette a un data scientist di valutare se ci sono squilibri tra diversi gruppi di persone rispetto alla variabile target. Ad esempio, osserviamo ancora che gli uomini vengono accettati in posizioni manageriali più frequentemente delle donne. Sappiamo tutti però che è illegale offrire un lavoro in base al genere, quindi per bilanciare il modello si potrebbe sostenere che il genere non dovrebbe avere importanza e potrebbe essere eliminato. Ma cos'altro potresti influenzare eliminando il genere? Prima di procedere, è opportuno consultare gli esperti competenti per determinare se i controlli attuali siano sufficienti a mitigare potenziali distorsioni nel modello.
L'obiettivo del bilanciamento dei dati è imitare la distribuzione dei dati utilizzati in produzione, cioè garantire che i dati di addestramento siano il più possibile simili a quelli utilizzati in tempo reale nell'ambiente di produzione. Quindi, sebbene la reazione iniziale sia quella di eliminare la variabile distorta, è improbabile che questo approccio risolva il problema. Spesso le variabili sono correlate e la distorsione può insinuarsi attraverso uno dei campi correlati, agendo come sostituto proxy nel modello. Pertanto, tutte le correlazioni dovrebbero essere analizzate prima di rimuovere la distorsione, per garantire che sia stata effettivamente eliminata.
Le previsioni del modello hanno implicazioni immediate e serie, infatti possono cambiare completamente la vita di una persona. Se un modello prevedesse che hai un merito creditizio basso, ciò potrebbe influenzare ogni aspetto della tua vita, poiché potresti avere difficoltà a ottenere carte di credito e prestiti, a trovare un alloggio e a ottenere tassi di interesse ragionevoli. Inoltre, se non capisci il motivo di questo basso punteggio, non c'è alcuna opportunità di miglioramento.
Il compito del data scientist è garantire che un modello offra il risultato più equo possibile per tutti. Se i dati sono distorti, il modello imparerà da questa distorsione e farà previsioni errate. I modelli black box forniscono ottimi risultati, ma con scarsa interpretabilità e spiegabilità, rendendo impossibile verificare eventuali segnali d'allarme per garantire l'equità. Pertanto, è necessaria un'analisi approfondita dei risultati del modello. Il data scientist deve valutare il compromesso tra interpretabilità e prestazioni del modello e selezionare modelli che soddisfano meglio entrambi i requisiti.
Una volta che un modello è stato sviluppato da data scientist, spesso viene consegnato al team MLOps. Quando i dati del nuovo modello vengono messi in produzione, possono portare con sé una nuova possibilità di distorsione o aumentare la distorsione che in precedenza era stata trascurata senza un adeguato monitoraggio. I dati di produzione possono portare a derive nelle prestazioni o nella coerenza e integrare distorsioni nel modello e nei dati. È molto importante monitorare i modelli introducendo avvisi adeguati che indichino il deterioramento delle prestazioni e un meccanismo per decidere quando ritirare un modello non più adatto all'uso tramite uno strumento come IBM Watson Studio. Anche in questo caso, la qualità dei dati dovrebbe essere monitorata confrontando la distribuzione dei dati di produzione con quelli utilizzati per addestrare il modello.
Una data science responsabile significa pensare al modello oltre al codice e alle prestazioni ed è fortemente influenzata dai dati che utilizzi e dalla loro affidabilità.
In definitiva, ridurre le distorsioni è un processo delicato ma cruciale che aiuta a garantire che i modelli seguano i processi umani corretti. Ciò non significa che sia necessario fare qualcosa di nuovo, ma è importante ripensare e riformulare ciò che noi data scientist già facciamo per garantire che venga fatto in modo responsabile.
Per ulteriori informazioni su come i dati influenzano la tua capacità di creare un'AI affidabile, visita il nostro sito web.
