La perdita di dati è un'insidia comune nell'addestramento di algoritmi di machine learning per la modellazione predittiva. Uno studio della National Library of Medicine1 ha rilevato che in 17 diversi campi scientifici in cui sono stati applicati metodi di machine learning, almeno 294 articoli scientifici sono stati interessati dalla perdita di dati, il che ha portato a prestazioni eccessivamente ottimistiche.
Uno studio di Yale2 ha rilevato che la perdita di dati può aumentare o ridurre le prestazioni delle metriche dei modelli basati sul neuroimaging, a seconda che le informazioni perse introducano rumore o creino schemi non realistici. Questi modelli vengono utilizzati per diagnosticare le malattie, per identificare i trattamenti e per aiutare i neuroscienziati a comprendere meglio la relazione tra cervello e corpo.
La perdita di dati nei modelli di machine learning può avere vari impatti in diversi campi e tipi di dati. I più comuni sono:
Scarsa generalizzazione ai nuovi dati: quando i modelli vengono addestrati su informazioni che non rappresentano il mondo reale, il modello faticherà a generalizzare ai dati invisibili. Le previsioni sui nuovi dati potrebbero essere imprecise e inaffidabili.
Processo decisionale parziale: i pregiudizi nei dati persi corrono il rischio di distorcere il comportamento del modello, con conseguenti decisioni ingiuste e separate dagli scenari del mondo reale.
Insights e risultati inaffidabili: la perdita di dati compromette l'affidabilità degli insight derivati dal modello, portando gli utenti a non fidarsi dei risultati.
Metriche di prestazioni gonfiate: le perdite nei modelli di machine learning spesso si traducono in modelli che mostrano erroneamente accuratezza e precisione elevate.
Spreco di risorse: trovare e correggere le perdite di dati dopo che un modello è stato addestrato richiede tempo e denaro. La correzione della perdita di dati richiede la riqualificazione dei modelli da zero, estremamente costosa dal punto di vista computazionale, nonché la rielaborazione dell'intera pipeline dei modelli, dalla pre-elaborazione dei dati alla riqualificazione, che può richiedere un uso intensivo di risorse in termini di impegno umano e costi di elaborazione.
Perdita di fiducia: i modelli inaffidabili finiscono per creare sfiducia nei team di data science e nell'intero processo di analytics.
Rischi legali e di conformità: la perdita di dati nell'analisi predittiva può portare a rischi legali e normativi. Se le informazioni sensibili vengono utilizzate in modo improprio, c'è il rischio di incorrere sanzioni e danni alla reputazione.