La fuite de données est un piège courant dans l’entraînement des algorithmes de machine learning pour la modélisation prédictive. Une étude de la National Library of Medicine1 a révélé que, dans 17 domaines scientifiques différents où des méthodes de machine learning ont été appliquées, au moins 294 articles scientifiques ont été affectés par la fuite de données, ce qui a conduit à des performances trop optimistes.
Une étude de Yale2 a montré que la fuite de données peut faire augmenter ou diminuer les indicateurs de performance des modèles basés sur l’imagerie cérébrale, selon que les informations divulguées présentent du bruit ou créent des modèles irréalistes. Ces modèles sont utilisés pour diagnostiquer les maladies, identifier les traitements et aider les neuroscientifiques à mieux comprendre la relation entre le cerveau et le corps.
La fuite de données dans les modèles de machine learning peut avoir différents impacts à travers les différents champs et types de données. Voici les plus courants :
Défaut de généralisation aux nouvelles données : lorsque les modèles sont entraînés avec des informations qui ne représentent pas le monde réel, le modèle aura du mal à se généraliser aux données invisibles. Les prévisions sur les nouvelles données peuvent s’avérer inexactes et peu fiables.
Prise de décision biaisée : les données divulguées risquent de fausser le comportement des modèles, ce qui se traduit par des décisions injustes et incompatibles avec les scénarios réels.
Des informations et des résultats peu fiables : la fuite de données compromet la fiabilité des informations dérivées du modèle, ce qui conduit les utilisateurs à se méfier des résultats.
Indicateurs de performance surévalués : les fuites dans les modèles de machine learning entraînent souvent des modèles affichant à tort une précision et une exactitude élevées.
Gaspillage des ressources : détecter et corriger les fuites de données après l’entraînement d’un modèle prend du temps et s’avère coûteux. La correction des fuites de données nécessite de réentraîner les modèles à partir de zéro, ce qui est coûteux en calcul, mais aussi de retravailler l’ensemble du pipeline de modèles, du prétraitement des données jusqu’au réentraînement, qui peut être gourmand en ressources en termes d’efforts humains et de coûts de calcul.
Perte de confiance : les modèles peu fiables finissent par susciter la méfiance de la part des équipes de data scientists et mettre en doute le processus analytique global.
Risques juridiques et de conformité : la fuite de données dans l’analyse prédictive peut entraîner des risques juridiques et réglementaires. Si des informations sensibles sont utilisées à mauvais escient, elles peuvent entraîner des sanctions et des dommages sur la réputation.