Grazie agli sforzi dei ricercatori che hanno scoperto queste debolezze, sono state sviluppate contromisure per aumentare la robustezza dei modelli di machine learning.
Per gli attacchi di evasione del tipo appena descritto, gli esperti hanno sviluppato metodi di cosiddetto addestramento adversarial. In sostanza, il processo consiste semplicemente nell'includere, accanto ai dati "puliti", dati che sono stati modificati nel modo in cui potrebbero tentare di farlo gli hacker, in modo che il modello impari a etichettare correttamente anche questi esempi adversarial. Questa mitigazione, sebbene efficace, può essere costosa in due sensi: 1) richiede più calcolo, e 2) i modelli possono diventare complessivamente leggermente meno accurati dopo l'esposizione a dati perturbati. Nel documento del 2018, "Robustness May Be at Odds with Accuracy", i ricercatori dell'MIT hanno scritto che "l'addestramento di modelli robusti potrebbe non solo richiedere più risorse, ma anche portare a una riduzione dell'accuratezza standard".9
In generale, i principi di una buona cybersecurity si applicano al campo del machine learning. Le difese operative includono strumenti di rilevamento delle anomalie e delle intrusioni che verificano la presenza di modelli insoliti nei dati o nel traffico che potrebbero indicare che un hacker sta tentando di intromettersi in un sistema di machine learning, indipendentemente dalla fase del suo ciclo di vita. Inoltre, il red teaming, ovvero l'esposizione deliberata dei modelli ad attacchi controllati da parte di professionisti della cybersecurity che simulano quelli degli avversari, è un modo efficace per mettere alla prova i sistemi.
In un settore in rapida evoluzione come l'AI, il panorama del rischio è in costante evoluzione. Organizzazioni come il National Institute of Standards and Technology sono fonti degli ultimi sviluppi. Il report10 del NIST del 2024 sulla gestione del rischio nell'AI tratta dell'adversarial machine learning, comprende anche approcci più generali ai rischi legati all'AI, inclusi temi quali distorsioni, allucinazioni e privacy. Adottare un framework di governance dell'AI può anche aiutare ulteriormente a proteggere i modelli contro i malintenzionati.