Berkat upaya para peneliti yang telah menemukan kelemahan ini, tindakan pencegahan telah dikembangkan untuk membantu meningkatkan ketahanan model machine learning.
Untuk serangan penghindaran seperti yang baru saja dijelaskan, para pakar telah mengembangkan metode yang disebut pelatihan adversarial. Pada dasarnya, prosesnya hanya melibatkan memasukkan, bersama data “bersih”, data yang telah diubah dengan cara yang mungkin dicoba oleh peretas, sehingga model belajar untuk memberi label dengan benar bahkan contoh-contoh adversarial ini. Mitigasi ini, meskipun efektif, dapat mahal dalam dua hal: 1) melibatkan lebih banyak komputasi, dan 2) model mungkin menjadi sedikit kurang akurat secara keseluruhan setelah terpapar data yang terganggu. “[M]elatih model yang kuat mungkin tidak hanya lebih memakan sumber daya, tetapi juga menyebabkan pengurangan akurasi standar,” tulis para peneliti MIT penulis makalah 2018 berjudul “Robustness May Be at Odds with Accuracy.”9
Secara umum, prinsip-prinsip keamanan siber yang baik berlaku pada ranah machine learning. Pertahanan operasional termasuk alat deteksi anomali dan deteksi intrusi yang memeriksa pola yang tidak biasa dalam data atau lalu lintas yang mungkin mengindikasikan peretas mencoba mencampuri sistem ML, apa pun tahap siklusnya. Selain itu, red team, atau sengaja mengekspos model ke serangan terkontrol dari para profesional keamanan siber yang mensimulasikan serangan musuh, adalah cara yang efektif untuk sistem uji stres.
Di bidang yang bergerak secepat AI, lanskap risiko terus berubah. Organisasi seperti Institut Standar dan Teknologi Nasional adalah sumber untuk perkembangan terbaru. Laporan10 NIST 2024 tentang manajemen risiko AI menyentuh machine learning permusuhan, sementara juga mencakup pendekatan terhadap risiko AI secara lebih luas—termasuk tema seperti bias, halusinasi, dan privasi. Mengadopsi kerangka kerja tata kelola AI juga dapat lebih membantu mengamankan model terhadap musuh.