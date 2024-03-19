Bagaimana AI dapat diretas dengan injeksi prompt: Laporan NIST

Penyusun

Ronda Swaney

Freelance Technology Writer

Institut Standar dan Teknologi Nasional (NIST) memiliki alasan yang tepat untuk mengamati siklus hidup AI dengan cermat. Ketika AI berkembang pesat, begitu pula penemuan dan eksploitasi kerentanan keamanan siber AI. Injeksi prompt adalah salah satu kerentanan yang secara khusus menyerang AI generatif.

Dalam laporan Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations, NIST mendefinisikan berbagai taktik machine learning adversarial (AML) dan serangan siber, seperti injeksi prompt, dan menyarankan pengguna tentang cara memitigasi dan mengelolanya. Taktik AML mengekstrak informasi tentang bagaimana sistem machine learning (ML) berperilaku untuk menemukan bagaimana mereka dapat dimanipulasi. Informasi tersebut digunakan untuk menyerang AI dan model bahasa besarnya (LLM) untuk menghindari keamanan, menerobos perlindungan, dan membuka jalur untuk mengeksploitasi.

Apa itu injeksi prompt?

NIST mendefinisikan dua jenis serangan injeksi prompt: langsung dan tidak langsung. Dengan injeksi prompt langsung, pengguna memasukkan prompt teks yang menyebabkan LLM melakukan tindakan yang tidak dimaksudkan atau tidak sah. Injeksi prompt tidak langsung terjadi ketika penyerang mencemarkan atau menurunkan kualitas data yang diambil LLM.

Salah satu metode injeksi prompt langsung yang paling terkenal adalah DAN, Do Anything Now, injeksi prompt yang digunakan untuk melawan ChatGPT. DAN menggunakan permainan peran untuk menghindari filter moderasi. Dalam iterasi pertamanya, prompt menginstruksikan ChatGPT bahwa alat ini sekarang menjadi DAN. DAN dapat melakukan apa saja yang diinginkannya dan harus berpura-pura, misalnya, membantu orang jahat membuat dan meledakkan bahan peledak. Taktik ini menghindari filter yang mencegahnya memberikan informasi kejahatan atau berbahaya dengan mengikuti skenario permainan peran. OpenAI, pengembang ChatGPT, melacak taktik ini dan memperbarui model untuk mencegah penggunaannya, tetapi pengguna terus menghindari filter sampai metode tersebut berkembang menjadi (setidaknya) DAN 12.0.

Injeksi prompt tidak langsung, seperti yang diamati NIST, bergantung pada kemampuan penyerang untuk memberikan sumber yang akan diserap oleh model AI generatif, seperti PDF, dokumen, halaman web, atau bahkan file audio yang digunakan untuk menghasilkan suara palsu. Injeksi prompt tidak langsung diyakini secara luas sebagai kelemahan keamanan terbesar AI generatif dan tidak ada cara sederhana untuk menemukan dan memperbaiki serangan ini. Contoh jenis prompt ini sangat luas dan beragam. Mulai dari yang tidak masuk akal (membuat chatbot merespons menggunakan "gaya bicara bajak laut") hingga yang bersifat merusak (menggunakan obrolan hasil rekayasa sosial untuk meyakinkan pengguna agar mengungkapkan kartu kredit dan data pribadi lainnya), sampai yang bersifat luas (membajak asisten AI untuk mengirim email penipuan kepada seluruh daftar kontak Anda).

Cara menghentikan serangan injeksi prompt

Serangan ini cenderung tersembunyi dengan baik, yang membuatnya efektif dan sulit dihentikan. Bagaimana Anda melindungi diri dari injeksi prompt langsung? Seperti yang diamati NIST, Anda tidak dapat menghentikannya sepenuhnya, tetapi strategi defensif memberikan perlindungan ekstra. Untuk pembuat model, NIST menyarankan untuk memastikan bahwa kumpulan data pelatihan dikurasi dengan cermat. Mereka juga menyarankan untuk melatih model tentang jenis input apa yang menandakan upaya injeksi prompt dan pelatihan tentang cara mengidentifikasi prompt adversarial.

Untuk injeksi prompt tidak langsung, NIST menyarankan keterlibatan manusia untuk menyempurnakan model, yang dikenal sebagai pembelajaran penguatan dari masukan manusia (RLHF). RLHF membantu model menyelaraskan lebih baik dengan nilai-nilai manusia yang mencegah perilaku yang tidak diinginkan. Saran lain adalah menyaring instruksi dari input yang diambil, yang dapat mencegah eksekusi instruksi yang tidak diinginkan dari sumber luar. NIST lebih lanjut menyarankan untuk menggunakan moderator LLM untuk membantu mendeteksi serangan yang eksekusinya tidak bergantung pada sumber yang diambil. Terakhir, NIST mengusulkan solusi berbasis interpretabilitas. Itu berarti bahwa lintasan prediksi model yang mengenali input anomali dapat digunakan untuk mendeteksi dan kemudian menghentikan input anomali.

AI Generatif dan mereka yang ingin mengeksploitasi kerentanannya akan terus mengubah lingkungan keamanan siber. Tetapi kekuatan transformasi yang sama juga dapat memberikan solusi. Pelajari lebih lanjut tentang bagaimana IBM Security menghadirkan solusi keamanan siber AI yang memperkuat pertahanan keamanan.

