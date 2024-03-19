NIST mendefinisikan dua jenis serangan injeksi prompt: langsung dan tidak langsung. Dengan injeksi prompt langsung, pengguna memasukkan prompt teks yang menyebabkan LLM melakukan tindakan yang tidak dimaksudkan atau tidak sah. Injeksi prompt tidak langsung terjadi ketika penyerang mencemarkan atau menurunkan kualitas data yang diambil LLM.

Salah satu metode injeksi prompt langsung yang paling terkenal adalah DAN, Do Anything Now, injeksi prompt yang digunakan untuk melawan ChatGPT. DAN menggunakan permainan peran untuk menghindari filter moderasi. Dalam iterasi pertamanya, prompt menginstruksikan ChatGPT bahwa alat ini sekarang menjadi DAN. DAN dapat melakukan apa saja yang diinginkannya dan harus berpura-pura, misalnya, membantu orang jahat membuat dan meledakkan bahan peledak. Taktik ini menghindari filter yang mencegahnya memberikan informasi kejahatan atau berbahaya dengan mengikuti skenario permainan peran. OpenAI, pengembang ChatGPT, melacak taktik ini dan memperbarui model untuk mencegah penggunaannya, tetapi pengguna terus menghindari filter sampai metode tersebut berkembang menjadi (setidaknya) DAN 12.0.

Injeksi prompt tidak langsung, seperti yang diamati NIST, bergantung pada kemampuan penyerang untuk memberikan sumber yang akan diserap oleh model AI generatif, seperti PDF, dokumen, halaman web, atau bahkan file audio yang digunakan untuk menghasilkan suara palsu. Injeksi prompt tidak langsung diyakini secara luas sebagai kelemahan keamanan terbesar AI generatif dan tidak ada cara sederhana untuk menemukan dan memperbaiki serangan ini. Contoh jenis prompt ini sangat luas dan beragam. Mulai dari yang tidak masuk akal (membuat chatbot merespons menggunakan "gaya bicara bajak laut") hingga yang bersifat merusak (menggunakan obrolan hasil rekayasa sosial untuk meyakinkan pengguna agar mengungkapkan kartu kredit dan data pribadi lainnya), sampai yang bersifat luas (membajak asisten AI untuk mengirim email penipuan kepada seluruh daftar kontak Anda).