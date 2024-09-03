Ketika chatbot AI berperilaku salah

Sascha Brodsky

IBM

Tantangan baru telah muncul di dunia kecerdasan buatan yang berkembang pesat. “Pembisik AI” menyelidiki batas-batas etika AI dengan meyakinkan chatbot yang berperilaku baik untuk melanggar aturan mereka sendiri.

Dikenal sebagai injeksi prompt atau “jailbreak,” eksploitasi ini memaparkan kerentanan dalam sistem AI dan menimbulkan kekhawatiran tentang keamanannya. Microsoft baru-baru ini memicu reaksi kuat dengan teknik "Skeleton Key", sebuah proses dengan beberapa langkah yang dirancang untuk menghindari batasan etika AI. Tetapi pendekatan ini bukan hal baru seperti yang mungkin terlihat.

"Skeleton Key unik karena membutuhkan banyak interaksi dengan AI," jelas Chenta Lee, Chief Architect of Threat Intelligence IBM. “Sebelumnya, sebagian besar serangan injeksi prompt bertujuan untuk membingungkan AI dalam sekali percobaan. Skeleton Key melakukan beberapa upaya yang dapat meningkatkan tingkat keberhasilan.”

Seni manipulasi AI

Dunia jailbreak AI beragam dan terus berkembang. Beberapa serangan ternyata sederhana, sementara serangan lainnya melibatkan skenario rumit yang membutuhkan keahlian peretas yang canggih. Apa yang menyatukan mereka adalah tujuan bersama: mendorong asisten digital ini melampaui batas terprogram mereka.

Eksploitasi ini memanfaatkan sifat model bahasa itu sendiri. Chatbot AI dilatih untuk bersifat membantu dan memahami konteks. Pelaku jailbreak menciptakan skenario di mana AI mempercayai bahwa mengabaikan pedoman etika standar adalah tepat.

Meskipun serangan dengan banyak langkah seperti Skeleton Key menjadi berita utama, namun Lee berpendapat bahwa teknik dengan satu serangan tetap menjadi perhatian yang lebih penting. “Lebih mudah menggunakan satu serangan untuk menyerang model bahasa besar,” ungkapnya. “Bayangkan memasukkan injeksi prompt dalam resume Anda untuk membingungkan sistem perekrutan yang didukung AI. Itu adalah serangan satu kali tanpa kesempatan untuk melakukan banyak interaksi."

Menurut pakar keamanan siber, konsekuensi potensial serangan ini mengkhawatirkan. “Pelaku jahat dapat menggunakan Skeleton Key untuk menerobos perlindungan AI dan menghasilkan konten berbahaya, menyebarkan informasi yang menyesatkan, atau mengotomatiskan serangan rekayasa sosial dalam skala besar,” Stephen Kowski, Field CTO di SlashNext Email Security+ memperingatkan.

Meskipun banyak dari serangan ini yang tetap bersifat spekulatif, implikasi dunia nyata mulai muncul. Lee mengutip contoh peneliti yang meyakinkan agen virtual didukung AI milik perusahaan untuk menawarkan diskon besar-besaran yang ilegal. “Anda dapat membingungkan agen virtual mereka dan mendapatkan diskon yang bagus. Itu mungkin bukan yang diinginkan perusahaan,” katanya.

Dalam penelitiannya sendiri, Lee telah mengembangkan bukti konsep untuk menunjukkan bagaimana LLM dapat dihipnotis untuk membuat kode yang rentan dan jahat, serta bagaimana percakapan audio langsung dapat dicegat dan terdistorsi nyaris seketika.

Memperkuat perbatasan digital

Bertahan terhadap serangan ini adalah tantangan yang berkelanjutan. Lee menguraikan dua pendekatan utama: peningkatan pelatihan AI dan membangun firewall AI.

“Kami ingin melakukan pelatihan yang lebih baik sehingga model itu sendiri akan tahu, 'Oh, seseorang mencoba menyerang saya,'” jelas Lee. “Kami juga akan memeriksa semua kueri yang masuk ke model bahasa dan mendeteksi injeksi prompt.”

Karena AI generatif menjadi lebih terintegrasi ke dalam kehidupan kita sehari-hari, memahami kerentanan ini bukan hanya perhatian para pakar. Semakin penting bagi siapa pun yang berinteraksi dengan sistem AI untuk menyadari potensi kelemahan mereka.

Lee membandingkannya dengan era awal serangan injeksi SQL pada basis data. “Industri membutuhkan waktu 5-10 tahun untuk membuat semua orang mengerti bahwa ketika menulis SQL query, Anda perlu membuat parameter untuk semua input agar kebal terhadap serangan injeksi,” katanya. “Untuk AI, kami mulai memanfaatkan model bahasa di mana-mana. Orang perlu memahami bahwa mereka tidak bisa begitu saja memberikan instruksi sederhana kepada AI karena hal itu akan membuat perangkat lunak Anda rentan."

Penemuan metode jailbreaking seperti Skeleton Key dapat melemahkan kepercayaan publik pada AI, berpotensi memperlambat adopsi teknologi AI yang bermanfaat. Menurut Narayana Pappu, CEO Zendata, transparansi dan verifikasi independen sangat penting untuk membangun kembali kepercayaan.

"Pengembang dan organisasi AI dapat menyeimbangkan antara menciptakan model bahasa yang kuat dan serbaguna serta memastikan perlindungan yang kuat terhadap penyalahgunaan," katanya. “Mereka dapat melakukannya melalui transparansi sistem internal, memahami risiko rantai pasokan AI/data, dan membangun alat evaluasi ke dalam setiap tahap proses pengembangan.”

 
