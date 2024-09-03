Dunia jailbreak AI beragam dan terus berkembang. Beberapa serangan ternyata sederhana, sementara serangan lainnya melibatkan skenario rumit yang membutuhkan keahlian peretas yang canggih. Apa yang menyatukan mereka adalah tujuan bersama: mendorong asisten digital ini melampaui batas terprogram mereka.

Eksploitasi ini memanfaatkan sifat model bahasa itu sendiri. Chatbot AI dilatih untuk bersifat membantu dan memahami konteks. Pelaku jailbreak menciptakan skenario di mana AI mempercayai bahwa mengabaikan pedoman etika standar adalah tepat.

Meskipun serangan dengan banyak langkah seperti Skeleton Key menjadi berita utama, namun Lee berpendapat bahwa teknik dengan satu serangan tetap menjadi perhatian yang lebih penting. “Lebih mudah menggunakan satu serangan untuk menyerang model bahasa besar,” ungkapnya. “Bayangkan memasukkan injeksi prompt dalam resume Anda untuk membingungkan sistem perekrutan yang didukung AI. Itu adalah serangan satu kali tanpa kesempatan untuk melakukan banyak interaksi."

Menurut pakar keamanan siber, konsekuensi potensial serangan ini mengkhawatirkan. “Pelaku jahat dapat menggunakan Skeleton Key untuk menerobos perlindungan AI dan menghasilkan konten berbahaya, menyebarkan informasi yang menyesatkan, atau mengotomatiskan serangan rekayasa sosial dalam skala besar,” Stephen Kowski, Field CTO di SlashNext Email Security+ memperingatkan.

Meskipun banyak dari serangan ini yang tetap bersifat spekulatif, implikasi dunia nyata mulai muncul. Lee mengutip contoh peneliti yang meyakinkan agen virtual didukung AI milik perusahaan untuk menawarkan diskon besar-besaran yang ilegal. “Anda dapat membingungkan agen virtual mereka dan mendapatkan diskon yang bagus. Itu mungkin bukan yang diinginkan perusahaan,” katanya.

Dalam penelitiannya sendiri, Lee telah mengembangkan bukti konsep untuk menunjukkan bagaimana LLM dapat dihipnotis untuk membuat kode yang rentan dan jahat, serta bagaimana percakapan audio langsung dapat dicegat dan terdistorsi nyaris seketika.