Apa itu keamanan agen AI?

Penyusun

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Agen AI Keamanan agen AI adalah praktik perlindungan terhadap risiko penggunaan agen AI dan ancaman terhadap aplikasi agen. Ini melibatkan pengamanan agen itu sendiri dan sistem yang berinteraksi dengan mereka, membantu memastikan bahwa mereka beroperasi sebagaimana mestinya tanpa dieksploitasi untuk tujuan yang berbahaya.

Agen adalah sistem AI yang dirancang untuk berfungsi secara mandiri dengan merencanakan, membuat keputusan, dan memanggil alat bantu eksternal. Agen sangat penting untuk melindungi dari serangan siber eksternal dan tindakan tidak diinginkan yang dilakukan oleh agen. Karena AI agen adalah bidang yang berkembang pesat, lingkungan ancaman berkembang secara real-time seiring dengan perkembangan teknologi. 

Salah satu fitur yang menentukan dari agen AI adalah kemampuan mereka untuk melakukan pemanggilan alat, di mana mereka terhubung ke API, basis data, situs web, atau alat lain dan menggunakannya saat dibutuhkan. Pemanggilan alat biasanya diatur melalui kerangka kerja agen AI dan API. 

Secara teoretis, agen menggunakan alat untuk menambah kemampuan mereka sendiri dalam perencanaan dan penyelesaian tugas yang kompleks. Sebagai contoh, agen layanan pelanggan dapat berinteraksi dengan pelanggan, kemudian terhubung ke basis data internal untuk mengakses riwayat belanja pelanggan tersebut. 

Sistem multiagen melakukannya selangkah lebih jauh dengan menggabungkan beberapa agen untuk mendelegasikan tugas kompleks menjadi potongan yang lebih kecil. Agen perencanaan pusat mengelola alur kerja agen sementara agen pekerja menyelesaikan bagian tugas yang ditugaskan kepada mereka. 

Pengambilan keputusan AI otonom dan pemanggilan alat digabungkan untuk menghadirkan permukaan serangan bercabang dua yang luas. Peretas dapat memanipulasi perilaku agen dan menyebabkannya menyalahgunakan alat atau menyerang alat itu sendiri melalui vektor yang lebih tradisional seperti injeksi SQL. Keamanan agen AI berupaya melindungi sistem AI agen terhadap kedua jenis ancaman tersebut. 

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Lingkungan ancaman AI agen

Sistem AI agen menawarkan kerentanan yang lebih besar jika dibandingkan dengan model AI yang berdiri sendiri, seperti model bahasa besar (LLM), atau aplikasi perangkat lunak tradisional. Bahkan tanpa kehadiran penyerang, agen itu sendiri bisa menimbulkan risiko keamanan jika tidak dikelola dan dipelihara dengan baik dengan batas, izin, dan kontrol akses yang jelas. 

Lingkungan ancaman agen AI mencakup: 

  • Permukaan serangan yang diperluas

  • Tindakan otonom cepat 

  • Kesimpulan yang tidak dapat diprediksi 

  • Kurangnya transparansi

    Agen AI

    5 Jenis Agen AI: Fungsi Otonom & Aplikasi Dunia Nyata

    Pelajari bagaimana AI berbasis tujuan dan berbasis utilitas beradaptasi dengan alur kerja dan lingkungan yang kompleks.

    Permukaan serangan yang diperluas

    Agen sering kali dimasukkan ke dalam sistem lebih besar yang mencakup API, basis data, sistem berbasis cloud, dan bahkan agen lain (sistem multiagen). Setiap elemen dalam sistem agen memiliki rangkaian kerentanannya sendiri. Penyerang memiliki berbagai alat dan eksploitasi yang dapat mereka gunakan untuk menargetkan titik-titik lemah potensial dalam alur kerja agen.

    Tindakan otonom cepat

    Otomatisasi agen berarti bahwa agen bertindak tanpa menerima instruksi eksplisit dari pengguna manusia. Agen dapat bertindak dengan cepat, berpotensi berhubungan dengan agen lain yang juga melakukan hal yang sama pada saat bersamaan. Setiap tindakan dan output agen ini menimbulkan peluang serangan dan vektor perluasan jika penyerang berhasil menyusupi agen atau seluruh sistem agen.

    Kesimpulan yang tidak dapat diprediksi

    Inferensi adalah proses di mana LLM dan AI generatif lainnya, termasuk agen, membuat keputusan. Singkatnya, mereka menggunakan pemodelan statistik untuk “menyimpulkan” output yang paling mungkin untuk input apa pun. Karena inferensi bersifat probabilistik, output model tidak dapat sepenuhnya diprediksi, yang menyebabkan ketidakpastian dalam perilaku agen. 

    Dengan demikian, penyedia keamanan siber tidak dapat dengan sempurna mengantisipasi apa yang akan dilakukan agen. Ketidakpastian ini memperumit sifat mitigasi ancaman agen dibandingkan dengan teknik keamanan siber tradisional.

    Kurangnya transparansi

    Banyak model AI, seperti model GPT dari OpenAI dan Claude dari Anthropic, bukan model sumber terbuka. Tidak mungkin untuk “melihat ke dalam” model ini dan mencari tahu bagaimana mereka membuat keputusan. Dan bahkan model sumber terbuka tidak menawarkan transparansi penuh, mengingat sifat kompleks dan tidak transparan bawaan mereka tentang bagaimana model menghasilkan output. 

    Personel keamanan siber yang bekerja dengan sistem agen mungkin akan mengalami lebih banyak kesulitan dalam melakukan analisis akar masalah dan merumuskan rencana respons insiden.

    Kerentanan AI agen

    Sifat lingkungan ancaman agen dengan beragam aspek menimbulkan berbagai kerentanan yang dapat dieksploitasi oleh penyerang. 

    Kerentanan keamanan agen AI meliputi: 

    • Injeksi prompt 

    • Manipulasi alat dan API 

    • Peracunan data 

    • Peracunan memori 

    • Membahayakan hak istimewa 

    • Pemalsuan autentikasi dan kontrol akses 

    • Serangan eksekusi kode jarak jauh (RCE) 

    • Kegagalan berjenjang dan pembebanan sumber daya

      Injeksi prompt

      Injeksi prompt adalah salah satu kerentanan yang paling parah dari semua model bahasa besar (LLM), bukan hanya agen AI. Tetapi risiko ini diperbesar pada agen karena mereka dapat mengambil tindakan otonom. Dalam serangan injeksi prompt, penyerang memberikan input jahat kepada LLM yang memerintahkannya untuk berperilaku dengan cara yang tidak diinginkan. Agen dapat diinstruksikan untuk mengabaikan pedoman keamanan dan etika, mengirim email phishing, membocorkan data, atau menyalahgunakan alat. 

      Serangan injeksi prompt tidak langsung menyembunyikan prompt berbahaya dalam sumber data agen dan tidak memberikannya ke model secara langsung. Saat agen memanggil sumber data, seperti situs web eksternal, prompt berbahaya dikirimkan ke model. Agen multimodal yang mampu menangani berbagai jenis data sangat rentan terhadap jenis serangan ini—setiap bentuk data yang dapat diproses oleh agen adalah vektor serangan potensial.

      Manipulasi tujuan versus pembajakan agen

      Manipulasi tujuan dan pembajakan agen sering kali merupakan hasil yang diinginkan untuk serangan injeksi prompt. Dengan manipulasi tujuan, penyerang mengubah cara agen melakukan pendekatan terhadap tugas dan membuat keputusan dengan mengubah tujuan atau proses berpikirnya. Pembajakan agen adalah serangan di mana penyerang memaksa agen untuk melakukan tindakan yang tidak diinginkan, seperti mengakses data sensitif

      Manipulasi alat dan API

      AI agen dikenal karena kemampuannya untuk menggunakan alat dan terhubung ke API. Tetapi kemampuan yang sama ini juga merupakan kerentanan. Penyerang sering kali mengelabui agen melalui injeksi prompt untuk menyalahgunakan alat yang terhubung dengannya. 

      Penyalahgunaan alat dapat mengakibatkan kebocoran data di mana agen mengeluarkan data pengguna yang sensitif kepada penyerang, atau serangan DDoS (denial-of-service terdistribusi) di mana agen mempersenjatai koneksi eksternalnya. Dalam serangan seperti ini, agen mengoordinasikan banjir permintaan koneksi ke jaringan target, membebani jaringan tersebut, dan memaksanya untuk padam.

      Peracunan data

      Peracunan data adalah masuknya data berbahaya ke dalam kumpulan data pelatihan agen atau sumber data eksternal. Data menentukan bagaimana agen belajar, bernalar, dan berperilaku. Merusak data pelatihan atau input dapat mengakibatkan perilaku yang tidak diinginkan, seperti kebocoran data. 

      Misalnya, agen pengodean mungkin memanggil pustaka kode eksternal untuk referensi. Slopsquatting—gabungan kata dari "AI slop" dan "typo squatting"—adalah ketika seseorang dengan sengaja mendaftarkan nama pustaka kode yang mirip dengan nama pustaka yang sebenarnya. Tujuannya adalah agar model secara tidak sengaja menarik sebagian kode dari pustaka palsu dan menambahkannya ke kode yang telah dibuat. 

      Seiring dengan penyalahgunaan alat, peracunan data adalah komponen eksploitasi rantai pasokan: di mana penyerang menyusup dan merusak sistem di sekitar agen AI.

      Peracunan memori

      Peracunan memori adalah kerusakan pada memori persisten agen: data yang disimpan agen yang terus memberikannya informasi tentang apa yang baru saja dilakukannya. Serangan peracunan memori dimaksudkan untuk membentuk perilaku agen pada masa depan dengan mengubah pemahamannya tentang tindakan sebelumnya.

      Kompromi hak istimewa

      Agen yang berada di pusat alur kerja otomatis memiliki izin sistem yang memungkinkannya mengakses data dan alat yang dibutuhkan untuk tugas yang diberikan. Jika agen tidak dipantau, mereka mungkin mempertahankan atau diberikan izin berlebihan melampaui kebutuhan mereka. 

      Jika hak istimewa ini tidak dihapus ketika agen tidak lagi membutuhkannya, mereka tidak lagi memberikan nilai tambah—tetapi tetap merupakan vektor serangan yang potensial. Penyerang dapat mengeksploitasi izin agen untuk mengirim pesan, mengeksekusi transaksi, memberikan penyerang lebih banyak izin, mengubah sistem, membaca data sensitif, dan banyak lagi.

      Pemalsuan autentikasi dan kontrol akses

      Jika penyerang berhasil mencuri kredensial agen, mereka dapat menyamar sebagai agen tersebut untuk membahayakan sistem yang dapat diakses agen. Memalsukan identitas agen memberikan penyerang izin yang sama dengan yang dimiliki agen—kini pengguna yang tidak sah juga bisa melakukan apa pun yang bisa dilakukan agen. 

      Protokol autentikasi yang lemah dikombinasikan dengan machine learning untuk menghasilkan gerakan lateral yang cepat: ketika penyerang bergerak lebih dalam ke jaringan setelah pelanggaran awal. Pergerakan lateral membuka pintu untuk eksfiltrasi data, serangan phishing, distribusi malware, dan banyak lagi. Penyerang juga dapat menyesuaikan cara agen berperilaku untuk mengubah tindakannya pada kemudian hari.

      Serangan eksekusi kode jarak jauh (RCE)

      Eksekusi kode jarak jauh (RCE) adalah jenis serangan siber di mana penyerang menginjeksi kode berbahaya ke dalam sistem dari lokasi yang berbeda. Dengan agen, penyerang dapat membuat agen menjalankan kode berbahaya yang memberikan penyerang akses ke lingkungan eksekusi kode. Contoh dunia nyata yang umum melibatkan penyerang yang mengekstrak kredensial pengguna dari sistem host agen yang disusupi.

      Kegagalan berjenjang dan pembebanan sumber daya

      Baik kegagalan berjenjang maupun pembebanan sumber daya mengakibatkan kewalahan pada sistem agen. Dalam sistem multiagen, kegagalan berjenjang terjadi ketika output agen yang disusupi berdampak negatif pada agen berikutnya dalam jaringan hingga seluruh sistem padam. 

      Pembebanan sumber daya mirip dengan serangan DDoS terhadap agen: penyerang membebani agen dengan permintaan yang melebihi throughput, berpotensi mengganggu waktu proses sama sekali. Dari perspektif pengguna akhir, aplikasi yang didukung agen tampaknya sedang padam.

      Langkah-langkah keamanan agen AI

      Terlepas dari lingkungan ancaman yang luas dan beragam, sistem AI agen dapat diamankan dengan tindakan pencegahan yang efektif dan batasan AI. Mengadopsi postur keamanan yang proaktif dan mengikuti praktik terbaik saat ini untuk manajemen kerentanan dapat membantu para profesional ML dan keamanan siber mengamankan agen AI dan tetap mengungguli para penjahat siber yang giat. 

      Praktik terbaik keamanan agen AI meliputi: 

      • Arsitektur zero trust 

      • Prinsip hak istimewa terkecil 

      • Autentikasi sadar konteks

      • Enkripsi data 

      • Segmentasi mikro 

      • Pengamanan prompt 

      • Validasi prompt 

        Arsitektur zero trust

        Arsitektur Zero-trust (ZTA) adalah sebuah pendekatan keamanan siber yang mengasumsikan bahwa secara default tidak ada perangkat di jaringan yang dapat dipercaya. Sebaliknya, setiap permintaan akses jaringan harus diautentikasi dan diotorisasi sebelum dapat dilanjutkan. Pemantauan berkelanjutan dan autentikasi multifaktor (MFA) membantu menangkal ancaman. 

        Bayangkan jaringan sebagai situs web dan permintaan akses sebagai pengguna situs itu. Dengan ZTA, tidak ada opsi di layar login untuk mencentang kotak dan memerintahkan situs untuk “ingat saya lain kali.” Pengguna harus memasukkan kata sandi mereka—dan memenuhi tantangan MFA lainnya—setiap kali mereka ingin masuk. 

        Dengan memilih untuk “jangan pernah percaya, selalu verifikasi,” ZTA mengurangi kapasitas penyerang untuk gerakan lateral, sehingga mengurangi permukaan serangan dan memberikan lebih banyak waktu kepada keamanan untuk merespons.

        Prinsip hak istimewa terkecil

        Prinsip hak istimewa terkecil menyatakan bahwa setiap perangkat atau agen dalam jaringan harus memiliki izin serendah mungkin yang diperlukan untuk tanggung jawab mereka. Ini setara dengan menempatkan semua orang dan segala sesuatu pada tingkatan “perlu mengetahui” yang ketat. Kontrol akses berbasis peran (RBAC) dan kontrol akses berbasis atribut (ABAC) adalah dua metode untuk mempertahankan tingkat hak istimewa dan meningkatkan keamanan data.

        Autentikasi sadar konteks

        Otentikasi sadar konteks memungkinkan agen untuk mengambil data hanya jika pengguna diizinkan untuk mengaksesnya. Izin akses dapat menyesuaikan secara dinamis tergantung pada peran agen, izin, atau bahkan waktu dalam sehari. 

        Enkripsi data

        Selain meminimalkan akses dengan prinsip hak istimewa terkecil, data dapat dilindungi lebih jauh terhadap agen yang disusupi melalui enkripsi. Data dalam perjalanan dan tidak aktif harus dienkripsi dengan enkripsi AES-256 atau sejenisnya. Data yang mengandung informasi sensitif, seperti informasi identifikasi pribadi (PII), juga harus dianonimkan untuk lebih melindungi karyawan dan pelanggan.

        Segmentasi mikro

        Segmentasi mikro adalah praktik desain memecah jaringan dan lingkungan menjadi segmen terpisah. Ketika agen dapat mengeksekusi kode, mereka harus melakukannya di lingkungan sandbox untuk mencegah gerakan lateral. Kontrol waktu proses yang ketat semakin memperkuat lingkungan untuk membatasi agen di dalam lingkungan sandbox.

        Pengamanan instruksi prompt

        Penguatan prompt adalah praktik keamanan AI dengan memberikan LLM instruksi ketat dan terbatas yang hanya menyisakan sedikit ruang untuk kesalahan penafsiran. Dengan membatasi agen pada jalur yang sempit, perancang sistem ML dapat membantu membatasi kemampuan penyerang untuk mengelabui agen agar melakukan perilaku yang tidak dimaksudkan. 

        Teknik pengamanan instruksi prompt mencakup melarang agen untuk mengungkapkan instruksinya dan memintanya untuk secara otomatis menolak permintaan apa pun yang berada di luar cakupan yang dibatasi.

        Validasi Prompt

        Validasi prompt memeriksa prompt terhadap aturan yang telah ditentukan sebelumnya sebelum diteruskan ke agen. Dikenal juga sebagai sanitasi prompt atau validasi input, praktik ini membantu mengisolasi agen dari serangan injeksi prompt. Output ini juga harus divalidasi sebelum digunakan jika agen disusupi.

        Pelatihan adversarial

        Pelatihan adversarial mengajarkan model untuk mengenali potensi serangan dengan memadukan input menipu ke dalam data pelatihan. Pelatihan adversarial terus dikembangkan secara berkelanjutan dan belum menjadi kumpulan protokol pelatihan standar.

        Solusi terkait
        Agen AI untuk bisnis

        Bangun, terapkan, dan kelola asisten dan agen AI yang kuat yang mengotomatiskan alur kerja dan proses dengan AI generatif.

          Menjelajahi watsonx Orchestrate
          Solusi agen AI IBM

          Bangun masa depan bisnis Anda dengan solusi AI yang dapat Anda percaya.

          Jelajahi solusi agen AI
          Layanan AI IBM Consulting

          Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

          Jelajahi layanan kecerdasan buatan
          Ambil langkah selanjutnya

          Baik Anda memilih untuk menyesuaikan aplikasi dan keterampilan yang dibangun sebelumnya atau membangun dan menerapkan layanan agen khusus menggunakan studio AI, platform IBM watsonx siap membantu Anda.

          Menjelajahi watsonx Orchestrate Jelajahi watsonx.ai