Apa itu keamanan agen AI?

Penyusun

Staff writer

Staff Editor, AI Models

IBM Think

Agen AI Keamanan agen AI adalah praktik perlindungan terhadap risiko penggunaan agen AI dan ancaman terhadap aplikasi agen. Ini melibatkan pengamanan agen itu sendiri dan sistem yang berinteraksi dengan mereka, membantu memastikan bahwa mereka beroperasi sebagaimana mestinya tanpa dieksploitasi untuk tujuan yang berbahaya.

Agen adalah sistem AI yang dirancang untuk berfungsi secara mandiri dengan merencanakan, membuat keputusan, dan memanggil alat bantu eksternal. Agen sangat penting untuk melindungi dari serangan siber eksternal dan tindakan tidak diinginkan yang dilakukan oleh agen. Karena AI agen adalah bidang yang berkembang pesat, lingkungan ancaman berkembang secara real-time seiring dengan perkembangan teknologi.

Salah satu fitur yang menentukan dari agen AI adalah kemampuan mereka untuk melakukan pemanggilan alat, di mana mereka terhubung ke API, basis data, situs web, atau alat lain dan menggunakannya saat dibutuhkan. Pemanggilan alat biasanya diatur melalui kerangka kerja agen AI dan API.

Secara teoretis, agen menggunakan alat untuk menambah kemampuan mereka sendiri dalam perencanaan dan penyelesaian tugas yang kompleks. Sebagai contoh, agen layanan pelanggan dapat berinteraksi dengan pelanggan, kemudian terhubung ke basis data internal untuk mengakses riwayat belanja pelanggan tersebut.

Sistem multiagen melakukannya selangkah lebih jauh dengan menggabungkan beberapa agen untuk mendelegasikan tugas kompleks menjadi potongan yang lebih kecil. Agen perencanaan pusat mengelola alur kerja agen sementara agen pekerja menyelesaikan bagian tugas yang ditugaskan kepada mereka.

Pengambilan keputusan AI otonom dan pemanggilan alat digabungkan untuk menghadirkan permukaan serangan bercabang dua yang luas. Peretas dapat memanipulasi perilaku agen dan menyebabkannya menyalahgunakan alat atau menyerang alat itu sendiri melalui vektor yang lebih tradisional seperti injeksi SQL. Keamanan agen AI berupaya melindungi sistem AI agen terhadap kedua jenis ancaman tersebut.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Lingkungan ancaman AI agen

Sistem AI agen menawarkan kerentanan yang lebih besar jika dibandingkan dengan model AI yang berdiri sendiri, seperti model bahasa besar (LLM), atau aplikasi perangkat lunak tradisional. Bahkan tanpa kehadiran penyerang, agen itu sendiri bisa menimbulkan risiko keamanan jika tidak dikelola dan dipelihara dengan baik dengan batas, izin, dan kontrol akses yang jelas.

Lingkungan ancaman agen AI mencakup:

Permukaan serangan yang diperluas

Tindakan otonom cepat

Kesimpulan yang tidak dapat diprediksi

Kurangnya transparansi

Agen AI

5 Jenis Agen AI: Fungsi Otonom & Aplikasi Dunia Nyata

Pelajari bagaimana AI berbasis tujuan dan berbasis utilitas beradaptasi dengan alur kerja dan lingkungan yang kompleks.

Membangun, menerapkan, dan memantau agen AI

Permukaan serangan yang diperluas

Agen sering kali dimasukkan ke dalam sistem lebih besar yang mencakup API, basis data, sistem berbasis cloud, dan bahkan agen lain (sistem multiagen). Setiap elemen dalam sistem agen memiliki rangkaian kerentanannya sendiri. Penyerang memiliki berbagai alat dan eksploitasi yang dapat mereka gunakan untuk menargetkan titik-titik lemah potensial dalam alur kerja agen.

Tindakan otonom cepat

Otomatisasi agen berarti bahwa agen bertindak tanpa menerima instruksi eksplisit dari pengguna manusia. Agen dapat bertindak dengan cepat, berpotensi berhubungan dengan agen lain yang juga melakukan hal yang sama pada saat bersamaan. Setiap tindakan dan output agen ini menimbulkan peluang serangan dan vektor perluasan jika penyerang berhasil menyusupi agen atau seluruh sistem agen.

Kesimpulan yang tidak dapat diprediksi

Inferensi adalah proses di mana LLM dan AI generatif lainnya, termasuk agen, membuat keputusan. Singkatnya, mereka menggunakan pemodelan statistik untuk “menyimpulkan” output yang paling mungkin untuk input apa pun. Karena inferensi bersifat probabilistik, output model tidak dapat sepenuhnya diprediksi, yang menyebabkan ketidakpastian dalam perilaku agen.

Dengan demikian, penyedia keamanan siber tidak dapat dengan sempurna mengantisipasi apa yang akan dilakukan agen. Ketidakpastian ini memperumit sifat mitigasi ancaman agen dibandingkan dengan teknik keamanan siber tradisional.

Kurangnya transparansi

Banyak model AI, seperti model GPT dari OpenAI dan Claude dari Anthropic, bukan model sumber terbuka. Tidak mungkin untuk “melihat ke dalam” model ini dan mencari tahu bagaimana mereka membuat keputusan. Dan bahkan model sumber terbuka tidak menawarkan transparansi penuh, mengingat sifat kompleks dan tidak transparan bawaan mereka tentang bagaimana model menghasilkan output.

Personel keamanan siber yang bekerja dengan sistem agen mungkin akan mengalami lebih banyak kesulitan dalam melakukan analisis akar masalah dan merumuskan rencana respons insiden.

Kerentanan AI agen

Sifat lingkungan ancaman agen dengan beragam aspek menimbulkan berbagai kerentanan yang dapat dieksploitasi oleh penyerang.

Kerentanan keamanan agen AI meliputi:

Injeksi prompt

Manipulasi alat dan API

Peracunan data

Peracunan memori

Membahayakan hak istimewa

Pemalsuan autentikasi dan kontrol akses

Serangan eksekusi kode jarak jauh (RCE)

Kegagalan berjenjang dan pembebanan sumber daya

Injeksi prompt

Injeksi prompt adalah salah satu kerentanan yang paling parah dari semua model bahasa besar (LLM), bukan hanya agen AI. Tetapi risiko ini diperbesar pada agen karena mereka dapat mengambil tindakan otonom. Dalam serangan injeksi prompt, penyerang memberikan input jahat kepada LLM yang memerintahkannya untuk berperilaku dengan cara yang tidak diinginkan. Agen dapat diinstruksikan untuk mengabaikan pedoman keamanan dan etika, mengirim email phishing, membocorkan data, atau menyalahgunakan alat.

Serangan injeksi prompt tidak langsung menyembunyikan prompt berbahaya dalam sumber data agen dan tidak memberikannya ke model secara langsung. Saat agen memanggil sumber data, seperti situs web eksternal, prompt berbahaya dikirimkan ke model. Agen multimodal yang mampu menangani berbagai jenis data sangat rentan terhadap jenis serangan ini—setiap bentuk data yang dapat diproses oleh agen adalah vektor serangan potensial.

Manipulasi tujuan versus pembajakan agen

Manipulasi tujuan dan pembajakan agen sering kali merupakan hasil yang diinginkan untuk serangan injeksi prompt. Dengan manipulasi tujuan, penyerang mengubah cara agen melakukan pendekatan terhadap tugas dan membuat keputusan dengan mengubah tujuan atau proses berpikirnya. Pembajakan agen adalah serangan di mana penyerang memaksa agen untuk melakukan tindakan yang tidak diinginkan, seperti mengakses data sensitif.

Manipulasi alat dan API

AI agen dikenal karena kemampuannya untuk menggunakan alat dan terhubung ke API. Tetapi kemampuan yang sama ini juga merupakan kerentanan. Penyerang sering kali mengelabui agen melalui injeksi prompt untuk menyalahgunakan alat yang terhubung dengannya.

Penyalahgunaan alat dapat mengakibatkan kebocoran data di mana agen mengeluarkan data pengguna yang sensitif kepada penyerang, atau serangan DDoS (denial-of-service terdistribusi) di mana agen mempersenjatai koneksi eksternalnya. Dalam serangan seperti ini, agen mengoordinasikan banjir permintaan koneksi ke jaringan target, membebani jaringan tersebut, dan memaksanya untuk padam.

Peracunan data

Peracunan data adalah masuknya data berbahaya ke dalam kumpulan data pelatihan agen atau sumber data eksternal. Data menentukan bagaimana agen belajar, bernalar, dan berperilaku. Merusak data pelatihan atau input dapat mengakibatkan perilaku yang tidak diinginkan, seperti kebocoran data.

Misalnya, agen pengodean mungkin memanggil pustaka kode eksternal untuk referensi. Slopsquatting—gabungan kata dari "AI slop" dan "typo squatting"—adalah ketika seseorang dengan sengaja mendaftarkan nama pustaka kode yang mirip dengan nama pustaka yang sebenarnya. Tujuannya adalah agar model secara tidak sengaja menarik sebagian kode dari pustaka palsu dan menambahkannya ke kode yang telah dibuat.

Seiring dengan penyalahgunaan alat, peracunan data adalah komponen eksploitasi rantai pasokan: di mana penyerang menyusup dan merusak sistem di sekitar agen AI.

Peracunan memori

Peracunan memori adalah kerusakan pada memori persisten agen: data yang disimpan agen yang terus memberikannya informasi tentang apa yang baru saja dilakukannya. Serangan peracunan memori dimaksudkan untuk membentuk perilaku agen pada masa depan dengan mengubah pemahamannya tentang tindakan sebelumnya.

Kompromi hak istimewa

Agen yang berada di pusat alur kerja otomatis memiliki izin sistem yang memungkinkannya mengakses data dan alat yang dibutuhkan untuk tugas yang diberikan. Jika agen tidak dipantau, mereka mungkin mempertahankan atau diberikan izin berlebihan melampaui kebutuhan mereka.

Jika hak istimewa ini tidak dihapus ketika agen tidak lagi membutuhkannya, mereka tidak lagi memberikan nilai tambah—tetapi tetap merupakan vektor serangan yang potensial. Penyerang dapat mengeksploitasi izin agen untuk mengirim pesan, mengeksekusi transaksi, memberikan penyerang lebih banyak izin, mengubah sistem, membaca data sensitif, dan banyak lagi.

Pemalsuan autentikasi dan kontrol akses

Jika penyerang berhasil mencuri kredensial agen, mereka dapat menyamar sebagai agen tersebut untuk membahayakan sistem yang dapat diakses agen. Memalsukan identitas agen memberikan penyerang izin yang sama dengan yang dimiliki agen—kini pengguna yang tidak sah juga bisa melakukan apa pun yang bisa dilakukan agen.

Protokol autentikasi yang lemah dikombinasikan dengan machine learning untuk menghasilkan gerakan lateral yang cepat: ketika penyerang bergerak lebih dalam ke jaringan setelah pelanggaran awal. Pergerakan lateral membuka pintu untuk eksfiltrasi data, serangan phishing, distribusi malware, dan banyak lagi. Penyerang juga dapat menyesuaikan cara agen berperilaku untuk mengubah tindakannya pada kemudian hari.

Serangan eksekusi kode jarak jauh (RCE)

Eksekusi kode jarak jauh (RCE) adalah jenis serangan siber di mana penyerang menginjeksi kode berbahaya ke dalam sistem dari lokasi yang berbeda. Dengan agen, penyerang dapat membuat agen menjalankan kode berbahaya yang memberikan penyerang akses ke lingkungan eksekusi kode. Contoh dunia nyata yang umum melibatkan penyerang yang mengekstrak kredensial pengguna dari sistem host agen yang disusupi.

Kegagalan berjenjang dan pembebanan sumber daya

Baik kegagalan berjenjang maupun pembebanan sumber daya mengakibatkan kewalahan pada sistem agen. Dalam sistem multiagen, kegagalan berjenjang terjadi ketika output agen yang disusupi berdampak negatif pada agen berikutnya dalam jaringan hingga seluruh sistem padam.

Pembebanan sumber daya mirip dengan serangan DDoS terhadap agen: penyerang membebani agen dengan permintaan yang melebihi throughput, berpotensi mengganggu waktu proses sama sekali. Dari perspektif pengguna akhir, aplikasi yang didukung agen tampaknya sedang padam.

Langkah-langkah keamanan agen AI

Terlepas dari lingkungan ancaman yang luas dan beragam, sistem AI agen dapat diamankan dengan tindakan pencegahan yang efektif dan batasan AI. Mengadopsi postur keamanan yang proaktif dan mengikuti praktik terbaik saat ini untuk manajemen kerentanan dapat membantu para profesional ML dan keamanan siber mengamankan agen AI dan tetap mengungguli para penjahat siber yang giat.

Praktik terbaik keamanan agen AI meliputi:

Arsitektur zero trust

Prinsip hak istimewa terkecil

Autentikasi sadar konteks

Enkripsi data

Segmentasi mikro

Pengamanan prompt

Validasi prompt

Arsitektur zero trust

Arsitektur Zero-trust (ZTA) adalah sebuah pendekatan keamanan siber yang mengasumsikan bahwa secara default tidak ada perangkat di jaringan yang dapat dipercaya. Sebaliknya, setiap permintaan akses jaringan harus diautentikasi dan diotorisasi sebelum dapat dilanjutkan. Pemantauan berkelanjutan dan autentikasi multifaktor (MFA) membantu menangkal ancaman.

Bayangkan jaringan sebagai situs web dan permintaan akses sebagai pengguna situs itu. Dengan ZTA, tidak ada opsi di layar login untuk mencentang kotak dan memerintahkan situs untuk “ingat saya lain kali.” Pengguna harus memasukkan kata sandi mereka—dan memenuhi tantangan MFA lainnya—setiap kali mereka ingin masuk.

Dengan memilih untuk “jangan pernah percaya, selalu verifikasi,” ZTA mengurangi kapasitas penyerang untuk gerakan lateral, sehingga mengurangi permukaan serangan dan memberikan lebih banyak waktu kepada keamanan untuk merespons.

Prinsip hak istimewa terkecil

Prinsip hak istimewa terkecil menyatakan bahwa setiap perangkat atau agen dalam jaringan harus memiliki izin serendah mungkin yang diperlukan untuk tanggung jawab mereka. Ini setara dengan menempatkan semua orang dan segala sesuatu pada tingkatan “perlu mengetahui” yang ketat. Kontrol akses berbasis peran (RBAC) dan kontrol akses berbasis atribut (ABAC) adalah dua metode untuk mempertahankan tingkat hak istimewa dan meningkatkan keamanan data.

Autentikasi sadar konteks

Otentikasi sadar konteks memungkinkan agen untuk mengambil data hanya jika pengguna diizinkan untuk mengaksesnya. Izin akses dapat menyesuaikan secara dinamis tergantung pada peran agen, izin, atau bahkan waktu dalam sehari.

Enkripsi data

Selain meminimalkan akses dengan prinsip hak istimewa terkecil, data dapat dilindungi lebih jauh terhadap agen yang disusupi melalui enkripsi. Data dalam perjalanan dan tidak aktif harus dienkripsi dengan enkripsi AES-256 atau sejenisnya. Data yang mengandung informasi sensitif, seperti informasi identifikasi pribadi (PII), juga harus dianonimkan untuk lebih melindungi karyawan dan pelanggan.

Segmentasi mikro

Segmentasi mikro adalah praktik desain memecah jaringan dan lingkungan menjadi segmen terpisah. Ketika agen dapat mengeksekusi kode, mereka harus melakukannya di lingkungan sandbox untuk mencegah gerakan lateral. Kontrol waktu proses yang ketat semakin memperkuat lingkungan untuk membatasi agen di dalam lingkungan sandbox.

Pengamanan instruksi prompt

Penguatan prompt adalah praktik keamanan AI dengan memberikan LLM instruksi ketat dan terbatas yang hanya menyisakan sedikit ruang untuk kesalahan penafsiran. Dengan membatasi agen pada jalur yang sempit, perancang sistem ML dapat membantu membatasi kemampuan penyerang untuk mengelabui agen agar melakukan perilaku yang tidak dimaksudkan.

Teknik pengamanan instruksi prompt mencakup melarang agen untuk mengungkapkan instruksinya dan memintanya untuk secara otomatis menolak permintaan apa pun yang berada di luar cakupan yang dibatasi.

Validasi Prompt

Validasi prompt memeriksa prompt terhadap aturan yang telah ditentukan sebelumnya sebelum diteruskan ke agen. Dikenal juga sebagai sanitasi prompt atau validasi input, praktik ini membantu mengisolasi agen dari serangan injeksi prompt. Output ini juga harus divalidasi sebelum digunakan jika agen disusupi.

Pelatihan adversarial

Pelatihan adversarial mengajarkan model untuk mengenali potensi serangan dengan memadukan input menipu ke dalam data pelatihan. Pelatihan adversarial terus dikembangkan secara berkelanjutan dan belum menjadi kumpulan protokol pelatihan standar.

Mulai mewujudkan ROI: Panduan praktis untuk AI agen

Temukan cara untuk maju, berhasil menskalakan AI di seluruh bisnis Anda dengan hasil nyata.

Sumber daya

Tingkatkan produktivitas dengan agen AI yang dibuat untuk bisnis Anda

Jelajahi potensi agen AI yang mengubah permainan yang dapat dengan mudah diintegrasikan ke dalam operasi bisnis Anda.

Panduan pembeli Agen AI 2025

Selami panduan komprehensif ini menguraikan contoh penggunaan utama, kemampuan inti, dan rekomendasi langkah demi langkah untuk membantu Anda memilih solusi yang tepat untuk bisnis Anda.

Bayangkan kembali produktivitas bisnis dengan agen AI dan asisten AI

Pelajari cara agen AI dan asisten AI dapat bekerja sama untuk mencapai tingkat produktivitas baru.

Laporan Omdia tentang kecerdasan yang diberdayakan: Dampak agen AI

Temukan cara Anda dapat membuka potensi penuh gen AI dengan agen AI.

Mengantarkan perusahaan agentik: Memanfaatkan AI di seluruh kawasan teknologi Anda

Tetap dapatkan informasi terkini tentang agen AI baru yang sedang berkembang, titik balik mendasar dalam revolusi AI.

Coba watsonx Orchestrate

Jelajahi cara asisten AI generatif dapat meringankan beban kerja Anda dan meningkatkan produktivitas.

Cara agen AI menemukan kembali produktivitas

Pelajari cara-cara menggunakan AI agar lebih kreatif, efisien, dan mulai beradaptasi dengan masa depan yang melibatkan kerja sama dengan agen AI.

Masa depan agen, konsumsi energi AI, penggunaan komputer Anthropic, dan penandaan teks yang dihasilkan AI oleh Google

Tetap menjadi yang terdepan dengan para pakar AI kami di episode Mixture of Experts ini saat mereka membahas secara mendalam masa depan AI dan agen AI dan banyak lagi.

Bagaimana Comparus menggunakan "asisten perbankan"

Comparus menggunakan solusi dari IBM® watsonx.ai™ dan secara mengesankan menunjukkan potensi perbankan percakapan sebagai model interaksi baru.

Solusi terkait

Agen AI untuk bisnis

Bangun, terapkan, dan kelola asisten dan agen AI yang kuat yang mengotomatiskan alur kerja dan proses dengan AI generatif.

Menjelajahi watsonx Orchestrate

Solusi agen AI IBM

Bangun masa depan bisnis Anda dengan solusi AI yang dapat Anda percaya.

Jelajahi solusi agen AI

Layanan AI IBM Consulting

Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

Jelajahi layanan kecerdasan buatan

Ambil langkah selanjutnya

Baik Anda memilih untuk menyesuaikan aplikasi dan keterampilan yang dibangun sebelumnya atau membangun dan menerapkan layanan agen khusus menggunakan studio AI, platform IBM watsonx siap membantu Anda.