Apa itu persepsi agen AI?

Penyusun

Cole Stryker

Staff Editor, AI Models

IBM Think

Apa itu persepsi agen AI?

Persepsi agen AI mengacu pada kemampuan agen kecerdasan buatan (AI) untuk mengumpulkan, menafsirkan, dan memproses data dari lingkungannya untuk membuat keputusan yang tepat. Hal ini mencakup penggunaan sensor, input data, atau sumber eksternal untuk memahami keadaan terkini sistem tempat agen beroperasi.

Proses persepsi memungkinkan agen yang didukung AI bereaksi terhadap perubahan di dunia nyata, beradaptasi dengan lingkungan yang dinamis, dan menangani tugas-tugas yang kompleks secara efektif.

Pertama, agen melihat lingkungan mereka, kemudian mereka memproses data yang dikumpulkan untuk mengambil tindakan. Agen AI tanpa persepsi akan menjadi sistem berbasis aturan atau program berbasis logika yang beroperasi murni berdasarkan input dan keadaan internal yang telah ditentukan sebelumnya, bukan berdasarkan interaksi secara dinamis dengan lingkungan.

Dengan kata lain, agen tersebut tidak dapat disebut sebagai agen. Persepsi adalah bagian inti dari hal yang membuat agen AI benar-benar cerdas dan berguna dalam aplikasi dunia nyata.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Jenis persepsi agen AI

Bergantung pada tujuan dan sensor yang tersedia, sistem AI dapat memahami dunia melalui penglihatan, suara, teks, faktor lingkungan, dan analisis prediktif.

Berbagai jenis persepsi ini memungkinkan agen AI berinteraksi dengan dunia di sekitarnya, mengoptimalkan alur kerja, meningkatkan otomatisasi, dan lebih banyak.

Persepsi visual

Persepsi visual memungkinkan agen untuk menafsirkan dan merespons dunia melalui gambar, video, dan data visual lainnya. Kemampuan ini meniru penglihatan manusia, memungkinkan AI untuk mengenali objek dan memahami lingkungan.

Kemajuan dalam visi komputer dan pembelajaran mendalam telah meningkatkan persepsi visual AI, yang menghasilkan terobosan di berbagai bidang, seperti kendaraan otonom, layanan kesehatan, dan robotika.

Seiring perkembangan model AI yang lebih canggih, agen AI akan makin menunjukkan pemahaman visual seperti manusia, yang memungkinkannya untuk berfungsi secara otonom dan aman dalam skenario nyata yang kompleks.

Persepsi pendengaran

Persepsi audio memungkinkan agen untuk memproses dan memahami suara. Kemampuan ini memungkinkan AI untuk memahami ucapan, mengenali suara lingkungan, dan berinteraksi dengan pengguna melalui komunikasi berbasis suara.

Kemajuan dalam pemrosesan bahasa alami (NLP) dan pembelajaran mendalam telah jauh meningkatkan persepsi audio AI, yang menyebabkan meluasnya aplikasi AI pada asisten virtual, alat aksesibilitas, dan sistem pengawasan.

Salah satu teknologi utama di balik persepsi pendengaran AI adalah pengenalan ucapan otomatis (automatic speech recognition, ASR). Sistem ASR mengubah bahasa lisan menjadi teks, memungkinkan asisten suara seperti Siri, Alexa, dan Google Assistant untuk memahami dan merespons perintah pengguna.

Sistem ini mengandalkan neural network dan kumpulan data yang besar untuk meningkatkan akurasi, bahkan di lingkungan yang bising atau dengan beragam aksen bahasa.

Selain ucapan, AI dapat menganalisis suara lain, misalnya mendiagnosis kondisi medis melalui analisis suara pernapasan atau mendeteksi anomali pada peralatan pabrik.

Persepsi tekstual

Persepsi tekstual memungkinkan agen untuk memproses, menafsirkan, dan menghasilkan teks. Agen menggunakan NLP untuk mengekstrak makna dari teks dan memungkinkan komunikasi dalam berbagai aplikasi, seperti chatbot, mesin pencari, dan alat peringkasan otomatis. Perkembangan model bahasa besar (LLM) berbasis transformator seperti GPT-4 berhasil meningkatkan kemampuan AI dalam memahami dan bernalar dengan teks.

Salah satu komponen utama persepsi tekstual adalah pemahaman semantik, yang memungkinkan AI lebih dari sekadar mengenal kata-kata dan memahami maknanya dalam konteks tertentu. Hal ini penting untuk contoh penggunaan seperti terjemahan mesin, analisis sentimen, dan analisis dokumen hukum atau medis.

Selain itu, dengan named entity recognition (NER), AI dapat mengidentifikasi orang, tempat, dan organisasi tertentu, sehingga meningkatkan kemampuannya dalam mengambil insight berharga dari kumpulan data yang besar. Ini merupakan kemampuan yang bermanfaat dalam contoh penggunaan seperti pemasaran dan pengalaman pelanggan.

Persepsi lingkungan

Persepsi lingkungan pada agen AI berbeda dengan persepsi pendengaran dan visual, karena melibatkan pemahaman multimodal yang lebih luas tentang lingkungan. Hal ini dimungkinkan dengan mengintegrasikan data dari berbagai sensor, bukan hanya penglihatan dan suara.

Kemajuan dalam visi komputer, fusi sensor, dan machine learning telah meningkatkan kapasitas AI secara signifikan untuk memahami dan berinteraksi dengan dunia fisik.

Berbeda dengan penglihatan atau pendengaran secara terpisah, persepsi lingkungan menggabungkan berbagai input sensoris (penglihatan, suara, LiDAR, sentuhan) untuk menciptakan pemahaman holistik tentang lingkungan. Ini memungkinkan agen AI untuk memetakan dan menavigasi lingkungan mereka menggunakan fisika dunia nyata, sedangkan persepsi visual dan audio lebih berfokus pada pengenalan pasif.

Persepsi visual dan audio mencoba menggambarkan kemampuan agen manusia, tetapi persepsi lingkungan memiliki fleksibilitas yang lebih besar. Ini dapat mencakup penggunaan radar, sensor suhu, dan deteksi tekanan, yang memungkinkan AI untuk melihat sesuatu yang tidak dapat dilihat oleh manusia.

Persepsi prediktif

Persepsi prediktif memungkinkan agen mengantisipasi peristiwa di masa depan berdasarkan data yang diamati. Tidak seperti persepsi tradisional yang berfokus menafsirkan lingkungan saat ini, persepsi prediktif memungkinkan AI memperkirakan perubahan, menyimpulkan maksud, dan menyesuaikan perilaku secara proaktif.

Kemampuan prediktif dalam AI umumnya dicakup dalam analisis, perkiraan, atau kesimpulan dibandingkan dengan persepsi dalam pengertian tradisional. Namun, persepsi prediktif dapat dianggap sebagai kategori berbeda, di mana AI tidak hanya merasakan lingkungan, tetapi juga mengantisipasi perubahan lingkungan dengan mengintegrasikan persepsi dan penalaran dinamis.

Inti dari persepsi prediktif adalah model machine learning (ML), pembelajaran mendalam, pemodelan probabilistik, dan pembelajaran penguatan. Sistem AI menganalisis data historis dan data real-time untuk mengenali pola dan membuat prediksi.

Sementara analisis prediktif mengandalkan data historis dan model statistik, persepsi prediktif melibatkan pengindraan real time yang dikombinasikan dengan perkiraan, sehingga membuatnya lebih dinamis dan responsif terhadap keadaan sekitar. Meskipun merupakan konsep hybrid, persepsi prediktif menjembatani kesenjangan antara pengindraan dan pandangan ke depan, sehingga agen AI tidak hanya dapat memahami masa kini, tetapi juga mempersiapkan diri untuk masa depan secara real-time.

Agen AI

5 Jenis Agen AI: Fungsi Otonom & Aplikasi Dunia Nyata

Pelajari bagaimana AI berbasis tujuan dan berbasis utilitas beradaptasi dengan alur kerja dan lingkungan yang kompleks.

Cara kerja persepsi agen

Agen AI bekerja di ekosistem alat, aplikasi, dan kerangka kerja lain. Mereka terhubung melalui antarmuka pemrograman aplikasi (API), yang memungkinkan mereka untuk berintegrasi dengan basis pengetahuan dan sistem eksternal. Dalam skenario seperti pengembangan perangkat lunak, agen AI membantu mengoptimalkan kode, mengurangi latensi, dan mengotomatisasi tugas-tugas spesifik.

Dalam AI generatif (gen AI), agen ini dapat membuat output seperti teks, gambar, atau musik berdasarkan input yang diterimanya, menggunakan model pembelajaran mendalam yang dilatih dengan sejumlah besar data.

Namun, sebelum semua ini dapat terjadi, agen harus membuat persepsi. Meskipun prosesnya berbeda tergantung pada desain dan jenis agen, berikut adalah langkah-langkah dasar yang digunakan dalam persepsi agen:

1. Pengumpulan input sensoris

Agen AI mengumpulkan data mentah dari berbagai sumber, seperti kamera (untuk penglihatan), mikrofon (untuk suara), LiDAR dan radar (untuk kesadaran spasial) dan sensor tekanan atau suhu (untuk pengindraan lingkungan). Informasi sensoris ini membentuk dasar persepsi.

2. Pemrosesan data dan ekstraksi fitur

Setelah dikumpulkan, data melalui tahap pra-pemrosesan untuk menghilangkan kebisingan dan menyoroti fitur penting. Misalnya, dalam visi komputer, neural network konvolusi (convolutional neural network, CNN) menganalisis gambar untuk deteksi objek, wajah, atau gerakan. Dalam pengenalan ucapan, model pembelajaran mendalam mengubah gelombang audio menjadi teks.

3. Pengenalan dan penafsiran pola

Menggunakan algoritma machine learning, AI mendeteksi pola, hubungan, dan petunjuk kontekstual. Model NLP, seperti transformer, membantu AI memahami dan menghasilkan bahasa manusia, sementara pembelajaran penguatan memungkinkan robot untuk memahami dan beradaptasi dengan lingkungan mereka secara dinamis.

4. Pengambilan keputusan dan respons

Persepsi berujung pada tindakan. Agen AI menggunakan model inferensi untuk memutuskan cara bereaksi berdasarkan data yang dipahami. Sebagai contoh, mobil swakemudi mengidentifikasi pejalan kaki dan rambu lalu lintas, kemudian membuat penyesuaian mengemudi secara real-time.

Cara berbagai jenis agen membuat persepsi

Cara agen berfungsi dan membuat persepsi dapat sangat bervariasi, bergantung pada jenis agen, tujuan, dan teknologi yang digunakannya, mulai dari agen refleks sederhana yang bereaksi terhadap stimulus langsung hingga agen pembelajaran kompleks yang beradaptasi dan meningkatkan persepsinya seiring waktu.

Agen refleks sederhana

Agen refleks reaktif memersepsikan lingkungan melalui sensor dan merespons secara langsung, sering kali dengan aktuator, berdasarkan aturan yang telah ditetapkan, tanpa menyimpan memori kejadian di masa lalu. Persepsi agen sering kali terbatas pada input sensoris saat ini.

Agen refleks berbasis model

Agen refleks yang dilengkapi dengan model akan lebih baik daripada agen refleks sederhana dengan mempertahankan model internal dunia. Agen memahami lingkungan melalui sensor, tetapi juga menggunakan keadaan internal untuk melacak perubahan dunia dari waktu ke waktu.

Agen berbasis tujuan

Agen yang berorientasi pada tujuan melihat lingkungan dengan cara yang memungkinkannya untuk mengejar tujuan tertentu. Agen ini menggunakan sensor untuk mengumpulkan informasi dan mengevaluasi bagaimana keadaan saat ini selaras dengan tujuannya.

Agen berbasis utilitas

Agen berbasis utilitas tidak hanya berupaya mencapai tujuan, tetapi juga mengevaluasi berbagai tindakan yang mungkin dilakukan berdasarkan fungsi utilitas, yang mengukur seberapa baik setiap tindakan mencapai tujuannya. Agen ini menggunakan persepsi untuk menilai lingkungan, kemudian memilih tindakan yang memaksimalkan kepuasan atau kinerjanya secara keseluruhan.

Agen pembelajaran

Agen pembelajaran memahami lingkungan dan membuat keputusan berdasarkan input sensor dan pengalaman masa lalu. Agen ini memiliki komponen, seperti algoritma pembelajaran, yang dapat meningkatkan kinerja agen seiring waktu dengan belajar dari interaksinya. Agen ini mengadaptasi persepsi dan proses pengambilan keputusan berdasarkan masukan.

Sistem multiagen

Sistem multiagen (Multiagent systems, MAS) menggunakan pendekatan persepsi yang memungkinkan beberapa agen otonom berbagi informasi, berkolaborasi dan secara kolektif menginterpretasikan lingkungannya.

Alih-alih mengandalkan input sensoris dari satu agen, sistem multiagen menggunakan pendekatan persepsi yang terdistribusi dan terkadang hierarkis, di mana setiap agen dapat melihat aspek lingkungan yang berbeda dan menyumbangkan informasi untuk pemahaman bersama.

Persepsi kolektif ini meningkatkan kemampuan sistem secara keseluruhan untuk menangani lingkungan yang kompleks dan dinamis.

Selain itu, teknik fusi sensor umumnya digunakan dalam sistem multiagen untuk menggabungkan data sensoris dari berbagai agen dan menciptakan persepsi lingkungan yang lebih akurat dan holistik.

Pendekatan ini juga dapat mencakup teknik-teknik seperti penalaran terdistribusi, di mana agen membagikan hasil pengamatan, memperbarui model internal berdasarkan data yang dibagikan, dan bekerja sama untuk membuat keputusan bersama, seperti dalam misi pencarian dan penyelamatan atau sistem pemantauan terdistribusi.

Arsitektur multiagen juga menggunakan pembelajaran kolaboratif. Saat berinteraksi dan bertukar informasi dari waktu ke waktu, agen dapat belajar dari pengalaman satu sama lain, sehingga meningkatkan persepsi kolektif sistem dan pengambilan keputusan. Persepsi terdistribusi menjadikan MAS lebih adaptif, dapat diskalakan, dan mampu memecahkan masalah kompleks dengan sedikit campur tangan manusia.

Solusi terkait
Agen AI untuk bisnis

Bangun, terapkan, dan kelola asisten dan agen AI yang kuat yang mengotomatiskan alur kerja dan proses dengan AI generatif.

    Menjelajahi watsonx Orchestrate
    Solusi agen AI IBM

    Bangun masa depan bisnis Anda dengan solusi AI yang dapat Anda percaya.

    Jelajahi solusi agen AI
    Layanan AI IBM Consulting

    Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

    Jelajahi layanan kecerdasan buatan
    Ambil langkah selanjutnya

    Baik Anda memilih untuk menyesuaikan aplikasi dan keterampilan yang dibangun sebelumnya atau membangun dan menerapkan layanan agen khusus menggunakan studio AI, platform IBM watsonx siap membantu Anda.

    Menjelajahi watsonx Orchestrate Jelajahi watsonx.ai