Bergantung pada tujuan dan sensor yang tersedia, sistem AI dapat memahami dunia melalui penglihatan, suara, teks, faktor lingkungan, dan analisis prediktif.
Berbagai jenis persepsi ini memungkinkan agen AI berinteraksi dengan dunia di sekitarnya, mengoptimalkan alur kerja, meningkatkan otomatisasi, dan lebih banyak.
Persepsi visual
Persepsi visual memungkinkan agen untuk menafsirkan dan merespons dunia melalui gambar, video, dan data visual lainnya. Kemampuan ini meniru penglihatan manusia, memungkinkan AI untuk mengenali objek dan memahami lingkungan.
Kemajuan dalam visi komputer dan pembelajaran mendalam telah meningkatkan persepsi visual AI, yang menghasilkan terobosan di berbagai bidang, seperti kendaraan otonom, layanan kesehatan, dan robotika.
Seiring perkembangan model AI yang lebih canggih, agen AI akan makin menunjukkan pemahaman visual seperti manusia, yang memungkinkannya untuk berfungsi secara otonom dan aman dalam skenario nyata yang kompleks.
Persepsi pendengaran
Persepsi audio memungkinkan agen untuk memproses dan memahami suara. Kemampuan ini memungkinkan AI untuk memahami ucapan, mengenali suara lingkungan, dan berinteraksi dengan pengguna melalui komunikasi berbasis suara.
Kemajuan dalam pemrosesan bahasa alami (NLP) dan pembelajaran mendalam telah jauh meningkatkan persepsi audio AI, yang menyebabkan meluasnya aplikasi AI pada asisten virtual, alat aksesibilitas, dan sistem pengawasan.
Salah satu teknologi utama di balik persepsi pendengaran AI adalah pengenalan ucapan otomatis (automatic speech recognition, ASR). Sistem ASR mengubah bahasa lisan menjadi teks, memungkinkan asisten suara seperti Siri, Alexa, dan Google Assistant untuk memahami dan merespons perintah pengguna.
Sistem ini mengandalkan neural network dan kumpulan data yang besar untuk meningkatkan akurasi, bahkan di lingkungan yang bising atau dengan beragam aksen bahasa.
Selain ucapan, AI dapat menganalisis suara lain, misalnya mendiagnosis kondisi medis melalui analisis suara pernapasan atau mendeteksi anomali pada peralatan pabrik.
Persepsi tekstual
Persepsi tekstual memungkinkan agen untuk memproses, menafsirkan, dan menghasilkan teks. Agen menggunakan NLP untuk mengekstrak makna dari teks dan memungkinkan komunikasi dalam berbagai aplikasi, seperti chatbot, mesin pencari, dan alat peringkasan otomatis. Perkembangan model bahasa besar (LLM) berbasis transformator seperti GPT-4 berhasil meningkatkan kemampuan AI dalam memahami dan bernalar dengan teks.
Salah satu komponen utama persepsi tekstual adalah pemahaman semantik, yang memungkinkan AI lebih dari sekadar mengenal kata-kata dan memahami maknanya dalam konteks tertentu. Hal ini penting untuk contoh penggunaan seperti terjemahan mesin, analisis sentimen, dan analisis dokumen hukum atau medis.
Selain itu, dengan named entity recognition (NER), AI dapat mengidentifikasi orang, tempat, dan organisasi tertentu, sehingga meningkatkan kemampuannya dalam mengambil insight berharga dari kumpulan data yang besar. Ini merupakan kemampuan yang bermanfaat dalam contoh penggunaan seperti pemasaran dan pengalaman pelanggan.
Persepsi lingkungan
Persepsi lingkungan pada agen AI berbeda dengan persepsi pendengaran dan visual, karena melibatkan pemahaman multimodal yang lebih luas tentang lingkungan. Hal ini dimungkinkan dengan mengintegrasikan data dari berbagai sensor, bukan hanya penglihatan dan suara.
Kemajuan dalam visi komputer, fusi sensor, dan machine learning telah meningkatkan kapasitas AI secara signifikan untuk memahami dan berinteraksi dengan dunia fisik.
Berbeda dengan penglihatan atau pendengaran secara terpisah, persepsi lingkungan menggabungkan berbagai input sensoris (penglihatan, suara, LiDAR, sentuhan) untuk menciptakan pemahaman holistik tentang lingkungan. Ini memungkinkan agen AI untuk memetakan dan menavigasi lingkungan mereka menggunakan fisika dunia nyata, sedangkan persepsi visual dan audio lebih berfokus pada pengenalan pasif.
Persepsi visual dan audio mencoba menggambarkan kemampuan agen manusia, tetapi persepsi lingkungan memiliki fleksibilitas yang lebih besar. Ini dapat mencakup penggunaan radar, sensor suhu, dan deteksi tekanan, yang memungkinkan AI untuk melihat sesuatu yang tidak dapat dilihat oleh manusia.
Persepsi prediktif
Persepsi prediktif memungkinkan agen mengantisipasi peristiwa di masa depan berdasarkan data yang diamati. Tidak seperti persepsi tradisional yang berfokus menafsirkan lingkungan saat ini, persepsi prediktif memungkinkan AI memperkirakan perubahan, menyimpulkan maksud, dan menyesuaikan perilaku secara proaktif.
Kemampuan prediktif dalam AI umumnya dicakup dalam analisis, perkiraan, atau kesimpulan dibandingkan dengan persepsi dalam pengertian tradisional. Namun, persepsi prediktif dapat dianggap sebagai kategori berbeda, di mana AI tidak hanya merasakan lingkungan, tetapi juga mengantisipasi perubahan lingkungan dengan mengintegrasikan persepsi dan penalaran dinamis.
Inti dari persepsi prediktif adalah model machine learning (ML), pembelajaran mendalam, pemodelan probabilistik, dan pembelajaran penguatan. Sistem AI menganalisis data historis dan data real-time untuk mengenali pola dan membuat prediksi.
Sementara analisis prediktif mengandalkan data historis dan model statistik, persepsi prediktif melibatkan pengindraan real time yang dikombinasikan dengan perkiraan, sehingga membuatnya lebih dinamis dan responsif terhadap keadaan sekitar. Meskipun merupakan konsep hybrid, persepsi prediktif menjembatani kesenjangan antara pengindraan dan pandangan ke depan, sehingga agen AI tidak hanya dapat memahami masa kini, tetapi juga mempersiapkan diri untuk masa depan secara real-time.