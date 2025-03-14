Ketika kecerdasan buatan makin membentuk dunia kita, salah satu penciptanya memberikan peringatan tentang hype dan ketakutan.
Andrew Barto, yang baru-baru ini dianugerahi Turing Award, kehormatan tertinggi di bidang komputasi, telah menghabiskan beberapa dekade mengembangkan pembelajaran penguatan—teknologi yang sekarang mendukung segalanya mulai dari juara AI bermain game hingga sistem penemuan obat dan kemampuan penalaran di balik model bahasa besar saat ini. Dalam sebuah wawancara dengan IBM Think, Barto menawarkan penilaian terukur tentang kemajuan, potensi, dan keterbatasan AI dengan mengabaikan skenario optimisme dan kiamat teknologi.
Pembelajaran penguatan, pendekatan komputasi untuk belajar dari interaksi yang dikembangkan Barto, telah umum diterapkan di lingkungan AI saat ini. Meskipun banyak yang mengaitkannya dengan pencapaian yang menarik perhatian seperti mengalahkan juara dunia pada permainan yang rumit, Barto melihat penerapannya yang paling bermakna dalam domain yang lebih praktis.
“Pembelajaran ini sudah digunakan di sejumlah tempat, banyak di robotika”, jelasnya. “Ada kemungkinan besar bagi robot yang menggunakan pembelajaran penguatan untuk memungkinkan mereka melakukan gerakan yang sangat mendetail dan bermanfaat, yang dapat membantu orang-orang di rumah atau penyandang disabilitas”.
Barto menyoroti penerapan di bidang medis di mana pembelajaran penguatan mengoptimalkan protokol pengobatan selama periode yang panjang—tepatnya jenis masalah pengambilan keputusan berurutan di mana teknologi unggul.
“Salah satu fitur pembelajaran penguatan adalah kemampuannya untuk menangani masalah keputusan berurutan di mana sejumlah keputusan dibuat dari waktu ke waktu, dan dalam setiap kasus, kondisi sistem bergantung pada keputusan sebelumnya”, ujarnya. Kemampuan untuk menangani reward yang tertunda—konsekuensi yang hanya terwujud setelah serangkaian tindakan—merupakan tantangan mendasar yang ditangani oleh algoritma pembelajaran penguatan.
Matt Riemer, seorang Insinyur Research Engineer Pembelajaran Mendalam di IBM AI Foundations Lab, menunjukkan penerapan yang lebih baru lagi.
"Para peneliti telah berhasil menerapkan pendekatan berbasis pembelajaran penguatan pada masalah penemuan obat, dan mereka baru mulai melihat beberapa hasil yang sangat menjanjikan", ujarnya kepada Think dalam sebuah wawancara. “Baru-baru ini, pembelajaran penguatan juga berhasil dalam mengatasi masalah penting seperti mengoptimalkan dan mengotomatiskan proses pengolahan air”.
Pembelajaran penguatan ada di balik kemampuan mengesankan chatbot saat ini. Riemer menjelaskan: “Dengan keberhasilan LLM baru-baru ini, kami telah melihat contoh penggunaan RL yang terkenal meningkatkan kemampuan LLM”. Aplikasi besar pertama disebut RLHF—pembelajaran penguatan dari masukan manusia (reinforcement learning from human feedback)—yang membantu sistem ini menghasilkan respons yang lebih sesuai dengan apa yang diinginkan orang.
Sementara model bahasa besar telah menarik perhatian publik dengan kemampuannya menghasilkan teks seperti manusia, pengembangannya banyak bergantung pada pembelajaran penguatan. Seperti yang dijelaskan Riemer, "Baru-baru ini, kami telah melihat RL muncul sebagai pendekatan yang paling menonjol untuk melatih apa yang disebut model 'berpikir' yang mempelajari rantai proses berpikir yang meningkatkan kemampuan penalaran LLM".
Soal matematika menjadi tempat pelatihan yang ideal untuk sistem ini. “Untuk masalah seperti penalaran matematika, mudah untuk membangun reward yang dapat diverifikasi, yaitu, 'apakah agen menjawab masalah dengan benar atau tidak?'” kata Riemer. Jawaban benar atau salah yang jelas ini menciptakan apa yang disebutnya “lingkungan simulasi semu” di mana AI dapat belajar melalui latihan berulang.
Dampak dari pembelajaran penguatan lebih dari sekadar riset akademis atau penerapan khusus. Pengaruhnya makin terasa dalam teknologi yang berinteraksi dengan pengguna sehari-hari. “Sekali lagi ini mungkin baru permulaan karena kita cenderung melihat RL memainkan peran yang lebih menonjol ketika bidang tersebut mulai mengembangkan 'agen AI' yang berinteraksi dengan browser web dan alat lain untuk membantu pengguna dengan lebih baik”, prediksi Riemer.
Barto mempertahankan optimisme hati-hati dari seorang ilmuwan yang telah menyaksikan banyak siklus hype teknologi. Dia mengakui tantangan ketika ditanya tentang keamanan dan penyelarasan AI—memastikan sistem AI bertindak berdasarkan nilai-nilai kemanusiaan.
"Masalah penyelarasan adalah masalah yang tidak sepele", katanya. “Orang akan berharap bahwa sistem RL dapat mengarahkan AI untuk menggabungkan nilai-nilai manusia yang menggunakan sistem. Jadi, harapannya, itu bisa terjadi. Saya tidak punya resepnya”.
Untuk mencari inspirasi tentang reward AI, Barto mencontoh otak kita. “Fungsi penghargaan kita berasal dari mekanisme yang berkembang selama jutaan tahun”, jelasnya. Tidak seperti reward komputer yang sederhana, motivasi manusia muncul dari tekanan evolusi kompleks yang membuat nenek moyang kita tetap hidup dan bereproduksi.
Perspektif evolusi ini mendasari pemikirannya tentang pembelajaran penguatan multi-kriteria, di mana sistem merespons beberapa sinyal reward, bukan hanya satu—berpotensi mencerminkan bagaimana berbagai bagian otak manusia memproses berbagai bentuk masukan.
“Saya pikir pembelajaran penguatan multi-kriteria adalah sesuatu yang sangat penting”, catat Barto. “Alih-alih memiliki satu fungsi reward, mungkin ada beberapa, dan... bagian otak yang berbeda, misalnya, mungkin menerima sinyal yang berbeda”.
Pembelajaran dengan penguatan sangat baik dalam video game dan simulasi, namun sulit dilakukan di dunia nyata. Masalahnya? Sistem ini belajar dengan mengeksplorasi tindakan yang berbeda—kekuatan di lingkungan virtual tetapi risiko besar dalam kenyataan. “Eksplorasi adalah nilai jual terbesar RL dan faktor pembatas terbesar untuk penggunaan dunia nyata”, jelas Riemer, menyoroti mengapa kedua peneliti melihat transisi ini sebagai tantangan penting.
“Di dunia nyata, di luar simulasi, eksplorasi dapat menyebabkan agen melakukan hal-hal yang tidak dapat diprediksi, yang merupakan perhatian utama untuk keamanan AI”, jelas Riemer. “Juga, bahkan untuk contoh penggunaan di mana kami dapat menoleransi eksplorasi, ada masalah dengan efisiensi sampel RL. Sering kali, rasanya RL seperti perlu menjelajahi lebih banyak daripada yang dilakukan manusia dalam situasi yang sama.”
Barto mencatat tantangan serupa: “Waktu yang diperlukan lebih lama karena simulasi dapat berjalan jauh lebih cepat daripada pengalaman fisik di dunia”. Dia menambahkan, “Jika itu robot, ia belajar melalui percobaan dan kesalahan, dan jika kesalahan menyebabkan jatuh atau sesuatu yang merusak mesin, maka itulah masalahnya”.
Pendekatan yang hati-hati terhadap penerapan di dunia nyata ini berasal dari pertimbangan praktis dan keamanan. Barto menekankan perlunya spesifikasi fungsi reward yang cermat “sehingga sistem tidak menghasilkan sesuatu yang benar-benar tidak terduga dan mungkin bermasalah”.
Tantangannya bukan hanya soal implementasi. Seperti yang ditunjukkan Riemer, sistem pembelajaran penguatan juga harus beradaptasi dengan lingkungan yang berubah: “RL berkelanjutan mempelajari pertanyaan tentang bagaimana agen RL dapat beradaptasi dengan perubahan sifat lingkungan dunia nyata, yaitu, ketika dunia berbeda dari sebelumnya selama pra-pelatihan atau ketika pelatihan di simulator”.
Kemampuan beradaptasi ini menyajikan apa yang disebut Riemer sebagai “masalah klasik dari 'dilema stabilitas-plastisitas' di mana agen harus memutuskan bagaimana memprioritaskan kinerja pada pengalaman baru dan kinerja pada pengalaman lamanya”. Tindakan penyeimbangan antara mempertahankan pengetahuan sebelumnya sambil beradaptasi dengan kondisi baru merupakan tantangan berkelanjutan di lapangan.
Terlepas dari hambatan ini, para peneliti menemukan solusi yang menjanjikan dengan menggabungkan pembelajaran penguatan dengan pendekatan AI lainnya. Riemer melihat peluang khusus dalam integrasi dengan model bahasa besar: “Yang benar-benar kurang dari RL adalah kemampuan untuk memahami dunia dengan cukup sehingga dapat menyusun eksplorasi secara lebih logis. Kami mulai melihat bukti bahwa LLM dapat digunakan sebagai dasar yang kuat dari pengetahuan dunia sebagai dasar untuk menyusun pelatihan RL, yang sangat menarik dari perspektif mengaktifkan contoh penggunaan dunia nyata untuk RL”.
Integrasi antara pembelajaran penguatan dan teknik AI lainnya berkembang pesat. “Tren utama yang kami lihat adalah cara metode lain dapat membantu RL membangun representasi dunia yang dapat digunakan untuk menjelajahi lebih lanjut”, kata Riemer. “Misalnya, dalam domain bahasa, RL telah menjadi alat yang sangat efektif yang digunakan dengan LLM yang sudah dilatih”.
Hubungan komplementer ini bekerja dua arah—pembelajaran penguatan meningkatkan model bahasa, sementara model bahasa menyediakan sistem pembelajaran penguatan dengan representasi dunia yang lebih baik. “Kami mulai melihat hal serupa untuk contoh penggunaan seperti robotika atau membangun agen AI di mana RL menjadi lebih efektif ketika dikombinasikan dengan pengetahuan yang dimasukkan dalam VLM yang juga memiliki kemampuan visi”, jelas Riemer.
Ketika pembicaraan beralih ke kecerdasan umum buatan (AGI)—sistem dengan kemampuan kognitif seperti manusia di berbagai bidang—Barto mengungkapkan skeptisisme tentang kemungkinan dan daya tariknya sebagai tujuan riset.
“Saya tidak melihat faedah dari menetapkan kecerdasan tingkat manusia sebagai tujuan”, katanya terus terang. “Tujuan mencoba memahami cara kerja kecerdasan manusia berbeda dari mencoba menciptakan mesin dengan tingkat kecerdasan setara manusia”.
Salah satu hal menarik yang diidentifikasi oleh Barto adalah sistem pembelajaran penguatan multi-agen, di mana beberapa agen pembelajaran berinteraksi, yang berpotensi memiliki tujuan yang berbeda. Pendekatan ini tidak hanya memiliki implikasi untuk pengembangan AI tetapi mungkin juga menjelaskan bagaimana otak kita berfungsi.
Dia mengakui “Hipotesis bahwa neuron adalah agen pembelajaran penguatan, dan bahwa otak adalah kumpulan agen yang berinteraksi yang dapat memiliki tujuan berbeda di antara mereka sendiri” tetap menjadi “hipotesis yang tidak umum”, tetapi satu dengan implikasi potensial untuk ilmu saraf.
Bagi Barto, kontribusi paling berharga dari pembelajaran penguatan mungkin bukan dalam menciptakan kecerdasan seperti manusia, melainkan dalam memecahkan masalah spesifik yang meningkatkan kehidupan manusia—warisan yang mungkin lebih bermakna daripada Turing Award itu sendiri.
