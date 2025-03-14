Pembelajaran dengan penguatan sangat baik dalam video game dan simulasi, namun sulit dilakukan di dunia nyata. Masalahnya? Sistem ini belajar dengan mengeksplorasi tindakan yang berbeda—kekuatan di lingkungan virtual tetapi risiko besar dalam kenyataan. “Eksplorasi adalah nilai jual terbesar RL dan faktor pembatas terbesar untuk penggunaan dunia nyata”, jelas Riemer, menyoroti mengapa kedua peneliti melihat transisi ini sebagai tantangan penting.

“Di dunia nyata, di luar simulasi, eksplorasi dapat menyebabkan agen melakukan hal-hal yang tidak dapat diprediksi, yang merupakan perhatian utama untuk keamanan AI”, jelas Riemer. “Juga, bahkan untuk contoh penggunaan di mana kami dapat menoleransi eksplorasi, ada masalah dengan efisiensi sampel RL. Sering kali, rasanya RL seperti perlu menjelajahi lebih banyak daripada yang dilakukan manusia dalam situasi yang sama.”

Barto mencatat tantangan serupa: “Waktu yang diperlukan lebih lama karena simulasi dapat berjalan jauh lebih cepat daripada pengalaman fisik di dunia”. Dia menambahkan, “Jika itu robot, ia belajar melalui percobaan dan kesalahan, dan jika kesalahan menyebabkan jatuh atau sesuatu yang merusak mesin, maka itulah masalahnya”.

Pendekatan yang hati-hati terhadap penerapan di dunia nyata ini berasal dari pertimbangan praktis dan keamanan. Barto menekankan perlunya spesifikasi fungsi reward yang cermat “sehingga sistem tidak menghasilkan sesuatu yang benar-benar tidak terduga dan mungkin bermasalah”.

Tantangannya bukan hanya soal implementasi. Seperti yang ditunjukkan Riemer, sistem pembelajaran penguatan juga harus beradaptasi dengan lingkungan yang berubah: “RL berkelanjutan mempelajari pertanyaan tentang bagaimana agen RL dapat beradaptasi dengan perubahan sifat lingkungan dunia nyata, yaitu, ketika dunia berbeda dari sebelumnya selama pra-pelatihan atau ketika pelatihan di simulator”.

Kemampuan beradaptasi ini menyajikan apa yang disebut Riemer sebagai “masalah klasik dari 'dilema stabilitas-plastisitas' di mana agen harus memutuskan bagaimana memprioritaskan kinerja pada pengalaman baru dan kinerja pada pengalaman lamanya”. Tindakan penyeimbangan antara mempertahankan pengetahuan sebelumnya sambil beradaptasi dengan kondisi baru merupakan tantangan berkelanjutan di lapangan.

Terlepas dari hambatan ini, para peneliti menemukan solusi yang menjanjikan dengan menggabungkan pembelajaran penguatan dengan pendekatan AI lainnya. Riemer melihat peluang khusus dalam integrasi dengan model bahasa besar: “Yang benar-benar kurang dari RL adalah kemampuan untuk memahami dunia dengan cukup sehingga dapat menyusun eksplorasi secara lebih logis. Kami mulai melihat bukti bahwa LLM dapat digunakan sebagai dasar yang kuat dari pengetahuan dunia sebagai dasar untuk menyusun pelatihan RL, yang sangat menarik dari perspektif mengaktifkan contoh penggunaan dunia nyata untuk RL”.

Integrasi antara pembelajaran penguatan dan teknik AI lainnya berkembang pesat. “Tren utama yang kami lihat adalah cara metode lain dapat membantu RL membangun representasi dunia yang dapat digunakan untuk menjelajahi lebih lanjut”, kata Riemer. “Misalnya, dalam domain bahasa, RL telah menjadi alat yang sangat efektif yang digunakan dengan LLM yang sudah dilatih”.

Hubungan komplementer ini bekerja dua arah—pembelajaran penguatan meningkatkan model bahasa, sementara model bahasa menyediakan sistem pembelajaran penguatan dengan representasi dunia yang lebih baik. “Kami mulai melihat hal serupa untuk contoh penggunaan seperti robotika atau membangun agen AI di mana RL menjadi lebih efektif ketika dikombinasikan dengan pengetahuan yang dimasukkan dalam VLM yang juga memiliki kemampuan visi”, jelas Riemer.

Ketika pembicaraan beralih ke kecerdasan umum buatan (AGI)—sistem dengan kemampuan kognitif seperti manusia di berbagai bidang—Barto mengungkapkan skeptisisme tentang kemungkinan dan daya tariknya sebagai tujuan riset.

“Saya tidak melihat faedah dari menetapkan kecerdasan tingkat manusia sebagai tujuan”, katanya terus terang. “Tujuan mencoba memahami cara kerja kecerdasan manusia berbeda dari mencoba menciptakan mesin dengan tingkat kecerdasan setara manusia”.

Salah satu hal menarik yang diidentifikasi oleh Barto adalah sistem pembelajaran penguatan multi-agen, di mana beberapa agen pembelajaran berinteraksi, yang berpotensi memiliki tujuan yang berbeda. Pendekatan ini tidak hanya memiliki implikasi untuk pengembangan AI tetapi mungkin juga menjelaskan bagaimana otak kita berfungsi.

Dia mengakui “Hipotesis bahwa neuron adalah agen pembelajaran penguatan, dan bahwa otak adalah kumpulan agen yang berinteraksi yang dapat memiliki tujuan berbeda di antara mereka sendiri” tetap menjadi “hipotesis yang tidak umum”, tetapi satu dengan implikasi potensial untuk ilmu saraf.

Bagi Barto, kontribusi paling berharga dari pembelajaran penguatan mungkin bukan dalam menciptakan kecerdasan seperti manusia, melainkan dalam memecahkan masalah spesifik yang meningkatkan kehidupan manusia—warisan yang mungkin lebih bermakna daripada Turing Award itu sendiri.