Apa itu pembelajaran penguatan?

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

Apa itu pembelajaran penguatan?

Pembelajaran penguatan (RL) adalah jenis proses machine learning di mana agen otonom belajar membuat keputusan dengan berinteraksi dengan lingkungan mereka.

Agen otonom adalah sistem apa pun yang dapat membuat keputusan dan bertindak sebagai respons terhadap lingkungannya tanpa bergantung pada instruksi langsung dari pengguna manusia. Robot dan mobil swakemudi adalah contoh agen otonom.

Dalam pembelajaran penguatan, agen otonom belajar melakukan tugas dengan coba-coba tanpa adanya bimbingan dari pengguna manusia. ¹ Pembelajaran ini secara khusus membahas masalah pengambilan keputusan berurutan di lingkungan yang tidak pasti, dan menunjukkan janji dalam pengembangan kecerdasan buatan .

Pembelajaran yang diawasi dan tidak diawasi

Literatur sering kali membandingkan pembelajaran penguatan dengan pembelajaran yang diawasi dan tidak diawasi. Pembelajaran yang diawasi menggunakan data berlabel manual untuk menghasilkan prediksi atau klasifikasi. Pembelajaran tanpa pengawasan bertujuan untuk mengungkap dan mempelajari pola tersembunyi dari data yang tidak berlabel. Berbeda dengan pembelajaran yang diawasi, pembelajaran penguatan tidak menggunakan contoh perilaku yang benar atau salah yang diberi label. Namun, pembelajaran penguatan berbeda dari pembelajaran tanpa pengawasan karena pembelajaran penguatan belajar melalui cara coba-coba dan fungsi penghargaan, bukan dengan mengambil informasi dari pola-pola tersembunyi.²

Metode pembelajaran yang diawasi dan tidak diawasi mengasumsikan bahwa setiap catatan data input tidak bergantung pada catatan lain dalam kumpulan data, tetapi setiap catatan mengaktualisasikan model distribusi data yang mendasari secara umum. Metode ini belajar memprediksi dengan kinerja model yang diukur berdasarkan maksimisasi akurasi prediksi.

Sebaliknya, pembelajaran penguatan belajar untuk bertindak. Pembelajaran ini mengasumsikan data input sebagai tupel yang saling bergantung—yaitu urutan data yang teratur—yang disusun sebagai keadaan-tindakan-hadiah. Banyak aplikasi algoritma pembelajaran penguatan bertujuan untuk meniru metode pembelajaran biologi di dunia nyata melalui penguatan positif.

Perhatikan bahwa, meskipun keduanya tidak sering dibandingkan dalam literatur, pembelajaran penguatan juga berbeda dengan pembelajaran pengawasan mandiri. Yang terakhir adalah bentuk pembelajaran tanpa pengawasan yang menggunakan label semu yang berasal dari data pelatihan yang tidak berlabel sebagai kebenaran dasar untuk mengukur akurasi model. Akan tetapi, pembelajaran penguatan tidak menghasilkan label semu atau mengukur berdasarkan kebenaran dasar—ini bukan metode klasifikasi, melainkan pembelajar tindakan. Namun keduanya telah dikombinasikan dengan hasil yang menjanjikan.³

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Proses pembelajaran penguatan

Pembelajaran penguatan pada dasarnya terdiri dari hubungan antara agen, lingkungan, dan tujuan. Literatur secara luas merumuskan hubungan ini dalam hal proses keputusan Markov (MDP).

Proses keputusan Markov

Agen pembelajaran penguatan belajar tentang suatu masalah dengan berinteraksi dengan lingkungannya. Lingkungan memberikan informasi tentang keadaannya saat ini. Agen kemudian menggunakan informasi tersebut untuk menentukan tindakan apa yang harus diambil. Jika tindakan tersebut mendapatkan sinyal hadiah dari lingkungan sekitar, agen akan terdorong untuk melakukan tindakan itu lagi saat berada dalam keadaan yang sama di masa depan. Proses ini berulang untuk setiap keadaan baru setelahnya. Seiring waktu, agen belajar dari hadiah dan hukuman untuk mengambil tindakan di dalam lingkungan yang memenuhi tujuan tertentu.⁴

Diagram untuk halaman topik pembelajaran penguatan

Dalam proses keputusan Markov, ruang status mengacu pada semua informasi yang disediakan oleh keadaan lingkungan. Ruang tindakan menunjukkan semua tindakan yang mungkin dilakukan agen dalam suatu keadaan.⁵

Trade-off eksplorasi-eksploitasi

Karena agen RL tidak memiliki data input berlabel manual yang memandu perilakunya, agen ini harus menjelajahi lingkungannya, mencoba tindakan baru untuk menemukan tindakan yang mendapatkan hadiah. Dari sinyal hadiah ini, agen belajar untuk memilih tindakan yang diberi hadiah untuk memaksimalkan keuntungannya. Namun, agen harus terus menjelajahi keadaan dan tindakan baru. Dengan demikian, agen dapat menggunakan pengalaman tersebut untuk meningkatkan pengambilan keputusannya.

Dengan demikian, algoritma RL mengharuskan agen untuk mengeksploitasi pengetahuan tentang keadaan-tindakan yang telah diberi imbalan sebelumnya dan menjelajahi keadaan-tindakan lainnya. Agen tidak dapat secara eksklusif mengejar eksplorasi atau eksploitasi. Agen harus terus mencoba tindakan baru dan juga lebih memilih tindakan tunggal (atau rangkaian tindakan) yang menghasilkan hadiah kumulatif terbesar.⁶

Komponen pembelajaran penguatan

Di luar tiga serangkai agen-lingkungan-tujuan, ada empat sub-elemen utama yang menjadi ciri masalah pembelajaran penguatan.

-Kebijakan. Hal ini mendefinisikan perilaku agen RL dengan memetakan kondisi lingkungan yang dirasakan menjadi tindakan spesifik yang harus diambil agen ketika berada dalam kondisi tersebut. Ini dapat berupa fungsi yang belum sempurna atau proses komputasi yang lebih rumit. Misalnya, kebijakan yang memandu kendaraan otonom dapat memetakan deteksi pejalan kaki ke tindakan berhenti.

- Sinyal hadiah. Ini menunjuk tujuan masalah RL. Setiap tindakan agen RL akan menerima hadiah dari lingkungan atau tidak. Satu-satunya tujuan agen adalah untuk memaksimalkan imbalan kumulatif dari lingkungan. Untuk kendaraan swakemudi, sinyal hadiah dapat berupa pengurangan waktu tempuh, pengurangan tabrakan, tetap berada di jalan dan di jalur yang tepat, menghindari perlambatan atau akselerasi yang ekstrem, dan sebagainya. Contoh ini menunjukkan bahwa RL dapat menggabungkan beberapa sinyal hadiah untuk memandu agen.

- Fungsi nilai. Sinyal hadiah berbeda dengan fungsi nilai, karena yang pertama menunjukkan manfaat langsung, sedangkan yang kedua menentukan manfaat jangka panjang. Nilai mengacu pada keinginan sebuah keadaan per semua keadaan (dengan imbalan yang berlaku) yang kemungkinan besar akan mengikuti. Kendaraan otonom mungkin dapat mengurangi waktu tempuh dengan keluar dari jalurnya, mengemudi di trotoar, dan berakselerasi dengan cepat, tetapi tiga tindakan terakhir ini dapat mengurangi fungsi nilai keseluruhan. Dengan demikian, kendaraan sebagai agen RL dapat menukar waktu tempuh yang sedikit lebih lama untuk meningkatkan hadiahnya di tiga area terakhir.

- Model. Ini adalah subelemen opsional dari sistem pembelajaran penguatan. Model memungkinkan agen untuk memprediksi perilaku lingkungan untuk tindakan yang mungkin dilakukan. Agen kemudian menggunakan prediksi model untuk menentukan kemungkinan tindakan berdasarkan hasil yang potensial. Ini bisa menjadi model yang memandu kendaraan otonom dan membantunya memprediksi rute terbaik, apa yang diharapkan dari kendaraan di sekitarnya mengingat posisi dan kecepatan mereka, dan sebagainya.⁷ Beberapa pendekatan berbasis model menggunakan masukan langsung dari manusia dalam pembelajaran awal dan kemudian beralih ke pembelajaran otonom.

Pembelajaran online versus offline

Ada dua metode umum yang digunakan agen untuk mengumpulkan data untuk kebijakan pembelajaran:

- Online. Di sini, agen mengumpulkan data secara langsung dari interaksi dengan lingkungan sekitarnya. Data ini diproses dan dikumpulkan secara berulang saat agen terus berinteraksi dengan lingkungan tersebut.

- Offline. Ketika agen tidak memiliki akses langsung ke sebuah lingkungan, agen tersebut dapat belajar melalui data yang dicatat dari lingkungan tersebut. Ini adalah pembelajaran offline. Sebagian besar penelitian telah beralih ke pembelajaran offline karena adanya kesulitan praktis dalam melatih model melalui interaksi langsung dengan lingkungan.⁸

Jenis pembelajaran penguatan

Pembelajaran penguatan adalah bidang penelitian yang dinamis dan berkelanjutan, dan dengan demikian, para pengembang telah menghasilkan banyak sekali pendekatan untuk pembelajaran penguatan. Namun demikian, tiga metode pembelajaran penguatan yang banyak dibahas dan menjadi dasar adalah pemrograman dinamis, monte carlo, dan pembelajaran perbedaan temporal.

Pemrograman dinamis

Pemrograman dinamis memecah tugas yang lebih besar menjadi tugas-tugas yang lebih kecil. Dengan demikian, pemrograman dinamis memodelkan masalah sebagai alur kerja dari keputusan berurutan yang dibuat pada langkah waktu diskrit. Setiap keputusan dibuat dalam hal kemungkinan kondisi yang akan terjadi selanjutnya. Imbalan agen (r) untuk tindakan tertentu didefinisikan sebagai fungsi dari tindakan tersebut (a), kondisi lingkungan saat ini (s), dan potensi kondisi berikutnya (s'):

Fungsi hadiah ini dapat digunakan sebagai (bagian dari) kebijakan yang mengatur tindakan agen. Menentukan kebijakan optimal untuk perilaku agen adalah komponen utama dari metode pemrograman dinamis untuk pembelajaran penguatan. Masukkan persamaan Bellman.

Persamaan Bellman adalah:

Singkatnya, persamaan ini mendefinisikan v_t(s) sebagai total hadiah yang diharapkan mulai dari waktu t hingga akhir alur kerja keputusan. Diasumsikan bahwa agen mulai dengan menempati keadaan s pada waktu t. Persamaan ini pada akhirnya membagi hadiah pada waktu t menjadi hadiah langsung r_t(s,a) (yaitu rumus hadiah) dan total hadiah yang diharapkan oleh agen. Dengan demikian, agen memaksimalkan fungsi nilainya—yaitu nilai total dari persamaan Bellman—dengan secara konsisten memilih tindakan yang menerima sinyal hadiah di setiap keadaan.⁹

Metode Monte Carlo

Pemrograman dinamis berbasis model, yang berarti pemrograman ini membangun model lingkungannya untuk memahami imbalan, mengidentifikasi pola, dan menavigasi lingkungan. Namun, Monte Carlo mengasumsikan lingkungan kotak hitam, menjadikannya bebas model.

Sementara pemrograman dinamis memprediksi potensi keadaan masa depan dan sinyal hadiah dalam membuat keputusan, metode Monte Carlo secara eksklusif berbasis pengalaman, yang berarti metode ini mengambil sampel urutan keadaan, tindakan, dan hadiah semata-mata melalui interaksi dengan lingkungan. Dengan demikian, metode Monte Carlo belajar melalui uji coba dan kesalahan, bukan melalui distribusi probabilistik.

Monte Carlo lebih jauh berbeda dari pemrograman dinamis dalam penentuan fungsi nilai. Pemrograman dinamis mencari hadiah kumulatif terbesar dengan secara konsisten memilih tindakan yang dihargai dalam keadaan yang berurutan. Sebaliknya, Monte Carlo menghitung rata-rata pengembalian untuk setiap pasangan keadaan–tindakan. Hal ini, pada gilirannya, berarti bahwa metode Monte Carlo harus menunggu hingga semua tindakan dalam episode tertentu (atau horison perencanaan) telah selesai sebelum menghitung fungsi nilainya, dan kemudian memperbarui kebijakannya.¹⁰

Pembelajaran perbedaan temporal

Literatur secara luas menggambarkan pembelajaran perbedaan temporal (TD) sebagai kombinasi pemrograman dinamis dan Monte Carlo. Seperti yang pertama, TD memperbarui kebijakannya, dan juga memperkirakan keadaan di masa depan, setelah setiap langkah tanpa menunggu nilai akhir. Namun, seperti pada Monte Carlo, TD belajar melalui interaksi langsung dengan lingkungannya, bukan menggunakan model.¹¹

Sesuai dengan namanya, agen pembelajaran TD merevisi kebijakannya sesuai dengan perbedaan antara hadiah yang diprediksi dan yang diterima secara aktual di setiap keadaan. Artinya, sementara pemrograman dinamis dan Monte Carlo hanya mempertimbangkan hadiah yang diterima, TD lebih jauh mempertimbangkan perbedaan antara ekspektasi dan imbalan yang diterima. Dengan menggunakan perbedaan ini, agen memperbarui estimasi untuk langkah selanjutnya tanpa menunggu sampai horison perencanaan peristiwa, berlawanan dengan Monte Carlo.¹²

TD memiliki banyak variasi. Dua variasi yang menonjol adalah keadaan–tindakan–hadiah–keadaan–tindakan (SARSA) dan Q-learning. SARSA adalah metode TD berdasarkan kebijakan, yang berarti metode ini mengevaluasi dan mencoba untuk meningkatkan kebijakan yang mengatur keputusan. Q-learning berada di luar kebijakan. Metode di luar kebijakan adalah metode yang menggunakan dua kebijakan: satu untuk eksploitasi (kebijakan target) dan satu lagi untuk eksplorasi untuk menghasilkan perilaku (kebijakan perilaku).¹³

Metode tambahan

Ada banyak sekali metode pembelajaran penguatan tambahan. Pemrograman dinamis adalah metode berbasis nilai, yang berarti metode ini memilih tindakan berdasarkan nilai yang diperkirakan sesuai dengan kebijakan yang bertujuan untuk memaksimalkan fungsi nilainya. Sebaliknya, metode gradien kebijakan mempelajari kebijakan berparameter yang dapat memilih tindakan tanpa melihat fungsi nilai. Metode ini disebut berbasis kebijakan dan dianggap lebih efektif dalam lingkungan berdimensi tinggi.¹⁴

Metode aktor-kritik menggunakan metode berbasis nilai dan berbasis kebijakan. Yang disebut “aktor” adalah gradien kebijakan yang menentukan tindakan mana yang harus diambil, sedangkan “kritik” adalah fungsi nilai untuk mengevaluasi tindakan. Metode aktor-kritik, pada dasarnya, adalah sebuah bentuk TD. Lebih khususnya lagi, aktor-kritik mengevaluasi nilai dari tindakan tertentu tidak hanya berdasarkan imbalannya sendiri, tetapi juga nilai yang mungkin dari keadaan berikutnya, yang ditambahkan pada imbalan tindakan tersebut. Keuntungan dari aktor-kritik adalah, karena penerapan fungsi nilai dan kebijakan dalam pengambilan keputusan, maka secara efektif membutuhkan lebih sedikit interaksi dengan lingkungan.¹⁵

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Contoh pembelajaran penguatan

Robotika

Mengingat pembelajaran penguatan secara terpusat berkaitan dengan pengambilan keputusan dalam lingkungan yang tidak dapat diprediksi, hal ini telah menjadi area inti yang menarik dalam robotika. Untuk menyelesaikan tugas-tugas berulang dan sederhana, pengambilan keputusan mungkin menjadi mudah. Tetapi tugas yang lebih rumit, seperti upaya untuk mensimulasikan perilaku manusia atau mengotomatiskan mengemudi, melibatkan interaksi dengan lingkungan dunia nyata yang sangat bervariasi dan dapat berubah. Penelitian menunjukkan pembelajaran penguatan mendalam dengan jaringan neural mendalam membantu berbagai tugas semacam itu, terutama yang berkaitan dengan generalisasi dan pemetaan input sensoris berdimensi tinggi ke hasil sistem yang terkontrol.¹⁶ Studi menunjukkan bahwa pembelajaran penguatan mendalam dengan robot sangat bergantung pada kumpulan data yang dikumpulkan, sehingga penelitian terbaru mengeksplorasi cara-cara untuk mengumpulkan data dunia nyata¹⁷ dan menggunakan kembali data sebelumnya¹⁸ untuk meningkatkan sistem pembelajaran penguatan.

Pemrosesan bahasa alami

Penelitian terbaru menunjukkan bahwa dengan memanfaatkan teknik dan alat pemrosesan bahasa alami —mis. model bahasa besar (LLM)—dapat meningkatkan generalisasi dalam sistem pembelajaran penguatan melalui representasi tekstual dari lingkungan dunia nyata.¹⁹ Banyak penelitian menunjukkan bagaimana lingkungan tekstual interaktif memberikan alternatif yang hemat biaya untuk lingkungan tiga dimensi saat menginstruksikan agen pembelajaran dalam tugas pengambilan keputusan yang berurutan.²⁰ Pembelajaran penguatan mendalam juga mendasari pengambilan keputusan tekstual dalam chatbot. Faktanya, pembelajaran penguatan mengungguli metode lain untuk meningkatkan respons dialog chatbot.²¹

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Apa itu pembelajaran penguatan?

Penyusun

Apa itu pembelajaran penguatan?

Pembelajaran yang diawasi dan tidak diawasi

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Proses pembelajaran penguatan

Proses keputusan Markov

Trade-off eksplorasi-eksploitasi

Komponen pembelajaran penguatan

Pembelajaran online versus offline

Jenis pembelajaran penguatan

Pemrograman dinamis

Metode Monte Carlo

Pembelajaran perbedaan temporal

Metode tambahan

Decoding AI: Rangkuman Berita Mingguan

Contoh pembelajaran penguatan

Sumber daya