Pembelajaran penguatan dari masukan manusia (RLHF) adalah teknik machine learning di mana "model penghargaan" dilatih dengan masukan langsung dari manusia, kemudian digunakan untuk mengoptimalkan kinerja dari agen kecerdasan buatan melalui pembelajaran penguatan.
RLHF, yang juga disebut pembelajaran penguatan dari preferensi manusia, secara unik cocok untuk tugas dengan tujuan yang kompleks, tidak terdefinisi dengan baik, atau sulit ditentukan. Sebagai contoh, tidak praktis (atau bahkan tidak mungkin) bagi solusi algoritmik untuk mendefinisikan "lucu" dalam istilah matematika—tetapi mudah bagi manusia untuk menilai lelucon yang dihasilkan oleh model bahasa besar (LLM). Masukan dari manusia tersebut, yang disaring menjadi fungsi penghargaan, kemudian dapat digunakan untuk meningkatkan kemampuan LLM menulis lelucon.
Dalam sebuah makalah tahun 2017, Paul F. Christiano dari OpenAI, bersama dengan peneliti lain dari OpenAI dan DeepMind, memperinci keberhasilan RLHF dalam melatih model AI untuk melakukan tugas-tugas rumit seperti game Atari dan simulasi penggerak robot.1 Melanjutkan terobosan ini, video game terus menjadi ajang pembuktian penting bagi RLHF: pada tahun 2019, sistem AI yang dilatih oleh RLHF, seperti OpenAI Five dan AlphaStar milik DeepMind, masing-masing telah mengalahkan pemain profesional manusia terbaik dalam Dota 22 dan StarCraft3 yang jauh lebih kompleks.
Mungkin yang paling penting, makalah OpenAI tahun 2017 mencatat bahwa metodologinya—khususnya pengenalan algoritma optimasi kebijakan proksimal (PPO) untuk memperbarui bobot model—sangat mengurangi biaya pengumpulan dan penyulingan masukan manusia yang diperlukan. Hal ini membuka jalan bagi integrasi RLHF dengan bidang pemrosesan bahasa alami (NLP), dengan kemajuan yang dihasilkan membantu mengantarkan LLM dan RLHF ke garda depan penelitian AI.
Rilis pertama kode yang merincikan penggunaan RLHF pada model bahasa berasal dari tahun 2019 dari OpenAI4, yang kemudian merilis InstructGPT yang dilatih RLHF pada awal 2022.5 Hal Ini merupakan langkah penting dalam menjembatani kesenjangan antara GPT-3 dan GPT-3.5-Turbo model yang mendukung peluncuran ChatGPT.
RLHF telah digunakan dalam pelatihan LLM yang canggih dari OpenAI, DeepMind, Google6 dan Anthropic.7
Secara konseptual, pembelajaran penguatan (RL) bertujuan untuk meniru cara manusia belajar: Agen AI belajar secara holistik melalui uji coba dan kesalahan, termotivasi oleh insentif yang kuat untuk berhasil.
Untuk menerapkan strategi itu, kerangka kerja untuk pembelajaran penguatan terdiri dari komponen-komponen berikut:
Ruang status adalah semua informasi yang tersedia tentang tugas yang ada yang relevan dengan keputusan yang mungkin dibuat oleh agen AI, termasuk variabel yang diketahui dan tidak diketahui. Ruang status biasanya berubah dengan setiap keputusan yang dibuat agen.
Ruang tindakan berisi semua keputusan yang mungkin dibuat agen AI. Dalam konteks permainan papan, misalnya, ruang aksi bersifat diskrit dan terdefinisi dengan baik: terdiri atas semua gerakan hukum yang tersedia untuk pemain AI pada saat tertentu. Dalam konteks pembuatan teks, ruang aksi sangat besar, terdiri dari seluruh “kosakata” token yang tersedia untuk LLM.
Penghargaan adalah ukuran keberhasilan atau kemajuan yang memberikan insentif kepada agen AI. Dalam beberapa kasus, seperti permainan papan, mendefinisikan kesuksesan-dalam hal ini, memenangkan permainan-adalah objektif dan mudah. Namun, ketika definisi "kesuksesan" tidak jelas, merancang fungsi penghargaan yang efektif dapat menjadi tantangan yang signifikan. Dalam kerangka kerja matematis, masukan ini harus diterjemahkan ke dalam sinyal hadiah: kuantifikasi skalar dari masukan positif (atau negatif).
Fungsi penghargaan dapat dilengkapi denganhukuman-imbalan negatif-untuktindakan yang dianggap kontraproduktif terhadap tugas yang sedang dikerjakan. Misalnya, perusahaan mungkin ingin melarang chatbot menggunakan kata-kata kotor atau bahasa vulgar lainnya; model mobil yang dapat menyetir sendiri dapat dihukum karena tabrakan atau menyimpang di luar jalur.
Kebijakan pada dasarnya adalah strategi atau "proses berpikir" yang mendorong perilaku agen AI. Dalam istilah matematika sederhana, kebijakan ("π") adalah sebuah fungsi yang mengambil sebuah keadaan ("s") sebagai input dan mengembalikan sebuah tindakan ("a"): π (s)→a.
Tujuan dari algoritma RL adalah untuk mengoptimalkan sebuah kebijakan untuk menghasilkan imbalan yang maksimal. Dalam pembelajaran penguatan mendalam, kebijakan direpresentasikan sebagai neural network yang terus diperbarui, sesuai dengan fungsi penghargaan, selama proses pelatihan. Agen AI belajar dari pengalaman, seperti halnya manusia.
Meskipun RL konvensional telah mencapai hasil dunia nyata yang mengesankan di banyak bidang, RL dapat berjuang untuk secara efektif membangun fungsi penghargaan untuk tugas-tugas kompleks di mana definisi keberhasilan yang jelas sulit untuk ditetapkan. Keuntungan utama dari RLHF adalah kemampuannya untuk menangkap nuansa dan subjektivitas dengan menggunakan masukan manusia yang positif sebagai pengganti tujuan yang ditentukan secara formal.
Salah satu aplikasi RLHF yang paling menonjol adalah meningkatkan relevansi, akurasi, dan etika LLM—khususnya untuk penggunaannya sebagai chatbot.
LLM, seperti semua model AI generatif, bertujuan untuk mereplikasi distribusi probabilitas data pelatihan. Meskipun kemajuan terbaru telah mendorong penggunaan LLM sebagai mesin untuk chatbot, atau bahkan sebagai mesin penalaran untuk AI tujuan umum, model bahasa ini hanya menggunakan pola yang dipelajari dari data pelatihannya untuk memprediksi kata berikutnya dalam urutan tertentu yang dimulai oleh prompt. Pada tingkat dasar, model ini tidak benar-benar menjawab pertanyaan: itu menambahkan teks ke dalamnya.
Tanpa instruksi yang sangat spesifik, model bahasa hanya memiliki sedikit kemampuan untuk memahami maksud pengguna. Meskipun rekayasa prompt dapat membantu memberikan konteks yang diperlukan LLM untuk memenuhi responsnya terhadap kebutuhan pengguna, tidak praktis untuk memerlukan rekayasa prompt pada setiap interaksi dengan chatbot.
Selain itu, meskipun LLM yang tidak biasa telah dilatih dengan metode konvensional untuk menghasilkan keluaran yang koheren secara tata bahasa, melatih LLM untuk menghasilkan keluaran yang "baik" adalah masalah yang penuh teka-teki. Konsep-konsep seperti kebenaran, bantuan, kreativitas, atau bahkan hal yang membuat potongan kode dapat dieksekusi jauh lebih bergantung pada konteks daripada arti kata dan struktur linguistik.
Untuk membuat model bahasa yang lebih baik dalam interaksi manusia, para ilmuwan data beralih ke pembelajaran penguatan dengan masukan dari manusia. Model InstructGPT yang ditingkatkan oleh RLHF mengungguli pendahulunya GPT-3, terutama dalam hal mengikuti instruksi, menjaga akurasi faktual, dan menghindari halusinasi model.5 Demikian juga, penelitian yang dirilis oleh OpenAI pada peluncuran GPT-4 menunjukkan bahwa RLHF menggandakan akurasi pada pertanyaan-pertanyaan yang bersifat adversarial.8
Manfaat RLHF bahkan dapat menggantikan nilai dataset pelatihan yang lebih besar, sehingga memungkinkan pengembangan model yang lebih efisien: OpenAI mencatat bahwa pemberi labelnya lebih menyukai keluaran dari versi 1.3B-parameter dari InstructGPT daripada keluaran dari versi 175B-parameter dari GPT-3.5
Pelatihan LLM dengan RLHF biasanya berlangsung dalam empat fase:
RLHF umumnya digunakan untuk fine tuning dan mengoptimalkan model yang telah dilatih sebelumnya, bukan sebagai metode pelatihan menyeluruh. Sebagai contoh, InstructGPT menggunakan RLHF untuk meningkatkan GPT yang sudah ada sebelumnya, yaitu, model Transformer Generatif yang Dilatih Sebelumnya. Dalam pengumuman rilisnya untuk InstructGPT, OpenAI menyatakan bahwa “salah satu cara berpikir tentang proses ini adalah bahwa proses ini ‘membuka’ kemampuan yang telah dimiliki GPT-3, tetapi sulit untuk diperoleh melalui rekayasa prompt saja”.5
Pelatihan sebelumnya sejauh ini merupakan fase RLHF yang paling padat sumber daya. OpenAI mencatat bahwa proses pelatihan RLHF untuk InstructGPT memerlukan kurang dari 2 persen komputasi dan data yang diperlukan untuk pelatihan sebelumnya GPT-3.
Sebelum memulai pembelajaran penguatan eksplisit, penyesuaian yang diawasi (SFT) digunakan untuk menyempurnakan model untuk menghasilkan respons dalam format yang diharapkan oleh pengguna.
Seperti yang telah disinggung sebelumnya, proses pelatihan sebelumnya LLM mengoptimalkan model untuk penyelesaian: memprediksi kata-kata berikutnya dalam suatu urutan dimulai dengan permintaan pengguna dengan meniru pola linguistik yang dipelajari selama pelatihan sebelumnya model. Terkadang, LLM tidak akan menyelesaikan urutan sesuai dengan yang diinginkan pengguna: misalnya, jika pengguna meminta, "ajari saya cara membuat resume," LLM mungkin merespons dengan "menggunakan Microsoft Word." Ini adalah cara yang valid untuk melengkapi kalimat, tetapi tidak selaras dengan tujuan pengguna.
Oleh karena itu, SFT menggunakan pembelajaran terawasi untuk melatih model agar dapat merespons dengan tepat terhadap berbagai jenis prompt. Pakar manusia membuat contoh berlabel, mengikuti format (prompt, respons), untuk mendemonstrasikan cara merespons prompt untuk berbagai contoh penggunaan, seperti menjawab pertanyaan, meringkas, atau menerjemahkan.
Data demonstrasi ini, meskipun sangat kuat, memakan waktu dan mahal untuk dihasilkan. Daripada membuat contoh baru yang khusus, DeepMind memperkenalkan pendekatan yang “menerapkan heuristik pemfilteran berdasarkan format dialog tertulis yang umum (gaya ‘transkrip wawancara’)” untuk mengisolasi pasangan contoh prompt/respons yang sesuai dari dalam kumpulan data MassiveWeb mereka.9
Agar masukan manusia untuk memperkuat fungsi hadiah dalam pembelajaran penguatan, model hadiah diperlukan untuk menerjemahkan preferensi manusia menjadi sinyal hadiah numerik. Merancang model penghargaan yang efektif adalah langkah penting dalam RLHF, karena tidak ada rumus matematika atau logis langsung untuk secara layak mendefinisikan nilai-nilai manusia subjektif.
Tujuan utama dari fase ini adalah untuk menyediakan data pelatihan yang cukup bagi model hadiah, yang terdiri dari masukan langsung dari penilai manusia, untuk membantu model belajar meniru cara preferensi manusia dalam mengalokasikan hadiah ke berbagai jenis respons model. Hal ini memungkinkan pelatihan dilanjutkan secara offline tanpa adanya manusia dalam lingkaran.
Model imbalan harus mengambil urutan teks dan menghasilkan nilai imbalan skalar yang memprediksi, secara numerik, seberapa besar imbalan (atau hukuman) yang akan diberikan oleh pengguna manusia terhadap teks tersebut. Keluaran yang merupakan nilai skalar ini penting agar keluaran model penghargaan dapat diintegrasikan dengan komponen lain dari algoritma RL.
Meskipun mungkin terlihat paling intuitif untuk hanya meminta penilai manusia mengekspresikan pendapat mereka tentang setiap respons model dalam bentuk skalar—seperti menilai respons pada skala satu (terburuk) hingga sepuluh (terbaik)—sangat sulit untuk membuat semua penilai manusia selaras dengan nilai relatif dari nilai yang diberikan, apalagi membuat penilai manusia selaras dengan apa yang merupakan respons "baik" atau "buruk" dalam ruang hampa. Hal ini dapat membuat peringkat skalar langsung menjadi berisik dan sulit untuk dikalibrasi.
Sebaliknya, sistem penilaian biasanya dibangun dengan membandingkan masukan manusia untuk keluaran model yang berbeda. Metode yang umum digunakan adalah dengan meminta pengguna membandingkan dua urutan teks analog—seperti output dari dua model bahasa yang berbeda yang merespons permintaan yang sama—dalam pertandingan head-to-head, kemudian menggunakan sistem peringkat Elo untuk menghasilkan peringkat agregat dari setiap bit teks yang dihasilkan relatif terhadap satu sama lain. Sebuah sistem sederhana dapat memungkinkan pengguna untuk "jempol ke atas" atau "jempol ke bawah" setiap output, dengan output yang kemudian diberi peringkat berdasarkan kesukaan relatif mereka. Sistem yang lebih kompleks mungkin meminta pemberi label untuk memberikan peringkat keseluruhan dan menjawab pertanyaan kategoris tentang kekurangan setiap tanggapan, kemudian secara algoritmik menggabungkan masukan ini menjadi skor kualitas tertimbang.
Hasil dari sistem peringkat mana pun pada akhirnya dinormalisasi menjadi sinyal hadiah skalar untuk menginformasikan pelatihan model hadiah.
Rintangan terakhir dari RLHF adalah menentukan bagaimana—dan seberapa besar—model penghargaan yang harus digunakan untuk memperbarui kebijakan agen AI. Salah satu algoritma yang paling sukses digunakan untuk fungsi penghargaan yang memperbarui model RL adalah optimasi kebijakan proksimal (PPO).
Tidak seperti kebanyakan arsitektur model machine learning dan jaringan neural, yang menggunakan gradient descent untuk meminimalkan fungsi kerugian dan menghasilkan kesalahan sekecil mungkin, algoritma pembelajaran penguatan sering kali menggunakan gradien naik untuk memaksimalkan penghargaan.
Namun, jika fungsi penghargaan digunakan untuk melatih LLM tanpa pagar pembatas, model bahasa dapat secara dramatis mengubah bobotnya hingga menghasilkan omong kosong dalam upaya untuk "mempermainkan" model penghargaan. PPO menyediakan cara yang lebih stabil untuk memperbarui kebijakan agen AI dengan membatasi berapa banyak kebijakan yang dapat diperbarui dalam setiap iterasi pelatihan.
Pertama, salinan model awal dibuat dan bobot yang dapat dilatih dibekukan. Algoritma PPO menghitung rentang [1-ε, 1+ε], di mana ε adalah hiperparameter yang secara kasar menentukan seberapa jauh kebijakan baru (yang diperbarui) diizinkan menyimpang dari kebijakan lama (yang dibekukan). Kemudian, menghitung rasio probabilitas: rasio probabilitas tindakan tertentu yang diambil oleh kebijakan lama vs probabilitas tindakan tersebut diambil oleh kebijakan baru. Jika rasio probabilitas lebih besar dari1+ε (atau di bawah1-ε), besarnya pembaruan kebijakan dapat dipotong untuk mencegah perubahan tajam yang dapat mengganggu kestabilan keseluruhan model.
Pengenalan PPO memberikan alternatif yang menarik untuk pendahulunya, trust region policy optimization (TRPO), yang memberikan manfaat yang sama tetapi lebih rumit dan mahal secara komputasi daripada PPO. Meskipun kerangka kerja optimasi kebijakan lainnya seperti aktor-kritik keuntungan (A2C) juga dapat digunakan, PPO sering kali lebih disukai sebagai metodologi yang sederhana dan hemat biaya.
Meskipun model RLHF telah menunjukkan hasil yang mengesankan dalam melatih agen AI untuk tugas-tugas kompleks mulai dari robotika dan video game hingga NLP, penggunaan RLHF bukannya tanpa keterbatasan.
1 “Deep reinforcement learning from human preferences,” arXiv, terakhir direvisi pada 17 Feb 2023
2 “OpenAI Five defeats Dota 2 world champions,”OpenAI, 15 Apr 2019.
3 “AlphaStar: Mastering the real-time strategy game StarCraft II,” Google DeepMind, 24 Jan 2019
4 “lm-human-preferences,” OpenAI (on GitHub), 2019
5 “Aligning language models to follow instructions,” OpenAI, 27 Jan 2022
6 “An overview of Bard: an early experiment with generative AI,” Google AI, last updated 19 Okt 2023
7 “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback,” arXiv, 12 Apr 2022
8 “Research: GPT-4,” OpenAI, 14 Mar 2023
9 “Scaling Language Models: Methods, Analysis & Insights from Training Gopher,” arXiv, terakhir direvisi 21 Jan 2022
10 “Constitutional AI: Harmlessness from AI Feedback,” Anthropic, 15 Des 2022
11 “RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback,” arXiv, 1 Sep 2023
12 “Why We Should Have Seen That Coming: Comments on Microsoft's Tay 'Experiment' and Wider Implications,” The ORBIT Journal, 2017