RLHF, yang juga disebut pembelajaran penguatan dari preferensi manusia, secara unik cocok untuk tugas dengan tujuan yang kompleks, tidak terdefinisi dengan baik, atau sulit ditentukan. Sebagai contoh, tidak praktis (atau bahkan tidak mungkin) bagi solusi algoritmik untuk mendefinisikan "lucu" dalam istilah matematika—tetapi mudah bagi manusia untuk menilai lelucon yang dihasilkan oleh model bahasa besar (LLM). Masukan dari manusia tersebut, yang disaring menjadi fungsi penghargaan, kemudian dapat digunakan untuk meningkatkan kemampuan LLM menulis lelucon.
Dalam sebuah makalah tahun 2017, Paul F. Christiano dari OpenAI, bersama dengan peneliti lain dari OpenAI dan DeepMind, memperinci keberhasilan RLHF dalam melatih model AI untuk melakukan tugas-tugas rumit seperti game Atari dan simulasi penggerak robot.1 Melanjutkan terobosan ini, video game terus menjadi ajang pembuktian penting bagi RLHF: pada tahun 2019, sistem AI yang dilatih oleh RLHF, seperti OpenAI Five dan AlphaStar milik DeepMind, masing-masing telah mengalahkan pemain profesional manusia terbaik dalam Dota 22 dan StarCraft3 yang jauh lebih kompleks.
Mungkin yang paling penting, makalah OpenAI tahun 2017 mencatat bahwa metodologinya—khususnya pengenalan algoritma optimasi kebijakan proksimal (PPO) untuk memperbarui bobot model—sangat mengurangi biaya pengumpulan dan penyulingan masukan manusia yang diperlukan. Hal ini membuka jalan bagi integrasi RLHF dengan bidang pemrosesan bahasa alami (NLP), dengan kemajuan yang dihasilkan membantu mengantarkan LLM dan RLHF ke garda depan penelitian AI.
Rilis pertama kode yang merincikan penggunaan RLHF pada model bahasa berasal dari tahun 2019 dari OpenAI4, yang kemudian merilis InstructGPT yang dilatih RLHF pada awal 2022.5 Hal Ini merupakan langkah penting dalam menjembatani kesenjangan antara GPT-3 dan GPT-3.5-Turbo model yang mendukung peluncuran ChatGPT.
RLHF telah digunakan dalam pelatihan LLM yang canggih dari OpenAI, DeepMind, Google6 dan Anthropic.7