Apa itu pembelajaran penguatan dari masukan manusia (RLHF)?

Pemandangan udara San Francisco yang terang.

Penyusun

Senior Staff Writer, AI Models

IBM Think

Apa itu RLHF?

Pembelajaran penguatan dari masukan manusia (RLHF) adalah teknik machine learning di mana "model penghargaan" dilatih dengan masukan langsung dari manusia, kemudian digunakan untuk mengoptimalkan kinerja dari agen kecerdasan buatan melalui pembelajaran penguatan.

RLHF, yang juga disebut pembelajaran penguatan dari preferensi manusia, secara unik cocok untuk tugas dengan tujuan yang kompleks, tidak terdefinisi dengan baik, atau sulit ditentukan. Sebagai contoh, tidak praktis (atau bahkan tidak mungkin) bagi solusi algoritmik untuk mendefinisikan "lucu" dalam istilah matematika—tetapi mudah bagi manusia untuk menilai lelucon yang dihasilkan oleh model bahasa besar (LLM). Masukan dari manusia tersebut, yang disaring menjadi fungsi penghargaan, kemudian dapat digunakan untuk meningkatkan kemampuan LLM menulis lelucon.

Dalam sebuah makalah tahun 2017, Paul F. Christiano dari OpenAI, bersama dengan peneliti lain dari OpenAI dan DeepMind, memperinci keberhasilan RLHF dalam melatih model AI untuk melakukan tugas-tugas rumit seperti game Atari dan simulasi penggerak robot^.1Melanjutkan terobosan ini, video game terus menjadi ajang pembuktian penting bagi RLHF: pada tahun 2019, sistem AI yang dilatih oleh RLHF, seperti OpenAI Five dan AlphaStar milik DeepMind, masing-masing telah mengalahkan pemain profesional manusia terbaik dalam Dota 2² dan StarCraft³ yang jauh lebih kompleks.

Mungkin yang paling penting, makalah OpenAI tahun 2017 mencatat bahwa metodologinya—khususnya pengenalan algoritma optimasi kebijakan proksimal (PPO) untuk memperbarui bobot model—sangat mengurangi biaya pengumpulan dan penyulingan masukan manusia yang diperlukan. Hal ini membuka jalan bagi integrasi RLHF dengan bidang pemrosesan bahasa alami (NLP), dengan kemajuan yang dihasilkan membantu mengantarkan LLM dan RLHF ke garda depan penelitian AI.

Rilis pertama kode yang merincikan penggunaan RLHF pada model bahasa berasal dari tahun 2019 dari OpenAI⁴, yang kemudian merilis InstructGPT yang dilatih RLHF pada awal 2022.⁵ Hal Ini merupakan langkah penting dalam menjembatani kesenjangan antara GPT-3 dan GPT-3.5-Turbo model yang mendukung peluncuran ChatGPT.

RLHF telah digunakan dalam pelatihan LLM yang canggih dari OpenAI, DeepMind, Google⁶ dan Anthropic.⁷

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru  

Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan.

Cara kerja pembelajaran penguatan

Secara konseptual, pembelajaran penguatan (RL) bertujuan untuk meniru cara manusia belajar: Agen AI belajar secara holistik melalui uji coba dan kesalahan, termotivasi oleh insentif yang kuat untuk berhasil.

Untuk menerapkan strategi itu, kerangka kerja untuk pembelajaran penguatan terdiri dari komponen-komponen berikut:

Ruang status

Ruang status adalah semua informasi yang tersedia tentang tugas yang ada yang relevan dengan keputusan yang mungkin dibuat oleh agen AI, termasuk variabel yang diketahui dan tidak diketahui. Ruang status biasanya berubah dengan setiap keputusan yang dibuat agen.

Ruang aksi

Ruang tindakan berisi semua keputusan yang mungkin dibuat agen AI. Dalam konteks permainan papan, misalnya, ruang aksi bersifat diskrit dan terdefinisi dengan baik: terdiri atas semua gerakan hukum yang tersedia untuk pemain AI pada saat tertentu. Dalam konteks pembuatan teks, ruang aksi sangat besar, terdiri dari seluruh “kosakata” token yang tersedia untuk LLM.

Fungsi penghargaan

Penghargaan adalah ukuran keberhasilan atau kemajuan yang memberikan insentif kepada agen AI. Dalam beberapa kasus, seperti permainan papan, mendefinisikan kesuksesan-dalam hal ini, memenangkan permainan-adalah objektif dan mudah. Namun, ketika definisi "kesuksesan" tidak jelas, merancang fungsi penghargaan yang efektif dapat menjadi tantangan yang signifikan. Dalam kerangka kerja matematis, masukan ini harus diterjemahkan ke dalam sinyal hadiah: kuantifikasi skalar dari masukan positif (atau negatif).

Kendala

Fungsi penghargaan dapat dilengkapi denganhukuman-imbalan negatif-untuktindakan yang dianggap kontraproduktif terhadap tugas yang sedang dikerjakan. Misalnya, perusahaan mungkin ingin melarang chatbot menggunakan kata-kata kotor atau bahasa vulgar lainnya; model mobil yang dapat menyetir sendiri dapat dihukum karena tabrakan atau menyimpang di luar jalur.

Kebijakan

Kebijakan pada dasarnya adalah strategi atau "proses berpikir" yang mendorong perilaku agen AI. Dalam istilah matematika sederhana, kebijakan ("π") adalah sebuah fungsi yang mengambil sebuah keadaan ("s") sebagai input dan mengembalikan sebuah tindakan ("a"): π (s)→a.

Tujuan dari algoritma RL adalah untuk mengoptimalkan sebuah kebijakan untuk menghasilkan imbalan yang maksimal. Dalam pembelajaran penguatan mendalam, kebijakan direpresentasikan sebagai neural network yang terus diperbarui, sesuai dengan fungsi penghargaan, selama proses pelatihan. Agen AI belajar dari pengalaman, seperti halnya manusia.

Meskipun RL konvensional telah mencapai hasil dunia nyata yang mengesankan di banyak bidang, RL dapat berjuang untuk secara efektif membangun fungsi penghargaan untuk tugas-tugas kompleks di mana definisi keberhasilan yang jelas sulit untuk ditetapkan. Keuntungan utama dari RLHF adalah kemampuannya untuk menangkap nuansa dan subjektivitas dengan menggunakan masukan manusia yang positif sebagai pengganti tujuan yang ditentukan secara formal.

RLHF untuk model bahasa yang besar

Salah satu aplikasi RLHF yang paling menonjol adalah meningkatkan relevansi, akurasi, dan etika LLM—khususnya untuk penggunaannya sebagai chatbot.

LLM, seperti semua model AI generatif, bertujuan untuk mereplikasi distribusi probabilitas data pelatihan. Meskipun kemajuan terbaru telah mendorong penggunaan LLM sebagai mesin untuk chatbot, atau bahkan sebagai mesin penalaran untuk AI tujuan umum, model bahasa ini hanya menggunakan pola yang dipelajari dari data pelatihannya untuk memprediksi kata berikutnya dalam urutan tertentu yang dimulai oleh prompt. Pada tingkat dasar, model ini tidak benar-benar menjawab pertanyaan: itu menambahkan teks ke dalamnya.

Tanpa instruksi yang sangat spesifik, model bahasa hanya memiliki sedikit kemampuan untuk memahami maksud pengguna. Meskipun rekayasa prompt dapat membantu memberikan konteks yang diperlukan LLM untuk memenuhi responsnya terhadap kebutuhan pengguna, tidak praktis untuk memerlukan rekayasa prompt pada setiap interaksi dengan chatbot.

Selain itu, meskipun LLM yang tidak biasa telah dilatih dengan metode konvensional untuk menghasilkan keluaran yang koheren secara tata bahasa, melatih LLM untuk menghasilkan keluaran yang "baik" adalah masalah yang penuh teka-teki. Konsep-konsep seperti kebenaran, bantuan, kreativitas, atau bahkan hal yang membuat potongan kode dapat dieksekusi jauh lebih bergantung pada konteks daripada arti kata dan struktur linguistik.

Untuk membuat model bahasa yang lebih baik dalam interaksi manusia, para ilmuwan data beralih ke pembelajaran penguatan dengan masukan dari manusia. Model InstructGPT yang ditingkatkan oleh RLHF mengungguli pendahulunya GPT-3, terutama dalam hal mengikuti instruksi, menjaga akurasi faktual, dan menghindari halusinasi model.⁵ Demikian juga, penelitian yang dirilis oleh OpenAI pada peluncuran GPT-4 menunjukkan bahwa RLHF menggandakan akurasi pada pertanyaan-pertanyaan yang bersifat adversarial.⁸

Manfaat RLHF bahkan dapat menggantikan nilai dataset pelatihan yang lebih besar, sehingga memungkinkan pengembangan model yang lebih efisien: OpenAI mencatat bahwa pemberi labelnya lebih menyukai keluaran dari versi 1.3B-parameter dari InstructGPT daripada keluaran dari versi 175B-parameter dari GPT-3.⁵

Gabungan Para Pakar | 28 Agustus, episode 70

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Simak episode terbaru podcast

Bagaimana cara kerja RLHF?

Pelatihan LLM dengan RLHF biasanya berlangsung dalam empat fase:

Model pelatihan sebelumnya

RLHF umumnya digunakan untuk fine tuning dan mengoptimalkan model yang telah dilatih sebelumnya, bukan sebagai metode pelatihan menyeluruh. Sebagai contoh, InstructGPT menggunakan RLHF untuk meningkatkan GPT yang sudah ada sebelumnya, yaitu, model Transformer Generatif yang Dilatih Sebelumnya. Dalam pengumuman rilisnya untuk InstructGPT, OpenAI menyatakan bahwa “salah satu cara berpikir tentang proses ini adalah bahwa proses ini ‘membuka’ kemampuan yang telah dimiliki GPT-3, tetapi sulit untuk diperoleh melalui rekayasa prompt saja”.⁵

Pelatihan sebelumnya sejauh ini merupakan fase RLHF yang paling padat sumber daya. OpenAI mencatat bahwa proses pelatihan RLHF untuk InstructGPT memerlukan kurang dari 2 persen komputasi dan data yang diperlukan untuk pelatihan sebelumnya GPT-3.

Penyesuaian yang diawasi

Sebelum memulai pembelajaran penguatan eksplisit, penyesuaian yang diawasi (SFT) digunakan untuk menyempurnakan model untuk menghasilkan respons dalam format yang diharapkan oleh pengguna.

Seperti yang telah disinggung sebelumnya, proses pelatihan sebelumnya LLM mengoptimalkan model untuk penyelesaian: memprediksi kata-kata berikutnya dalam suatu urutan dimulai dengan permintaan pengguna dengan meniru pola linguistik yang dipelajari selama pelatihan sebelumnya model. Terkadang, LLM tidak akan menyelesaikan urutan sesuai dengan yang diinginkan pengguna: misalnya, jika pengguna meminta, "ajari saya cara membuat resume," LLM mungkin merespons dengan "menggunakan Microsoft Word." Ini adalah cara yang valid untuk melengkapi kalimat, tetapi tidak selaras dengan tujuan pengguna.

Oleh karena itu, SFT menggunakan pembelajaran terawasi untuk melatih model agar dapat merespons dengan tepat terhadap berbagai jenis prompt. Pakar manusia membuat contoh berlabel, mengikuti format (prompt, respons), untuk mendemonstrasikan cara merespons prompt untuk berbagai contoh penggunaan, seperti menjawab pertanyaan, meringkas, atau menerjemahkan.

Data demonstrasi ini, meskipun sangat kuat, memakan waktu dan mahal untuk dihasilkan. Daripada membuat contoh baru yang khusus, DeepMind memperkenalkan pendekatan yang “menerapkan heuristik pemfilteran berdasarkan format dialog tertulis yang umum (gaya ‘transkrip wawancara’)” untuk mengisolasi pasangan contoh prompt/respons yang sesuai dari dalam kumpulan data MassiveWeb mereka.⁹

Pelatihan model penghargaan

Agar masukan manusia untuk memperkuat fungsi hadiah dalam pembelajaran penguatan, model hadiah diperlukan untuk menerjemahkan preferensi manusia menjadi sinyal hadiah numerik. Merancang model penghargaan yang efektif adalah langkah penting dalam RLHF, karena tidak ada rumus matematika atau logis langsung untuk secara layak mendefinisikan nilai-nilai manusia subjektif.

Tujuan utama dari fase ini adalah untuk menyediakan data pelatihan yang cukup bagi model hadiah, yang terdiri dari masukan langsung dari penilai manusia, untuk membantu model belajar meniru cara preferensi manusia dalam mengalokasikan hadiah ke berbagai jenis respons model. Hal ini memungkinkan pelatihan dilanjutkan secara offline tanpa adanya manusia dalam lingkaran.

Model imbalan harus mengambil urutan teks dan menghasilkan nilai imbalan skalar yang memprediksi, secara numerik, seberapa besar imbalan (atau hukuman) yang akan diberikan oleh pengguna manusia terhadap teks tersebut. Keluaran yang merupakan nilai skalar ini penting agar keluaran model penghargaan dapat diintegrasikan dengan komponen lain dari algoritma RL.

Meskipun mungkin terlihat paling intuitif untuk hanya meminta penilai manusia mengekspresikan pendapat mereka tentang setiap respons model dalam bentuk skalar—seperti menilai respons pada skala satu (terburuk) hingga sepuluh (terbaik)—sangat sulit untuk membuat semua penilai manusia selaras dengan nilai relatif dari nilai yang diberikan, apalagi membuat penilai manusia selaras dengan apa yang merupakan respons "baik" atau "buruk" dalam ruang hampa. Hal ini dapat membuat peringkat skalar langsung menjadi berisik dan sulit untuk dikalibrasi.

Sebaliknya, sistem penilaian biasanya dibangun dengan membandingkan masukan manusia untuk keluaran model yang berbeda. Metode yang umum digunakan adalah dengan meminta pengguna membandingkan dua urutan teks analog—seperti output dari dua model bahasa yang berbeda yang merespons permintaan yang sama—dalam pertandingan head-to-head, kemudian menggunakan sistem peringkat Elo untuk menghasilkan peringkat agregat dari setiap bit teks yang dihasilkan relatif terhadap satu sama lain. Sebuah sistem sederhana dapat memungkinkan pengguna untuk "jempol ke atas" atau "jempol ke bawah" setiap output, dengan output yang kemudian diberi peringkat berdasarkan kesukaan relatif mereka. Sistem yang lebih kompleks mungkin meminta pemberi label untuk memberikan peringkat keseluruhan dan menjawab pertanyaan kategoris tentang kekurangan setiap tanggapan, kemudian secara algoritmik menggabungkan masukan ini menjadi skor kualitas tertimbang.

Hasil dari sistem peringkat mana pun pada akhirnya dinormalisasi menjadi sinyal hadiah skalar untuk menginformasikan pelatihan model hadiah.

Optimalisasi kebijakan

Rintangan terakhir dari RLHF adalah menentukan bagaimana—dan seberapa besar—model penghargaan yang harus digunakan untuk memperbarui kebijakan agen AI. Salah satu algoritma yang paling sukses digunakan untuk fungsi penghargaan yang memperbarui model RL adalah optimasi kebijakan proksimal (PPO).

Tidak seperti kebanyakan arsitektur model machine learning dan jaringan neural, yang menggunakan gradient descent untuk meminimalkan fungsi kerugian dan menghasilkan kesalahan sekecil mungkin, algoritma pembelajaran penguatan sering kali menggunakan gradien naik untuk memaksimalkan penghargaan.

Namun, jika fungsi penghargaan digunakan untuk melatih LLM tanpa pagar pembatas, model bahasa dapat secara dramatis mengubah bobotnya hingga menghasilkan omong kosong dalam upaya untuk "mempermainkan" model penghargaan. PPO menyediakan cara yang lebih stabil untuk memperbarui kebijakan agen AI dengan membatasi berapa banyak kebijakan yang dapat diperbarui dalam setiap iterasi pelatihan.

Pertama, salinan model awal dibuat dan bobot yang dapat dilatih dibekukan. Algoritma PPO menghitung rentang [1-ε, 1+ε], di mana ε adalah hiperparameter yang secara kasar menentukan seberapa jauh kebijakan baru (yang diperbarui) diizinkan menyimpang dari kebijakan lama (yang dibekukan). Kemudian, menghitung rasio probabilitas: rasio probabilitas tindakan tertentu yang diambil oleh kebijakan lama vs probabilitas tindakan tersebut diambil oleh kebijakan baru. Jika rasio probabilitas lebih besar dari1+ε (atau di bawah1-ε), besarnya pembaruan kebijakan dapat dipotong untuk mencegah perubahan tajam yang dapat mengganggu kestabilan keseluruhan model.

Pengenalan PPO memberikan alternatif yang menarik untuk pendahulunya, trust region policy optimization (TRPO), yang memberikan manfaat yang sama tetapi lebih rumit dan mahal secara komputasi daripada PPO. Meskipun kerangka kerja optimasi kebijakan lainnya seperti aktor-kritik keuntungan (A2C) juga dapat digunakan, PPO sering kali lebih disukai sebagai metodologi yang sederhana dan hemat biaya.

Keterbatasan RLHF

Meskipun model RLHF telah menunjukkan hasil yang mengesankan dalam melatih agen AI untuk tugas-tugas kompleks mulai dari robotika dan video game hingga NLP, penggunaan RLHF bukannya tanpa keterbatasan.

Data preferensi manusia itu mahal. Kebutuhan untuk mengumpulkan input dari manusia secara langsung dapat menciptakan hambatan yang mahal yang membatasi skalabilitas proses RLHF. Baik Anthropic¹⁰ dan Google¹¹ telah mengusulkan metode pembelajaran penguatan dari masukan AI (RLAIF), menggantikan beberapa atau semua masukan manusia dengan memiliki LLM lain yang mengevaluasi respons model, yang telah memberikan hasil yang sebanding dengan RLHF.

Input manusia sangat subjektif. Sulit, bahkan tidak mungkin, untuk membangun konsensus yang kuat tentang apa yang merupakan hasil yang "berkualitas tinggi", karena para anotator manusia akan sering tidak setuju tidak hanya tentang fakta yang dituduhkan, tetapi juga tentang apa yang dimaksud dengan perilaku model yang "sesuai". Ketidaksepakatan manusia menghalangi terwujudnya "kebenaran dasar" yang sesungguhnya, yang dapat digunakan untuk menilai kinerja model.

Evaluator manusia bisa saja salah, atau bahkan sengaja menyimpangkan dan membahayakan. Entah mencerminkan pandangan kontrarian nyata atau dengan sengaja mempermainkan proses pembelajaran, panduan manusia terhadap model tidak selalu diberikan dengan iktikad baik. Dalam sebuah makalah tahun 2016, Wolf dkk. mengemukakan bahwa perilaku toksik harus menjadi harapan mendasar dari interaksi manusia-bot dan menyarankan perlunya metode untuk menilai kredibilitas masukan manusia.¹² Pada tahun 2022, Meta AI merilis makalah tentang input manusia yang menyimpang yang mempelajari metode otomatis “untuk mendapatkan efisiensi pembelajaran maksimum dari data berkualitas tinggi, sekaligus secara bersamaan menjadi lebih kuat untuk data berkualitas rendah dan penyimpangan”. Makalah ini mengidentifikasi berbagai pola dasar “troll” dan berbagai cara mereka mendistorsi data masukan.

RLHF berisiko mengalami overfitting dan bias. Jika masukan manusia dikumpulkan dari demografi yang terlalu sempit, model ini dapat menunjukkan masalah kinerja ketika digunakan oleh kelompok yang berbeda atau diminta pada pokok bahasan di mana evaluator manusia memiliki bias tertentu.

Cara memilih model dasar yang tepat

Pelajari cara memilih pendekatan yang tepat dalam mempersiapkan kumpulan data dan menggunakan model dasar.

Sumber daya

Mencapai ROI: Agen AI dalam Bisnis Anda

Bergabunglah dengan IBM untuk webinar di mana kami mendemonstrasikan cara menemukan ROI nyata melalui inisiatif AI agen, dengan contoh penggunaan di seluruh industri, kasus, dan bahkan kisah sukses IBM sendiri.

IBM dinobatkan sebagai Pemimpin dalam Ilmu Data & Machine Learning

Pelajari alasan IBM diakui sebagai Pemimpin dalam Gartner® Magic Quadrant™ 2025 untuk Ilmu Data dan Platform Machine Learning.

Dari proyek AI hingga keuntungan: Bagaimana AI agen dapat mempertahankan pengembalian keuangan

Pelajari bagaimana organisasi beralih dari meluncurkan AI dalam uji coba yang berbeda menjadi menggunakannya untuk mendorong transformasi pada intinya.

Tingkatkan keahlian AI Anda

Akses katalog lengkap kami yang terdiri dari lebih dari 100 kursus online dengan membeli langganan individu atau multi-pengguna hari ini, yang memungkinkan Anda untuk memperluas keterampilan Anda di berbagai produk kami dengan harga murah.

Jelajahi IBM Granite

IBM® Granite adalah rangkaian model AI terbuka, berkinerja, dan tepercaya yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.

IBM AI Academy

Dipandu oleh pemimpin terkemuka IBM, kurikulum dirancang untuk membantu pemimpin bisnis dalam mendapatkan pengetahuan yang diperlukan demi memprioritaskan investasi AI untuk mendorong pertumbuhan.

Cara Kerja AI 2024

Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara agar Anda sukses menerapkannya.

Panduan CEO 2025: 5 perubahan pikiran untuk meningkatkan pertumbuhan bisnis

Terapkan lima pola pikir ini untuk menghadapi ketidakpastian, mendorong transformasi bisnis, dan mempercepat pertumbuhan dengan bantuan AI agen.

Buka kekuatan AI generatif dan ML

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Cara berkembang di era baru AI ini dengan kepercayaan dan keyakinan

Pelajari tiga elemen penting dari strategi AI yang kuat: menciptakan keunggulan kompetitif, meningkatkan skala AI di seluruh bisnis, dan mengembangkan AI yang tepercaya.

Solusi terkait

IBM® watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai

Solusi kecerdasan buatan (AI)

Manfaatkan AI di bisnis Anda dengan perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI

Konsultasi dan layanan kecerdasan buatan (AI)

Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

Jelajahi layanan AI

Ambil langkah selanjutnya

Dapatkan akses ke berbagai kemampuan dalam satu alat untuk seluruh siklus pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai

Pesan demo langsung

Catatan kaki

¹ “Deep reinforcement learning from human preferences,” arXiv, terakhir direvisi pada 17 Feb 2023
² “OpenAI Five defeats Dota 2 world champions,”OpenAI, 15 Apr 2019.
³ “AlphaStar: Mastering the real-time strategy game StarCraft II,” Google DeepMind, 24 Jan 2019
⁴ “lm-human-preferences,” OpenAI (on GitHub), 2019
⁵ “Aligning language models to follow instructions,” OpenAI, 27 Jan 2022
⁶ “An overview of Bard: an early experiment with generative AI,” Google AI, last updated 19 Okt 2023
⁷ “Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback,” arXiv, 12 Apr 2022
⁸ “Research: GPT-4,” OpenAI, 14 Mar 2023
⁹ “Scaling Language Models: Methods, Analysis & Insights from Training Gopher,” arXiv, terakhir direvisi 21 Jan 2022
¹⁰ “Constitutional AI: Harmlessness from AI Feedback,” Anthropic, 15 Des 2022
¹¹ “RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback,” arXiv, 1 Sep 2023
¹² “Why We Should Have Seen That Coming: Comments on Microsoft's Tay 'Experiment' and Wider Implications,” The ORBIT Journal, 2017