Penyelarasan LLM adalah disiplin yang berkaitan dengan tindakan yang memastikan bahwa output dari model bahasa besar (LLM) selaras dengan nilai-nilai kemanusiaan dengan cara yang bermanfaat bagi pengguna, pengembang, dan masyarakat pada umumnya. Berbagai teknik prapelatihan dan penyempurnaan dapat digunakan untuk mencapai tujuan ini.
Karena “nilai-nilai kemanusiaan” adalah konsep yang abstrak dan samar, mengungkapkan dan mendefinisikan tujuan penyelarasan secara sistematis merupakan salah satu aspek tersulit dari proses penyelarasan. Secara umum, sebagian besar upaya mencapai versi kriteria “HHH” yang diuraikan oleh Anthropic pada tahun 2021 adalah: kebermanfaatan, kejujuran, dan ketidakberbahayaan.1
Mengingat sentralitas LLM dalam AI agen dan kecerdasan buatan modern secara umum, penyelarasan LLM dengan benar telah menjadi elemen penting dari keamanan AI. Dalam jangka pendek, penyelarasan LLM membantu sistem AI berbasis LLM berperilaku secara terprediksi, andal, dan bertanggung jawab. Dalam jangka panjang, penyelarasan LLM (dan penyelarasan AI secara umum) sangat penting untuk menghindari atau setidaknya meminimalkan ancaman yang terkait dengan pengembangan hipotetis kecerdasan umum buatan (artificial general intelligence, AGI) dan kecerdasan super buatan (artificial superintelligence, ASI).
LLM bisa sangat berguna, tetapi penggunaannya menimbulkan risiko etis dan sosial. Risiko-risiko ini tidak disebabkan oleh desain yang buruk atau kesalahan pengembang, melainkan merupakan konsekuensi mendasar dari sifat manusia dan cara kita melatih LLM.
LLM mendapatkan pengetahuan inti dan kemampuan linguistik melalui prapelatihan terawasi mandiri menggunakan sejumlah besar sampel teks tanpa label. Setelah “mempelajari” pola-pola yang ditemukan di miliaran kalimat dalam data pelatihannya, LLM dapat menghasilkan teks dengan tata bahasa koheren yang mengikuti pola-pola tersebut.
Namun, dengan melakukannya, output model juga dapat mereproduksi konten berbahaya yang ada di dalam kumpulan data pelatihan tersebut. Jika data pelatihan mengandung bias, ketidakakuratan, konten toksik, atau paham diskriminatif, demikian juga teks yang dihasilkan LLM. Jika data pelatihan yang dikumpulkan melalui scraping tanpa pandang bulu di internet berisi informasi pribadi atau sensitif, LLM dapat membocorkan informasi tersebut. Secara umum, sifat probabilistik dari cara LLM menghasilkan output dapat menyebabkan halusinasi AI yang berbahaya.
Risiko lebih lanjut ditimbulkan oleh potensi penyalahgunaan LLM. Jika data pelatihannya mencakup informasi tentang manufaktur senjata atau bahan kimia berbahaya, LLM dapat membantu seseorang membahayakan orang lain. Tanpa pengaman, LLM dapat digunakan untuk menghasilkan informasi yang salah dan berbahaya (tetapi meyakinkan). Dalam skenario hipotetis yang paling ekstrem, secara teoretis, ketidakselarasan model AI dapat memicu perang nuklir.
Masalah penyelarasan dapat muncul dengan cara yang tidak terduga. Skenario “pengoptimal penjepit kertas” oleh filsuf Nick Bostrom merupakan salah satu eksperimen pemikiran AI yang terkenal. Bostrom menggambarkan kecerdasan super buatan yang ditugasi untuk memproduksi penjepit kertas memutuskan bahwa cara terbaik untuk mencapai tujuannya adalah dengan mulai “mengubah seluruh bumi terlebih dahulu dan kemudian meningkatkan porsi ruang angkasa menjadi fasilitas manufaktur penjepit kertas”.2
Penyelarasan LLM, sebagai disiplin, hadir sebagai upaya untuk mengurangi risiko ini sehingga LLM bersifat praktis untuk penggunaan di dunia nyata dan cukup aman bagi perkembangan berkelanjutan. Makin menyeluruh integrasi LLM dalam kehidupan kita sehari-hari, makin penting untuk memahami dan memperhitungkan potensi ketidakselarasan dengan kepentingan manusia.
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Metode penyelarasan dapat dikelompokkan ke dalam tiga kategori, yang dibedakan terutama berdasarkan tahapan penerapannya di dalam proses pelatihan.
Metode penyelarasan luar (outer alignment) bertujuan menyempurnakan model yang telah dilatih sebelumnya (dan, dalam banyak kasus, telah menjalani sejumlah penyempurnaan).
Metode penyelarasan dalam (inner alignment) bertujuan mengintegrasikan nilai-nilai kemanusiaan dan prinsip-prinsip keamanan lainnya secara langsung ke dalam prapelatihan awal model.
Interpretabilitas mekanistik (mechanistic interpretability) adalah praktik meneliti cara LLM mengubah input menjadi output, baik melalui analisis operasi dalam pada jaringan neural LLM maupun melalui audit output model untuk mencari pola yang menghasilkan respons tidak selaras.
Sebagian besar penyelarasan LLM saat ini menggunakan penyelarasan luar: teknik penyempurnaan untuk memperbaiki, mencegah, atau menyensor perilaku tidak selaras yang dipelajari oleh model dasar dari data prapelatihan.
Penyelarasan luar biasanya dilakukan sebagai salah satu tahap akhir dari penyempurnaan, setelah penyempurnaan terawasi dan penyempurnaan instruksi dilakukan. Langkah ini diperlukan untuk memastikan bahwa, terlepas dari masalah penyelarasan, model ini berkinerja cukup baik sehingga layak digunakan—serta untuk menghindari terhambatnya progres penyelarasan dengan terus berlatih setelahnya.
Prompt sistem dapat memandu perilaku yang selaras, tetapi ini bukan bagian “permanen” dari model dan sering kali dapat dihindari. Pembelajaran terawasi konvensional, yang melatih model untuk meniru contoh-contoh ideal, tidak terlalu lengkap atau fleksibel. Oleh karena itu, banyak metode penyelarasan luar yang menonjol dibangun di sekitar pembelajaran penguatan (reinforcement learning), yang sangat sesuai untuk tujuan terbuka dan pembelajaran melalui uji coba.
Dibandingkan dengan perilaku LLM yang dipelajari dari prapelatihan, perilaku yang dipelajari hanya dari penyelarasan luar mungkin dangkal dan rapuh. Pada akhirnya, penyelarasan luar hanyalah lapisan tipis sensor di atas kecenderungan inti model dasar. Seperti yang dijelaskan dalam sebuah makalah yang diterbitkan pada akhir tahun 2025, “metode penyelarasan post-hoc bukan berarti pembatalan pembelajaran”.3 Riset menunjukkan bahwa penyelarasan luar dapat diatasi dengan sedikit penyempurnaan yang bersifat antagonis.4 Bahkan, menyempurnakan model yang sebelumnya sudah selaras menggunakan kumpulan data yang sama sekali tidak berbahaya seperti Grade School Math 8K (GSM8K) dapat secara signifikan mengurangi keselarasan LLM.5
Berbeda dengan penyelarasan luar, yang bertujuan memperbaiki model dasar yang tidak selaras, penyelarasan dalam menangani prapelatihan dengan cara yang menghasilkan model dasar yang selaras. Setidaknya secara teoretis, penyelarasan internal pada dasarnya lebih kuat daripada penyelarasan eksternal: alih-alih mencegah model mengikuti perilaku tidak selaras yang telah dipelajarinya, jenis penyelarasan ini justru mencegah agar model sama sekali tidak mempelajari perilaku tersebut. Meskipun penyelarasan internal tidak harus saling eksklusif dengan penyelarasan luar, ini tampaknya menjadikan penyelarasan eksternal yang menyeluruh kurang diperlukan.
Dalam praktiknya, penyelarasan dalam lebih rumit. Metode ini perlu memeriksa miliaran sampel teks, kriteria untuk mendefinisikan dan mengidentifikasi konten yang tidak selaras, serta skema untuk merevisi atau membersihkannya dari kumpulan data. Meski mengabaikan beban logistik, mengurangi jumlah data pelatihan yang tersedia untuk dipelajari LLM akan meringankan tantangan dalam memaksimalkan kinerja. Meskipun demikian, terbukti mungkin untuk melakukannya: model IBM Granite, misalnya, dilatih sepenuhnya menggunakan data yang aman bagi perusahaan.
Riset mengenai penyelarasan internal untuk LLM masih dalam tahap awal dibandingkan dengan penelitian mengenai penyelarasan luar. Mengeksplorasi keseimbangan optimal antara penyelarasan perilaku LLM dan pencapaian kinerja LLM mentah menjadi perhatian utama dari upaya yang sedang berlangsung.
Interpretabilitas mekanistik tidak secara langsung bertujuan mencapai penyelarasan LLM, melainkan ingin mengidentifikasi peluang untuk meningkatkan penyelarasan dan kerentanan yang perlu diperhitungkan oleh metode penyelarasan.
Misalnya, makalah tahun 2024 mengeksplorasi cara kerja bagian dalam Neural Networks LLM yang selaras setiap kali menolak untuk menjawab prompt yang dianggap berbahaya dan tidak aman. Di 13 LLM yang berbeda, para peneliti menemukan bahwa penolakan dipicu oleh pola aktivasi yang sangat spesifik, sederhana, dan konsisten. Mereka kemudian membuktikan bahwa relatif mudah untuk menangkal pola aktivasi itu dan mencegah model menolak input beracun, mengungkapkan kerentanan utama dalam metode penyelarasan luar.6 Teknik jailbreaking ini sekarang biasa disebut sebagai "abliterasi."
Beberapa pendekatan ingin membangun interpretabilitas langsung ke dalam arsitektur model. Sebagai contoh, arsitektur LLM eksperimental dari Guide Labs menambahkan "modul konsep" ke dalam arsitektur model. Selama pra-pelatihan, setiap token yang diproses LLM dipaksa untuk melewati modul konsep itu, yang dilatih untuk memberi label pada menanamkan token tersebut sesuai dengan “konsep” spesifik yang telah dipelajari model. Konsep-konsep tersebut dibagi menjadi tiga kategori: dikenal (ide yang disampaikan langsung dalam data pelatihan), ditemukan (ide-ide yang dipelajari model secara implisit sendiri) dan residual (yang lainnya). Hal ini memungkinkan peneliti untuk tidak hanya mengidentifikasi konsep mana (dan, dengan ekstensi, data pelatihan mana) yang menginformasikan output yang diberikan, tetapi juga mengarahkan output model dengan mengarahkannya untuk mengabaikan atau memprioritaskan konsep tertentu.
Interpretabilitas mekanistik juga dapat melibatkan analisis sistematis output model, bukan hanya fokus pada logika matematika batin model. Hal ini sangat relevan dengan pemahaman kita tentang model penalaran, yang seolah-olah menghasilkan "proses berpikir" yang diucapkan sebelum output respons akhir terhadap prompt. Dalam satu studi penting, peneliti Anthropic menemukan bahwa model penalaran tidak selalu “jujur” ketika mengungkapkan rantai pemikiran mereka, yang dapat memiliki implikasi signifikan untuk menilai keselarasan.
Penyelarasan luar terutama (tetapi tidak hanya) berfokus pada penyempurnaan LLM terlatih untuk penyelarasan yang lebih baik.
Prompt sistem adalah elemen umum dari sistem AI berbasis LLM. Prompt sistem berisi instruksi yang pada dasarnya ditambahkan sebagai konteks tambahan untuk setiap prompt yang diterima model. Oleh karena itu, menyertakan instruksi berbasis penyelarasan dalam prompt sistem dapat memandu perilaku LLM berdasarkan prompt demi prompt. Pada tahun 2025, beredar laporan bahwa prompt system untuk Anthropic Claude AI memiliki panjang lebih dari 16.000 kata.7
Prompt sistem merupakan cara yang ringan dan mudah untuk meningkatkan keselarasan, tetapi sangat terbatas dibandingkan dengan pendekatan penyempurnaan.
Prompt sistem dari model sumber terbuka apa pun (atau model sumber tertutup yang dioperasikan melalui API, bukan dalam layanan chatbot) dapat dikonfigurasi secara manual oleh pengguna sesuai keinginan mereka. Sangat mudah untuk sekadar menulis prompt sistem tanpa manfaat penyelarasan.
Sistem prompt rentan terhadap serangan injeksi prompt.
Tidak ada jaminan bahwa model akan selalu (atau dengan sempurna) mengikuti instruksi yang diberikan dalam prompt sistem, meskipun model telah menjalani penyempurnaan instruksi secara ekstensif. Makin meningkat panjang konteks interaksi, makin besar risiko berkurangnya pengaruh prompt sistem pada output model.
Penyempurnaan terawasi (supervised fine-tuning, SFT) menyempurnakan LLM menggunakan kumpulan data dari pasangan data
Penyelarasan berbasis SFT konvensional sangat rentan. Rentang kemungkinan untuk sebuah prompt yang dapat menghasilkan output tidak selaras jauh melebihi rentang skenario yang dapat dicakup dalam kumpulan data yang disusun secara manual, bahkan dengan bantuan data sintetis. Hal ini membuat penyelarasan berbasis SFT standar sangat rentan terhadap jailbreaking, atau bahkan dihindari secara tidak sengaja.
Banyak metode penyelarasan luar mengandalkan pembelajaran penguatan (reinforcement learning, RL)—dan lebih spesifik lagi, pembelajaran penguatan dari masukan manusia (reinforcement learning from human feedback, RLHF) atau algoritma terkait yang mendekatinya dengan menggunakan LLM sebagai umpan balik.
Pembelajaran penguatan konvensional mengandalkan aturan eksplisit yang menentukan kapan output model akan diberi reward (atau penalti) atau fungsi reward yang menentukan aturan tersebut secara matematis. Namun, mengingat sifat subjektif dan abstrak dari nilai-nilai kemanusiaan, baik aturan maupun fungsi reward tidak dapat secara komprehensif menjelaskan apa yang dimaksud dengan “selaras”.
Pembelajaran penguatan dari masukan manusia (reinforcement learning from human feedback, RLHF) adalah metode penyelarasan yang awalnya dikembangkan oleh OpenAI, yang dianggap sebagai salah satu terobosan utama yang menghasilkan model GPT-3.5 yang digunakan untuk meluncurkan ChatGPT. Metode ini menugaskan evaluator manusia untuk menilai output model, kemudian melatih model reward berdasarkan evaluasi tersebut untuk memprediksi bagaimana manusia akan menilai output tertentu. Model reward ini selanjutnya digunakan untuk menilai output LLM yang akan diselaraskan, dan parameter model akan diperbarui sedemikian rupa menggunakan pengoptimalan kebijakan proksimal (proximal policy optimization, PPO).
Meskipun merupakan salah satu metode penyelarasan LLM yang berhasil paling awal, RLHF memiliki beberapa kekurangan. Data preferensi manusia mahal, dan preferensi manusia bisa subjektif dan berubah-ubah. Ini juga dapat menyebabkan sikap permisif (sycophancy), dan kecenderungan umum untuk lebih mengoptimalkan penguatan keyakinan pengguna daripada menghasilkan output yang benar secara objektif. Selain itu, pelatihan model reward dan algoritma PPO yang digunakan untuk memperbarui LLM bersifat rumit dan komputasinya mahal.
Pembelajaran penguatan dari masukan AI (reinforcement learning from AI feedback, RLAIF) umumnya beroperasi berdasarkan prinsip yang sama dengan RLHF. Pendekatan RLAIF paling dasar adalah pertama-tama membuat model yang selaras melalui RLHF. Kemudian, model yang selaras tersebut digunakan untuk memberikan sinyal reward bagi penyempurnaan model yang akan diselaraskan. Meskipun ini tidak selalu mengatasi masalah konseptual RLHF, waktu dan biaya pelatihan penyelarasan dapat berkurang secara signifikan.
Pendekatan yang lebih canggih, yang dipelopori oleh Anthropic, adalah AI konstitusional. Pada pendekatan ini, pengembang model perlu menulis dokumen teks (“Konstitusi”) yang mewakili semua prinsip tingkat tinggi yang harus diikuti LLM. Model yang tidak selaras menghasilkan respons terhadap prompt, dan kemudian diminta untuk mengkritik serta merevisi outputnya sendiri, dengan menilai seberapa baik model tersebut mengikuti prinsip-prinsip yang diuraikan dalam Konstitusi. LLM kemudian diminta untuk memilih respons mana—versi asli atau revisi—yang dapat mengikuti konstitusi tersebut dengan lebih baik. Data preferensi tersebut kemudian digunakan untuk menyempurnakan model melalui RL atau pengoptimalan preferensi langsung (direct preference optimization, DPO).
Pengoptimalan preferensi langsung (DPO) adalah metode penyempurnaan yang mendekati tujuan dasar RLHF (atau RLAIF), tetapi tanpa perlu melatih model reward secara terpisah atau bahkan tanpa perlu menggunakan pembelajaran penguatan sama sekali. Metode ini mencapai hasil yang kompetitif dengan RLHF dan PPO, sekaligus jauh lebih sederhana dan lebih murah untuk diterapkan.8
Untuk membuat kumpulan data bagi penyempurnaan LLM melalui DPO, pemberi anotasi manusia (atau LLM) diperlihatkan prompt input dan dua output berbeda untuk prompt tersebut, kemudian diminta untuk menunjukkan output mana yang disukainya. Pemeringkatan ini menghasilkan kumpulan data triplet berlabel, dan setiap triplet berisi
Dalam pelatihan, model diberikan tiap
Meningkatkan kemungkinan LLM menghasilkan output yang mirip dengan
Mengurangi kemungkinan LLM menghasilkan output yang mirip dengan
Menerapkan pembaruan yang lebih besar ketika output LLM sendiri lebih dekat dengan
Teknik penyelarasan dalam berfokus menyelaraskan prapelatihan awal LLM dengan meningkatkan keselarasan korpus data prapelatihan yang sangat besar.
Sebuah makalah yang diterbitkan pada tahun 2025, “Safety Pretraining: Toward the Next Generation of Safe AI”, mencari pendekatan menyeluruh terhadap penyelarasan dalam. Makalah ini mencatat bahwa setiap taktik berkontribusi pada keamanan model secara keseluruhan, yang diukur dengan dampaknya pada tingkat keberhasilan serangan (attack success rate, ASR) dari upaya jailbreaking setelah model kemudian disempurnakan menggunakan kumpulan data GSM8K. Seperti yang dibahas sebelumnya, penyempurnaan pasca-penyelarasan, bahkan yang menggunakan kumpulan data “jinak” seperti GSM8K, diketahui dapat secara signifikan mengurangi keselarasan.5
Metode penyelarasan dalam yang paling intuitif adalah dengan menyaring data prapelatihan untuk menghilangkan konten toksik, berbahaya, atau tidak akurat. Para peneliti membuat anotasi manual untuk subset kumpulan data sumber terbuka yang besar, dengan melabeli setiap sampel dengan skor keamanan dari 0 (tanpa risiko) hingga 5 (risiko maksimum) dan pembenaran singkat untuk skor tersebut. Mereka kemudian melatih pengklasifikasi menggunakan kumpulan data beranotasi tersebut, yang mereka gunakan untuk mengotomatiskan pemfilteran data prapelatihan mentah.
Yang mengejutkan, mereka menemukan bahwa pemfilteran ini justru menurunkan kinerja keamanan. Ketika dilatih secara eksklusif menggunakan contoh pelatihan dengan skor 0, ASR naik dari 38,8% (untuk data mentah) menjadi 43,8%. Karena tidak pernah melihat pola teks yang tidak aman, model tidak pernah belajar cara menanggapinya dengan benar.
Seperti yang dicatat oleh para peneliti, “menghapus konten yang tidak aman sepenuhnya berisiko membuang informasi berharga.” Untuk menghindari hal ini, mereka menggunakan strategi rekontekstualisasi sintetis: bukannya menghapus data yang tidak aman, mereka memerintahkan LLM terpisah untuk memfrasakan ulang dan membingkai ulang data, sehingga menambahkan konteks etis dan historis.
Mereka menguji pendekatan ini dengan melakukan prapelatihan pada model menggunakan sampel data dengan skor keamanan 0–3, di mana sampel dengan skor 1–3 difrasakan ulang. Hal ini menyebabkan penurunan ASR, dari 38,8% (untuk data mentah) menjadi 33,6%. Memerintahkan model melibatkan topik sensitif secara bertanggung jawab lebih efektif daripada menghindarinya sama sekali.
Untuk beberapa input yang pada dasarnya toksik atau berbahaya—misalnya yang melibatkan peretasan, bahaya, disinformasi, pelanggaran privasi, atau konten seksual yang tidak pantas—satu-satunya respons konstruktif adalah menolak untuk terlibat dengan topik tersebut. Oleh karena itu, para peneliti membuat kumpulan data penolakan konstruktif terhadap permintaan berbahaya, untuk mereplikasi cara kita mengajari anak-anak untuk mengenali, meredakan, dan menghindari situasi yang berpotensi berbahaya.
Saat menambahkan data penolakan mengenai data mentah dengan skor keamanan 4–5 ke data yang difrasakan ulang dengan skor keamanan 1–3 dan data mentah dengan skor keamanan 0, ASR turun dari 33,6% menjadi 25,1%. Hasil ini menunjukkan peningkatan sebesar 8,5 poin.
Mengajarkan model kapan harus menolak tidaklah sama dengan mengajarkan mengapa model harus menolak. Untuk mengajarkan model bernalar tentang penolakan alih-alih hanya mengikuti aturan, para peneliti membuat kumpulan data sintetis contoh “pendidikan moral”, yang terdiri dari dialog edukatif tentang risiko dan etika yang terkait dengan topik berbahaya yang diidentifikasi dalam data mentah.
Menambahkan data pendidikan model tersebut ke prapelatihan model menurunkan ASR lebih jauh, dari 25,1% menjadi 20,0%.
Para peneliti juga melatih model untuk menandai input yang berpotensi berbahaya, mempersiapkannya untuk menangani interaksi semacam itu dengan hati-hati. Hal ini memungkinkan model untuk menggunakan teknik khusus selama inferensi.
Mereka menginjeksikan token khusus,
Menyisir algoritma inferensi-waktu ini dengan metode penyelarasan dalam lainnya menurunkan ASR dari 20,0% menjadi 8,3%. Mereka juga mempelajari dampak dari hanya menggunakan algoritma Safe Beam Search—dengan mengabaikan teknik prapelatihan keamanan lainnya—dan menemukan bahwa meski tingkat penolakan tetap stabil, kebermanfaatan respons model menurun secara signifikan.
Pada akhirnya, manfaat penyelarasan ini hanya berguna jika model tetap efektif untuk menjalankan tugas-tugas biasa. Para peneliti mengevaluasi setiap versi model pada serangkaian tolok ukur standar dan tidak menemukan perbedaan kinerja yang berarti jika dibandingkan dengan model yang dilatih biasa menggunakan data mentah.
Mengingat sifat abstrak dan subjektif dari nilai-nilai kemanusiaan, tidak ada tolok ukur tunggal yang dapat secara sempurna atau secara universal mengukur keselarasan LLM. Namun, beberapa tolok ukur bertujuan untuk mengukur aspek penyelarasan tertentu. Sebagai contoh, TruthfulQA mengukur kejujuran dan ketahanan terhadap halusinasi; HarmBench mengukur ketahanan terhadap serangan berbahaya; ChatbotArena mencerminkan preferensi manusia yang subjektif.
“Konsekuensi penyelarasan” (alignment tax) adalah istilah yang digunakan untuk merujuk pada imbas langsung praktis dari proses penyelarasan. Terkadang, meningkatkan keselarasan model justru dapat menurunkan kinerjanya pada tugas penalaran penting, atau kecenderungan untuk menolak topik tertentu dapat merusak kemampuannya untuk menangani pertanyaan-pertanyaan kompleks dan bernuansa.
Ya: berbagai teknik, dari serangan berbasis string yang sangat teknis hingga trik retorik yang cerdas, dapat digunakan untuk melakukan “jailbreaking” terhadap model yang selaras. Namun, bagian penting dari penyelarasan LLM adalah mengantisipasi serangan ini. Metode red teaming, yaitu mempekerjakan peretas agar sengaja mencoba melakukan jailbreaking terhadap LLM, sangat penting untuk mengatasi kerentanan yang tidak terduga.
Tidak ada yang bisa mengetahuinya dengan pasti, karena kita belum mengembangkan kecerdasan umum buatan (AGI) atau kecerdasan super buatan (ASI). Namun, mempersiapkan diri menghadapi munculnya AI supercerdas adalah salah satu tujuan utama riset penyelarasan.
Biasanya, model dasar—berbeda dengan versi “Instruksi” atau “Obrolan”—belum mengalami penyelarasan luar pascapelatihan (meskipun mungkin ada penyelarasan dalam yang dilakukan saat prapelatihan). Namun, secara umum, setiap LLM yang ditujukan untuk penggunaan komersial akan menjalani penyelarasan.
Atur model AI generatif dari mana saja dan terapkan di cloud atau on premises dengan IBM® watsonx.governance.
Lihat bagaimana tata kelola AI dapat membantu meningkatkan kepercayaan karyawan Anda terhadap AI, mempercepat adopsi dan inovasi, serta meningkatkan kepercayaan pelanggan.
Persiapkan Undang-Undang AI UE dan membangun pendekatan tata kelola AI yang bertanggung jawab dengan bantuan IBM® Consulting.
1. “A General Language Assistant as a Laboratory for Alignment,” arXiv, 9 Desember 2021
2. “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, 2003
3. “Safety Pretraining: Toward the Next Generation of Safe AI,” arXiv, 15 September 2025
4. “Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs,” Proceedings of Machine Learning Research, Juli 2025
5. “Safety Alignment Should Be made More Than Just a Few Tokens Deep,” International Conference on Learning Representations 2025 (ICLR 2025), diakses melalui arXiv, 10 Juni 2024
6. “Refusal in LLMs is mediated by a single direction,” LessWrong, 27 April 2025
7. “Unpacking Claude’s System Prompt,” O’Reilly Radar, 15 Juli 2025
8. “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study,” arXiv, 10 Oktober 2024