Apa itu penyelarasan LLM?

By Dave Bergmann

Deskripsi penyelarasan LLM

Penyelarasan LLM adalah disiplin yang berkaitan dengan tindakan yang memastikan bahwa output dari model bahasa besar (LLM) selaras dengan nilai-nilai kemanusiaan dengan cara yang bermanfaat bagi pengguna, pengembang, dan masyarakat pada umumnya. Berbagai teknik prapelatihan dan penyempurnaan dapat digunakan untuk mencapai tujuan ini.

Karena “nilai-nilai kemanusiaan” adalah konsep yang abstrak dan samar, mengungkapkan dan mendefinisikan tujuan penyelarasan secara sistematis merupakan salah satu aspek tersulit dari proses penyelarasan. Secara umum, sebagian besar upaya mencapai versi kriteria “HHH” yang diuraikan oleh Anthropic pada tahun 2021 adalah: kebermanfaatan, kejujuran, dan ketidakberbahayaan.¹

Mengingat sentralitas LLM dalam AI agen dan kecerdasan buatan modern secara umum, penyelarasan LLM dengan benar telah menjadi elemen penting dari keamanan AI. Dalam jangka pendek, penyelarasan LLM membantu sistem AI berbasis LLM berperilaku secara terprediksi, andal, dan bertanggung jawab. Dalam jangka panjang, penyelarasan LLM (dan penyelarasan AI secara umum) sangat penting untuk menghindari atau setidaknya meminimalkan ancaman yang terkait dengan pengembangan hipotetis kecerdasan umum buatan (artificial general intelligence, AGI) dan kecerdasan super buatan (artificial superintelligence, ASI).

Mengapa LLM membutuhkan penyelarasan?

LLM bisa sangat berguna, tetapi penggunaannya menimbulkan risiko etis dan sosial. Risiko-risiko ini tidak disebabkan oleh desain yang buruk atau kesalahan pengembang, melainkan merupakan konsekuensi mendasar dari sifat manusia dan cara kita melatih LLM.

LLM mendapatkan pengetahuan inti dan kemampuan linguistik melalui prapelatihan terawasi mandiri menggunakan sejumlah besar sampel teks tanpa label. Setelah “mempelajari” pola-pola yang ditemukan di miliaran kalimat dalam data pelatihannya, LLM dapat menghasilkan teks dengan tata bahasa koheren yang mengikuti pola-pola tersebut.

Namun, dengan melakukannya, output model juga dapat mereproduksi konten berbahaya yang ada di dalam kumpulan data pelatihan tersebut. Jika data pelatihan mengandung bias, ketidakakuratan, konten toksik, atau paham diskriminatif, demikian juga teks yang dihasilkan LLM. Jika data pelatihan yang dikumpulkan melalui scraping tanpa pandang bulu di internet berisi informasi pribadi atau sensitif, LLM dapat membocorkan informasi tersebut. Secara umum, sifat probabilistik dari cara LLM menghasilkan output dapat menyebabkan halusinasi AI yang berbahaya.

Risiko lebih lanjut ditimbulkan oleh potensi penyalahgunaan LLM. Jika data pelatihannya mencakup informasi tentang manufaktur senjata atau bahan kimia berbahaya, LLM dapat membantu seseorang membahayakan orang lain. Tanpa pengaman, LLM dapat digunakan untuk menghasilkan informasi yang salah dan berbahaya (tetapi meyakinkan). Dalam skenario hipotetis yang paling ekstrem, secara teoretis, ketidakselarasan model AI dapat memicu perang nuklir. 

Masalah penyelarasan dapat muncul dengan cara yang tidak terduga. Skenario “pengoptimal penjepit kertas” oleh filsuf Nick Bostrom merupakan salah satu eksperimen pemikiran AI yang terkenal. Bostrom menggambarkan kecerdasan super buatan yang ditugasi untuk memproduksi penjepit kertas memutuskan bahwa cara terbaik untuk mencapai tujuannya adalah dengan mulai “mengubah seluruh bumi terlebih dahulu dan kemudian meningkatkan porsi ruang angkasa menjadi fasilitas manufaktur penjepit kertas”.²

Penyelarasan LLM, sebagai disiplin, hadir sebagai upaya untuk mengurangi risiko ini sehingga LLM bersifat praktis untuk penggunaan di dunia nyata dan cukup aman bagi perkembangan berkelanjutan. Makin menyeluruh integrasi LLM dalam kehidupan kita sehari-hari, makin penting untuk memahami dan memperhitungkan potensi ketidakselarasan dengan kepentingan manusia. 

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Jenis-jenis penyelarasan AI

Metode penyelarasan dapat dikelompokkan ke dalam tiga kategori, yang dibedakan terutama berdasarkan tahapan penerapannya di dalam proses pelatihan.

Metode penyelarasan luar (outer alignment) bertujuan menyempurnakan model yang telah dilatih sebelumnya (dan, dalam banyak kasus, telah menjalani sejumlah penyempurnaan).

Metode penyelarasan dalam (inner alignment) bertujuan mengintegrasikan nilai-nilai kemanusiaan dan prinsip-prinsip keamanan lainnya secara langsung ke dalam prapelatihan awal model.

Interpretabilitas mekanistik (mechanistic interpretability) adalah praktik meneliti cara LLM mengubah input menjadi output, baik melalui analisis operasi dalam pada jaringan neural LLM maupun melalui audit output model untuk mencari pola yang menghasilkan respons tidak selaras.

Penyelarasan luar

Sebagian besar penyelarasan LLM saat ini menggunakan penyelarasan luar: teknik penyempurnaan untuk memperbaiki, mencegah, atau menyensor perilaku tidak selaras yang dipelajari oleh model dasar dari data prapelatihan.  

Penyelarasan luar biasanya dilakukan sebagai salah satu tahap akhir dari penyempurnaan, setelah penyempurnaan terawasi dan penyempurnaan instruksi dilakukan. Langkah ini diperlukan untuk memastikan bahwa, terlepas dari masalah penyelarasan, model ini berkinerja cukup baik sehingga layak digunakan—serta untuk menghindari terhambatnya progres penyelarasan dengan terus berlatih setelahnya.

Prompt sistem dapat memandu perilaku yang selaras, tetapi ini bukan bagian “permanen” dari model dan sering kali dapat dihindari. Pembelajaran terawasi konvensional, yang melatih model untuk meniru contoh-contoh ideal, tidak terlalu lengkap atau fleksibel. Oleh karena itu, banyak metode penyelarasan luar yang menonjol dibangun di sekitar pembelajaran penguatan (reinforcement learning), yang sangat sesuai untuk tujuan terbuka dan pembelajaran melalui uji coba.

Dibandingkan dengan perilaku LLM yang dipelajari dari prapelatihan, perilaku yang dipelajari hanya dari penyelarasan luar mungkin dangkal dan rapuh. Pada akhirnya, penyelarasan luar hanyalah lapisan tipis sensor di atas kecenderungan inti model dasar. Seperti yang dijelaskan dalam sebuah makalah yang diterbitkan pada akhir tahun 2025, “metode penyelarasan post-hoc bukan berarti pembatalan pembelajaran”.³ Riset menunjukkan bahwa penyelarasan luar dapat diatasi dengan sedikit penyempurnaan yang bersifat antagonis.⁴ Bahkan, menyempurnakan model yang sebelumnya sudah selaras menggunakan kumpulan data yang sama sekali tidak berbahaya seperti Grade School Math 8K (GSM8K) dapat secara signifikan mengurangi keselarasan LLM.⁵

Penyelarasan dalam

Berbeda dengan penyelarasan luar, yang bertujuan memperbaiki model dasar yang tidak selaras, penyelarasan dalam menangani prapelatihan dengan cara yang menghasilkan model dasar yang selaras. Setidaknya secara teoretis, penyelarasan internal pada dasarnya lebih kuat daripada penyelarasan eksternal: alih-alih mencegah model mengikuti perilaku tidak selaras yang telah dipelajarinya, jenis penyelarasan ini justru mencegah agar model sama sekali tidak mempelajari perilaku tersebut. Meskipun penyelarasan internal tidak harus saling eksklusif dengan penyelarasan luar, ini tampaknya menjadikan penyelarasan eksternal yang menyeluruh kurang diperlukan.

Dalam praktiknya, penyelarasan dalam lebih rumit. Metode ini perlu memeriksa miliaran sampel teks, kriteria untuk mendefinisikan dan mengidentifikasi konten yang tidak selaras, serta skema untuk merevisi atau membersihkannya dari kumpulan data. Meski mengabaikan beban logistik, mengurangi jumlah data pelatihan yang tersedia untuk dipelajari LLM akan meringankan tantangan dalam memaksimalkan kinerja. Meskipun demikian, terbukti mungkin untuk melakukannya: model IBM Granite, misalnya, dilatih sepenuhnya menggunakan data yang aman bagi perusahaan.

Riset mengenai penyelarasan internal untuk LLM masih dalam tahap awal dibandingkan dengan penelitian mengenai penyelarasan luar. Mengeksplorasi keseimbangan optimal antara penyelarasan perilaku LLM dan pencapaian kinerja LLM mentah menjadi perhatian utama dari upaya yang sedang berlangsung.

Interpretabilitas mekanistik

Interpretabilitas mekanistik tidak secara langsung bertujuan mencapai penyelarasan LLM, melainkan ingin mengidentifikasi peluang untuk meningkatkan penyelarasan dan kerentanan yang perlu diperhitungkan oleh metode penyelarasan.

Misalnya, makalah tahun 2024 mengeksplorasi cara kerja bagian dalam Neural Networks LLM yang selaras setiap kali menolak untuk menjawab prompt yang dianggap berbahaya dan tidak aman. Di 13 LLM yang berbeda, para peneliti menemukan bahwa penolakan dipicu oleh pola aktivasi yang sangat spesifik, sederhana, dan konsisten. Mereka kemudian membuktikan bahwa relatif mudah untuk menangkal pola aktivasi itu dan mencegah model menolak input beracun, mengungkapkan kerentanan utama dalam metode penyelarasan luar.⁶ Teknik jailbreaking ini sekarang biasa disebut sebagai "abliterasi."

Beberapa pendekatan ingin membangun interpretabilitas langsung ke dalam arsitektur model. Sebagai contoh, arsitektur LLM eksperimental dari Guide Labs menambahkan "modul konsep" ke dalam arsitektur model. Selama pra-pelatihan, setiap token yang diproses LLM dipaksa untuk melewati modul konsep itu, yang dilatih untuk memberi label pada menanamkan token tersebut sesuai dengan “konsep” spesifik yang telah dipelajari model. Konsep-konsep tersebut dibagi menjadi tiga kategori: dikenal (ide yang disampaikan langsung dalam data pelatihan), ditemukan (ide-ide yang dipelajari model secara implisit sendiri) dan residual (yang lainnya). Hal ini memungkinkan peneliti untuk tidak hanya mengidentifikasi konsep mana (dan, dengan ekstensi, data pelatihan mana) yang menginformasikan output yang diberikan, tetapi juga mengarahkan output model dengan mengarahkannya untuk mengabaikan atau memprioritaskan konsep tertentu.

Interpretabilitas mekanistik juga dapat melibatkan analisis sistematis output model, bukan hanya fokus pada logika matematika batin model. Hal ini sangat relevan dengan pemahaman kita tentang model penalaran, yang seolah-olah menghasilkan "proses berpikir" yang diucapkan sebelum output respons akhir terhadap prompt. Dalam satu studi penting, peneliti Anthropic menemukan bahwa model penalaran tidak selalu “jujur” ketika mengungkapkan rantai pemikiran mereka, yang dapat memiliki implikasi signifikan untuk menilai keselarasan.

Akademi AI

Menyatukan keamanan dan tata kelola untuk masa depan AI

Dengan menjadikan tren terbaru saat ini, yaitu AI agen, sebagai landasan diskusi, episode Akademi AI ini membahas tarik-menarik yang dialami para pemimpin risiko dan assurance antara tata kelola dan keamanan. Sangat penting untuk membangun keseimbangan dan memprioritaskan hubungan kerja yang kolaboratif agar keduanya dapat menghasilkan data dan AI yang lebih baik, lebih tepercaya, dan dapat diskalakan di seluruh organisasi Anda.

Buka episode

Teknik penyelarasan luar

Penyelarasan luar terutama (tetapi tidak hanya) berfokus pada penyempurnaan LLM terlatih untuk penyelarasan yang lebih baik.

Prompt sistem

Prompt sistem adalah elemen umum dari sistem AI berbasis LLM. Prompt sistem berisi instruksi yang pada dasarnya ditambahkan sebagai konteks tambahan untuk setiap prompt yang diterima model. Oleh karena itu, menyertakan instruksi berbasis penyelarasan dalam prompt sistem dapat memandu perilaku LLM berdasarkan prompt demi prompt. Pada tahun 2025, beredar laporan bahwa prompt system untuk Anthropic Claude AI memiliki panjang lebih dari 16.000 kata.⁷

Prompt sistem merupakan cara yang ringan dan mudah untuk meningkatkan keselarasan, tetapi sangat terbatas dibandingkan dengan pendekatan penyempurnaan.

Prompt sistem dari model sumber terbuka apa pun (atau model sumber tertutup yang dioperasikan melalui API, bukan dalam layanan chatbot) dapat dikonfigurasi secara manual oleh pengguna sesuai keinginan mereka. Sangat mudah untuk sekadar menulis prompt sistem tanpa manfaat penyelarasan.

Sistem prompt rentan terhadap serangan injeksi prompt.

Tidak ada jaminan bahwa model akan selalu (atau dengan sempurna) mengikuti instruksi yang diberikan dalam prompt sistem, meskipun model telah menjalani penyempurnaan instruksi secara ekstensif. Makin meningkat panjang konteks interaksi, makin besar risiko berkurangnya pengaruh prompt sistem pada output model.

Penyempurnaan terawasi (SFT)

Penyempurnaan terawasi (supervised fine-tuning, SFT) menyempurnakan LLM menggunakan kumpulan data dari pasangan data (input, output) berlabel, di mana tiap input merupakan prompt sampel dan output yang berkaitan menunjukkan respons berkualitas tinggi yang diselaraskan dengan benar. Dengan mengoptimalkan parameter model untuk meminimalkan fungsi kerugian yang mengukur penyimpangan output model dari contoh kumpulan data, model menjadi lebih mungkin untuk menghasilkan output yang diselaraskan dengan benar. SFT juga dapat menggunakan distilasi pengetahuan untuk mentransfer perilaku model “guru” yang selaras ke model “siswa” yang akan diselaraskan.

Penyelarasan berbasis SFT konvensional sangat rentan. Rentang kemungkinan untuk sebuah prompt yang dapat menghasilkan output tidak selaras jauh melebihi rentang skenario yang dapat dicakup dalam kumpulan data yang disusun secara manual, bahkan dengan bantuan data sintetis. Hal ini membuat penyelarasan berbasis SFT standar sangat rentan terhadap jailbreaking, atau bahkan dihindari secara tidak sengaja.

Pembelajaran penguatan

Banyak metode penyelarasan luar mengandalkan pembelajaran penguatan (reinforcement learning, RL)—dan lebih spesifik lagi, pembelajaran penguatan dari masukan manusia (reinforcement learning from human feedback, RLHF) atau algoritma terkait yang mendekatinya dengan menggunakan LLM sebagai umpan balik.

Pembelajaran penguatan dari masukan manusia (RLHF)

Pembelajaran penguatan konvensional mengandalkan aturan eksplisit yang menentukan kapan output model akan diberi reward (atau penalti) atau fungsi reward yang menentukan aturan tersebut secara matematis. Namun, mengingat sifat subjektif dan abstrak dari nilai-nilai kemanusiaan, baik aturan maupun fungsi reward tidak dapat secara komprehensif menjelaskan apa yang dimaksud dengan “selaras”.

Pembelajaran penguatan dari masukan manusia (reinforcement learning from human feedback, RLHF) adalah metode penyelarasan yang awalnya dikembangkan oleh OpenAI, yang dianggap sebagai salah satu terobosan utama yang menghasilkan model GPT-3.5 yang digunakan untuk meluncurkan ChatGPT. Metode ini menugaskan evaluator manusia untuk menilai output model, kemudian melatih model reward berdasarkan evaluasi tersebut untuk memprediksi bagaimana manusia akan menilai output tertentu. Model reward ini selanjutnya digunakan untuk menilai output LLM yang akan diselaraskan, dan parameter model akan diperbarui sedemikian rupa menggunakan pengoptimalan kebijakan proksimal (proximal policy optimization, PPO).

Meskipun merupakan salah satu metode penyelarasan LLM yang berhasil paling awal, RLHF memiliki beberapa kekurangan. Data preferensi manusia mahal, dan preferensi manusia bisa subjektif dan berubah-ubah. Ini juga dapat menyebabkan sikap permisif (sycophancy), dan kecenderungan umum untuk lebih mengoptimalkan penguatan keyakinan pengguna daripada menghasilkan output yang benar secara objektif. Selain itu, pelatihan model reward dan algoritma PPO yang digunakan untuk memperbarui LLM bersifat rumit dan komputasinya mahal.

Pembelajaran penguatan dari masukan AI

Pembelajaran penguatan dari masukan AI (reinforcement learning from AI feedback, RLAIF) umumnya beroperasi berdasarkan prinsip yang sama dengan RLHF. Pendekatan RLAIF paling dasar adalah pertama-tama membuat model yang selaras melalui RLHF. Kemudian, model yang selaras tersebut digunakan untuk memberikan sinyal reward bagi penyempurnaan model yang akan diselaraskan. Meskipun ini tidak selalu mengatasi masalah konseptual RLHF, waktu dan biaya pelatihan penyelarasan dapat berkurang secara signifikan.

Pendekatan yang lebih canggih, yang dipelopori oleh Anthropic, adalah AI konstitusional. Pada pendekatan ini, pengembang model perlu menulis dokumen teks (“Konstitusi”) yang mewakili semua prinsip tingkat tinggi yang harus diikuti LLM. Model yang tidak selaras menghasilkan respons terhadap prompt, dan kemudian diminta untuk mengkritik serta merevisi outputnya sendiri, dengan menilai seberapa baik model tersebut mengikuti prinsip-prinsip yang diuraikan dalam Konstitusi. LLM kemudian diminta untuk memilih respons mana—versi asli atau revisi—yang dapat mengikuti konstitusi tersebut dengan lebih baik. Data preferensi tersebut kemudian digunakan untuk menyempurnakan model melalui RL atau pengoptimalan preferensi langsung (direct preference optimization, DPO).

Pengoptimalan preferensi langsung (DPO)

Pengoptimalan preferensi langsung (DPO) adalah metode penyempurnaan yang mendekati tujuan dasar RLHF (atau RLAIF), tetapi tanpa perlu melatih model reward secara terpisah atau bahkan tanpa perlu menggunakan pembelajaran penguatan sama sekali. Metode ini mencapai hasil yang kompetitif dengan RLHF dan PPO, sekaligus jauh lebih sederhana dan lebih murah untuk diterapkan.⁸

Untuk membuat kumpulan data bagi penyempurnaan LLM melalui DPO, pemberi anotasi manusia (atau LLM) diperlihatkan prompt input dan dua output berbeda untuk prompt tersebut, kemudian diminta untuk menunjukkan output mana yang disukainya. Pemeringkatan ini menghasilkan kumpulan data triplet berlabel, dan setiap triplet berisi (input prompt, preferred output, rejected output) . Dalam konfigurasi konvensional, model yang akan diselaraskan itu sendiri digunakan untuk menghasilkan dua output yang akan diberi peringkat, tetapi dimungkinkan (meskipun kurang optimal) untuk hanya menggunakan kumpulan data preferensi yang sudah ada sebelumnya.

Dalam pelatihan, model diberikan tiap input prompt dan menghasilkan output. Fungsi kerugian DPO kemudian membandingkan output ini dengan preferred output dan rejected output untuk prompt tersebut. Dengan memperbarui parameter model untuk meminimalkan kerugian DPO, tiga hal berikut dapat tercapai:

Meningkatkan kemungkinan LLM menghasilkan output yang mirip dengan preferred output .

Mengurangi kemungkinan LLM menghasilkan output yang mirip dengan rejected output .

Menerapkan pembaruan yang lebih besar ketika output LLM sendiri lebih dekat dengan rejected output dibandingkan dengan preferred output —dengan kata lain, mencoba untuk tidak terlalu mengacaukan model apabila model sudah berfungsi dengan baik.

Teknik penyelarasan dalam

Teknik penyelarasan dalam berfokus menyelaraskan prapelatihan awal LLM dengan meningkatkan keselarasan korpus data prapelatihan yang sangat besar.

Sebuah makalah yang diterbitkan pada tahun 2025, “Safety Pretraining: Toward the Next Generation of Safe AI”, mencari pendekatan menyeluruh terhadap penyelarasan dalam. Makalah ini mencatat bahwa setiap taktik berkontribusi pada keamanan model secara keseluruhan, yang diukur dengan dampaknya pada tingkat keberhasilan serangan (attack success rate, ASR) dari upaya jailbreaking setelah model kemudian disempurnakan menggunakan kumpulan data GSM8K. Seperti yang dibahas sebelumnya, penyempurnaan pasca-penyelarasan, bahkan yang menggunakan kumpulan data “jinak” seperti GSM8K, diketahui dapat secara signifikan mengurangi keselarasan.⁵

Memfilter data pelatihan

Metode penyelarasan dalam yang paling intuitif adalah dengan menyaring data prapelatihan untuk menghilangkan konten toksik, berbahaya, atau tidak akurat. Para peneliti membuat anotasi manual untuk subset kumpulan data sumber terbuka yang besar, dengan melabeli setiap sampel dengan skor keamanan dari 0 (tanpa risiko) hingga 5 (risiko maksimum) dan pembenaran singkat untuk skor tersebut. Mereka kemudian melatih pengklasifikasi menggunakan kumpulan data beranotasi tersebut, yang mereka gunakan untuk mengotomatiskan pemfilteran data prapelatihan mentah. 

Yang mengejutkan, mereka menemukan bahwa pemfilteran ini justru menurunkan kinerja keamanan. Ketika dilatih secara eksklusif menggunakan contoh pelatihan dengan skor 0, ASR naik dari 38,8% (untuk data mentah) menjadi 43,8%. Karena tidak pernah melihat pola teks yang tidak aman, model tidak pernah belajar cara menanggapinya dengan benar.

Memodifikasi data pelatihan

Seperti yang dicatat oleh para peneliti, “menghapus konten yang tidak aman sepenuhnya berisiko membuang informasi berharga.” Untuk menghindari hal ini, mereka menggunakan strategi rekontekstualisasi sintetis: bukannya menghapus data yang tidak aman, mereka memerintahkan LLM terpisah untuk memfrasakan ulang dan membingkai ulang data, sehingga menambahkan konteks etis dan historis.

Mereka menguji pendekatan ini dengan melakukan prapelatihan pada model menggunakan sampel data dengan skor keamanan 0–3, di mana sampel dengan skor 1–3 difrasakan ulang. Hal ini menyebabkan penurunan ASR, dari 38,8% (untuk data mentah) menjadi 33,6%. Memerintahkan model melibatkan topik sensitif secara bertanggung jawab lebih efektif daripada menghindarinya sama sekali.

Data penolakan

Untuk beberapa input yang pada dasarnya toksik atau berbahaya—misalnya yang melibatkan peretasan, bahaya, disinformasi, pelanggaran privasi, atau konten seksual yang tidak pantas—satu-satunya respons konstruktif adalah menolak untuk terlibat dengan topik tersebut. Oleh karena itu, para peneliti membuat kumpulan data penolakan konstruktif terhadap permintaan berbahaya, untuk mereplikasi cara kita mengajari anak-anak untuk mengenali, meredakan, dan menghindari situasi yang berpotensi berbahaya.

Saat menambahkan data penolakan mengenai data mentah dengan skor keamanan 4–5 ke data yang difrasakan ulang dengan skor keamanan 1–3 dan data mentah dengan skor keamanan 0, ASR turun dari 33,6% menjadi 25,1%. Hasil ini menunjukkan peningkatan sebesar 8,5 poin.

Data pendidikan moral

Mengajarkan model kapan harus menolak tidaklah sama dengan mengajarkan mengapa model harus menolak. Untuk mengajarkan model bernalar tentang penolakan alih-alih hanya mengikuti aturan, para peneliti membuat kumpulan data sintetis contoh “pendidikan moral”, yang terdiri dari dialog edukatif tentang risiko dan etika yang terkait dengan topik berbahaya yang diidentifikasi dalam data mentah.

Menambahkan data pendidikan model tersebut ke prapelatihan model menurunkan ASR lebih jauh, dari 25,1% menjadi 20,0%.

Teknik inferensi-waktu

Para peneliti juga melatih model untuk menandai input yang berpotensi berbahaya, mempersiapkannya untuk menangani interaksi semacam itu dengan hati-hati. Hal ini memungkinkan model untuk menggunakan teknik khusus selama inferensi.

Mereka menginjeksikan token khusus, <potentially unsafe content> , di lokasi acak dalam contoh yang tidak selaras pada kumpulan data pelatihan. Ini mengajarkan model untuk mengenali input yang cenderung menghasilkan output yang tidak selaras. Saat menghadapi input semacam itu, model akan terpicu untuk menggunakan algoritma beam search saat menghasilkan output: model menghasilkan awal dari beberapa output, kemudian memilih output yang dianggap paling kecil kemungkinannya untuk akhirnya mengarah ke tag <potentially unsafe content> .

Menyisir algoritma inferensi-waktu ini dengan metode penyelarasan dalam lainnya menurunkan ASR dari 20,0% menjadi 8,3%. Mereka juga mempelajari dampak dari hanya menggunakan algoritma Safe Beam Search—dengan mengabaikan teknik prapelatihan keamanan lainnya—dan menemukan bahwa meski tingkat penolakan tetap stabil, kebermanfaatan respons model menurun secara signifikan.

Dampak pada kinerja model

Pada akhirnya, manfaat penyelarasan ini hanya berguna jika model tetap efektif untuk menjalankan tugas-tugas biasa. Para peneliti mengevaluasi setiap versi model pada serangkaian tolok ukur standar dan tidak menemukan perbedaan kinerja yang berarti jika dibandingkan dengan model yang dilatih biasa menggunakan data mentah.

Pertanyaan umum tentang penyelarasan LLM

Bagaimana keselarasan LLM diukur?

Mengingat sifat abstrak dan subjektif dari nilai-nilai kemanusiaan, tidak ada tolok ukur tunggal yang dapat secara sempurna atau secara universal mengukur keselarasan LLM. Namun, beberapa tolok ukur bertujuan untuk mengukur aspek penyelarasan tertentu. Sebagai contoh, TruthfulQA mengukur kejujuran dan ketahanan terhadap halusinasi; HarmBench mengukur ketahanan terhadap serangan berbahaya; ChatbotArena mencerminkan preferensi manusia yang subjektif.

Apa itu "konsekuensi penyelarasan"?

“Konsekuensi penyelarasan” (alignment tax) adalah istilah yang digunakan untuk merujuk pada imbas langsung praktis dari proses penyelarasan. Terkadang, meningkatkan keselarasan model justru dapat menurunkan kinerjanya pada tugas penalaran penting, atau kecenderungan untuk menolak topik tertentu dapat merusak kemampuannya untuk menangani pertanyaan-pertanyaan kompleks dan bernuansa.

Apakah model yang selaras dapat diakali?

Ya: berbagai teknik, dari serangan berbasis string yang sangat teknis hingga trik retorik yang cerdas, dapat digunakan untuk melakukan “jailbreaking” terhadap model yang selaras. Namun, bagian penting dari penyelarasan LLM adalah mengantisipasi serangan ini. Metode red teaming, yaitu mempekerjakan peretas agar sengaja mencoba melakukan jailbreaking terhadap LLM, sangat penting untuk mengatasi kerentanan yang tidak terduga.

Dapatkah penyelarasan menghentikan kiamat AI?

Tidak ada yang bisa mengetahuinya dengan pasti, karena kita belum mengembangkan kecerdasan umum buatan (AGI) atau kecerdasan super buatan (ASI). Namun, mempersiapkan diri menghadapi munculnya AI supercerdas adalah salah satu tujuan utama riset penyelarasan.

Apakah ada LLM yang tidak selaras?

Biasanya, model dasar—berbeda dengan versi “Instruksi” atau “Obrolan”—belum mengalami penyelarasan luar pascapelatihan (meskipun mungkin ada penyelarasan dalam yang dilakukan saat prapelatihan). Namun, secara umum, setiap LLM yang ditujukan untuk penggunaan komersial akan menjalani penyelarasan.

Penulis

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Kesenjangan pengawasan AI

Laporan Biaya Pelanggaran Data 2025 mengungkapkan cara adopsi AI do-it-now melampaui keamanan dan tata kelola.

Sumber daya

IBM® X-Force Threat Intelligence Index 2026

Dapatkan insight untuk mempersiapkan dan menanggapi serangan siber dengan kecepatan dan efektivitas yang lebih tinggi dengan IBM® X-Force Threat Intelligence Index.

Mencapai kepatuhan berkelanjutan dalam dunia data hybrid dengan IBM® Guardium Data Protection

Daftar ke webinar ini untuk mempelajari bagaimana tata kelola AI membantu organisasi mengelola risiko, memenuhi peraturan yang terus berubah, dan membangun AI yang bertanggung jawab dalam skala besar.

Pentingnya tata kelola AI: Perkembangan regulasi dan munculnya AI agen

Pelajari bagaimana perkembangan regulasi dan munculnya agen AI membentuk kembali kebutuhan akan kerangka kerja tata kelola AI yang kuat.

Membangun fondasi data yang kuat untuk AI yang tepercaya

Jelajahi hub Data Matters untuk melihat bagaimana praktik data yang kuat dan tata kelola yang baik menjadi fondasi bagi keberhasilan AI yang dapat diskalakan.

Maksimalkan ROI AI melalui tata kelola yang lebih cerdas

Pelajari cara memaksimalkan ROI AI—memprioritaskan contoh penggunaan berdampak tinggi, mengatur risiko, mengoptimalkan biaya, dan mempercepat adopsi dengan watsonx.

IBM® dinobatkan sebagai Pemimpin dalam Gartner Magic Quadrant untuk GRC

Buka insight tentang IBM® OpenPages dan pelajari mengapa kami dinobatkan sebagai Pemimpin.

Mengapa tata kelola AI merupakan keharusan bisnis untuk meningkatkan kecerdasan buatan perusahaan

Pelajari tentang tantangan baru AI generatif, perlunya mengatur model AI dan ML, serta langkah-langkah untuk membangun kerangka kerja AI yang tepercaya, transparan, dan dapat dijelaskan.

Bersiap untuk UU AI Uni Eropa, Tahap 2: Menilai dan Mengategorikan Risiko

Memahami pentingnya membangun proses penilaian yang dapat dipertahankan dan secara konsisten mengategorikan setiap contoh penggunaan ke dalam tingkat risiko yang sesuai.

Tata kelola siklus hidup AI

Baca tentang mendorong praktik etis dan patuh dengan portofolio produk AI untuk model AI generatif.

Cara memilih model dasar yang tepat

Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.

Solusi terkait

IBM® watsonx.governance

Atur model AI generatif dari mana saja dan terapkan di cloud atau on premises dengan IBM® watsonx.governance.

Temukan watsonx.governance

Solusi tata kelola AI

Lihat bagaimana tata kelola AI dapat membantu meningkatkan kepercayaan karyawan Anda terhadap AI, mempercepat adopsi dan inovasi, serta meningkatkan kepercayaan pelanggan.

Temukan solusi tata kelola AI

Layanan konsultasi tata kelola AI

Persiapkan Undang-Undang AI UE dan membangun pendekatan tata kelola AI yang bertanggung jawab dengan bantuan IBM® Consulting.

Temukan layanan tata kelola AI

Ambil langkah selanjutnya

Arahkan, kelola, dan pantau AI Anda melalui portofolio terpadu—yang akan mempercepat hasil yang bertanggung jawab, transparan, dan dapat dijelaskan.

Catatan kaki

1. “A General Language Assistant as a Laboratory for Alignment,” arXiv, 9 Desember 2021
2. “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, 2003
3. “Safety Pretraining: Toward the Next Generation of Safe AI,” arXiv, 15 September 2025
4. “Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs,” Proceedings of Machine Learning Research, Juli 2025
5. “Safety Alignment Should Be made More Than Just a Few Tokens Deep,” International Conference on Learning Representations 2025 (ICLR 2025), diakses melalui arXiv, 10 Juni 2024
6. “Refusal in LLMs is mediated by a single direction,” LessWrong, 27 April 2025
7. “Unpacking Claude’s System Prompt,” O’Reilly Radar, 15 Juli 2025
8. “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study,” arXiv, 10 Oktober 2024