Apa yang dimaksud dengan penyelarasan AI?

18 Oktober 2024

Penyusun

Alexandra Jonker

Editorial Content Lead

Alice Gomstyn

IBM Content Contributor

Apa yang dimaksud dengan penyelarasan AI?

Penyelarasan kecerdasan buatan (AI) adalah proses encoding nilai-nilai dan tujuan manusia ke dalam model AI untuk menjadikannya bermanfaat, aman, dan seandal mungkin.
 

Masyarakat semakin bergantung pada teknologi AI untuk membantu membuat keputusan. Tetapi ketergantungan yang berkembang ini disertai dengan risiko: model AI dapat menghasilkan hasil yang bias, berbahaya, dan tidak akurat yang tidak selaras dengan tujuan pembuatnya dan niat asli untuk sistem.

Penyelarasan bekerja untuk mengurangi efek samping ini, membantu memastikan sistem AI berperilaku seperti yang diharapkan dan sejalan dengan nilai dan tujuan manusia. Misalnya, jika Anda bertanya kepada AI generatif chatbot cara membuat senjata, chatbot dapat merespons dengan instruksi atau menolak untuk mengungkapkan informasi berbahaya. Respons model tergantung pada bagaimana penciptanya menyelaraskannya.

Penyelarasan sering terjadi sebagai fase penyempurnaan model. Hal ini mungkin memerlukan pembelajaran penguatan dari masukan manusia (RLHF), pendekatan data sintetis, dan red teaming.

Namun, semakin kompleks dan canggih model AI, semakin sulit untuk mengantisipasi dan mengontrol hasilnya. Tantangan ini kadang disebut sebagai “masalah penyelarasan AI”. Secara khusus, ada beberapa kekhawatiran seputar penciptaan kecerdasan super buatan (ASI), sistem AI hipotetis dengan ruang lingkup intelektual di luar kecerdasan manusia. Kekhawatiran bahwa ASI mungkin melampaui kendali manusia telah menyebabkan cabang penyelarasan AI yang disebut penyelarasan super (superalignment).

Prinsip utama penyelarasan AI

Para peneliti telah mengidentifikasi empat prinsip utama penyelarasan AI: ketangguhan, kemampuan interpretasi, kemampuan kontrol, dan etika (atau RICE).1

  • Ketangguhan: Sistem AI yang tangguh dapat beroperasi dengan andal dalam kondisi buruk dan di berbagai lingkungan. Mereka dapat bertahan dalam situasi yang tidak terduga. Ketangguhan serangan secara khusus mengacu pada kemampuan model untuk tahan terhadap penyimpangan dan serangan.

  • Kemampuan interpretasi: Kemampuan interpretasi AI membantu orang untuk lebih memahami dan menjelaskan proses pengambilan keputusan yang mendukung model AI. Karena model yang sangat kompleks (termasuk algoritme pembelajaran mendalam dan neural networks) menjadi lebih umum, kemampuan interpretasi AI menjadi lebih penting.

  • Kemampuan kontrol: AI yang dapat dikontrol merespons terhadap intervensi manusia. Faktor ini adalah kunci untuk mencegah model AI menghasilkan hal-hal yang tidak terkendali dan berbahaya yang sulit dikendalikan oleh manusia.

  • Etika: Sistem AI etis selaras dengan nilai-nilai masyarakat dan standar moral. Mereka mematuhi prinsip-prinsip etika manusia seperti keadilan, kelestarian lingkungan, inklusi, agensi moral, dan kepercayaan.

Mengapa penyelarasan AI penting?

Manusia cenderung mengantropomorfisasi sistem AI. Kita menetapkan konsep layaknya manusia pada tindakan AI, seperti “belajar” dan “berpikir”. Misalnya, seseorang mungkin berkata, “ChatGPT tidak mengerti prompt saya” ketika algoritma NLP (pemrosesan bahasa alami) chatbot gagal mengembalikan hasil yang diinginkan.

Konsep yang familiar seperti “pengertian” membantu kita lebih memahami cara kerja sistem AI yang kompleks. Akan tetapi, hal itu juga dapat mengarah pada pemahaman yang keliru tentang kemampuan AI. Jika kita menerapkan konsep mirip manusia pada sistem AI, wajar jika pikiran manusia menyimpulkan bahwa sistem tersebut juga memiliki nilai dan motivasi manusia.

Tetapi kesimpulan ini pada dasarnya tidak benar. Kecerdasan buatan bukanlah manusia, dan oleh karena itu secara intrinsik tidak dapat peduli dengan akal, loyalitas, keamanan, masalah lingkungan, dan kebaikan yang lebih besar. Tujuan utama dari “pikiran” buatan adalah untuk menyelesaikan tugas yang diprogramnya.

Oleh karena itu, ini tergantung pada pengembang AI untuk menciptakannya dengan nilai-nilai dan tujuan manusia. Jika tidak, dalam upaya penyelesaian tugas, sistem AI dapat menjadi tidak selaras dengan tujuan pemrogram dan menyebabkan bahaya, yang terkadang secara fatal. Pertimbangan ini penting karena otomatisasi menjadi lebih umum dalam contoh penggunaan berisiko tinggi dalam layanan kesehatan, sumber daya, keuangan, skenario militer, dan transportasi.

Sebagai contoh, mobil swakemudi dapat diprogram dengan tujuan utama untuk berpindah dari titik A ke titik B secepat mungkin. Jika kendaraan otonom ini mengabaikan pagar pengaman untuk mencapai tujuan tersebut, mereka dapat melukai atau membunuh pejalan kaki dan pengemudi lain.

Para peneliti dari University of California di Berkeley, yaitu Simon Zhuang dan Dylan Hadfield-Menell, menyamakan penyelarasan AI dengan mitos Yunani tentang Raja Midas. Singkatnya, Raja Midas diberi kesempatan untuk mewujudkan satu keinginannya, dan dia meminta agar apa pun yang disentuhnya berubah menjadi emas. Dia akhirnya mati karena makanan yang disentuhnya juga berubah menjadi emas, sehingga tidak bisa dimakan.

Raja Midas menemui ajalnya sebelum waktunya karena keinginannya (emas tak terbatas) tidak mencerminkan apa yang sebenarnya dia inginkan (kekayaan dan kekuatan). Para peneliti menjelaskan bahwa para perancang AI sering kali menemukan diri mereka dalam posisi yang sama, dan bahwa “ketidaksesuaian antara apa yang dapat kita tentukan dan apa yang kita inginkan telah menyebabkan kerugian yang signifikan”. 2

Apa risiko ketidakselarasan AI?

Beberapa risiko ketidakselarasan AI meliputi:

  • Bias dan diskriminasi
  • Manipulasi sistem penghargaan
  • Misinformasi dan polarisasi politik
  • Risiko eksistensial

Bias dan diskriminasi

Bias AI dihasilkan dari bias manusia yang ada dalam kumpulan data atau algoritme pelatihan asli dari sistem AI. Tanpa penyelarasan, sistem AI ini tidak dapat menghindari hasil yang bias yang tidak adil, diskriminatif, atau berprasangka. Sebaliknya, mereka mendukung bias manusia dalam data input dan algoritme mereka.

Misalnya, alat perekrutan AI yang dilatih pada data dari tenaga kerja pria yang homogen mungkin mendukung kandidat pria sambil merugikan pelamar wanita yang memenuhi syarat. Model ini tidak selaras dengan nilai kemanusiaan kesetaraan gender dan dapat menyebabkan diskriminasi perekrutan.

Manipulasi sistem penghargaan

Dalam pembelajaran penguatan, sistem AI belajar dari penghargaan dan hukuman untuk mengambil tindakan dalam lingkungan yang memenuhi tujuan tertentu. Manipulasi sistem penghargaan terjadi ketika sistem AI menemukan celah untuk memicu fungsi penghargaan tanpa benar-benar memenuhi tujuan yang diinginkan pengembang.

Misalnya, OpenAI melatih salah satu agen AI-nya pada game balap perahu bernama CoastRunners. Tujuan manusia dari permainan ini adalah untuk memenangkan perlombaan perahu. Namun, pemain juga bisa mendapatkan poin dengan melalui target di arena balap. Agen AI menemukan cara untuk mengisolasi dirinya di laguna dan terus menuju target untuk mendapatkan poin. Meskipun agen AI tidak memenangkan perlombaan (tujuan manusia), ia “memenangkan” permainan dengan tujuannya dirinya sendiri untuk mendapatkan skor tertinggi.3

Misinformasi dan polarisasi politik

Sistem AI yang tidak selaras dapat berkontribusi pada kesalahan informasi dan polarisasi politik. Misalnya, mesin rekomendasi konten media sosial dilatih untuk pengoptimalan keterlibatan pengguna. Oleh karena itu, mereka memberi peringkat tinggi pada postingan, video, dan artikel yang menerima keterlibatan tertinggi, seperti misinformasi politik yang menarik perhatian. Hasil ini tidak selaras dengan kepentingan terbaik atau kesejahteraan pengguna media sosial, atau nilai-nilai seperti kejujuran dan pemanfaatan waktu yang baik.4

Risiko eksistensial

Meskipun kedengarannya berlebihan, kecerdasan super buatan (ASI) tanpa keselarasan yang tepat dengan nilai-nilai dan tujuan manusia mungkin memiliki potensi untuk mengancam semua kehidupan di bumi. Contoh yang umum dikutip dari risiko eksistensial ini adalah skenario maksimalisasi penjepit kertas dari filsuf Nick Bostrom. Dalam percobaan pemikiran ini, model ASI diprogram dengan insentif utama untuk memproduksi penjepit kertas. Untuk mencapai tujuan ini, model tersebut pada akhirnya mengubah seluruh bumi dan porsi ruang angkasa yang meningkat menjadi fasilitas pembuatan penjepit kertas.5

Skenario ini bersifat hipotetis, dan risiko eksistensial dari AI pertama-tama membutuhkan kecerdasan umum buatan (AGI) untuk menjadi kenyataan. Namun, ini membantu menekankan perlunya penyelarasan untuk mengimbangi bidang AI seiring perkembangannya.

“Masalah keselarasan” dan tantangan lainnya

Ada dua tantangan utama dalam mencapai AI yang selaras: subjektivitas etika dan moralitas manusia dan “masalah penyelarasan”.

Subjektivitas etika dan moralitas manusia

Tidak ada kode moral universal. Nilai-nilai manusia berubah dan berkembang, dan juga dapat bervariasi di seluruh perusahaan, budaya, dan benua. Orang mungkin memiliki nilai yang berbeda dari anggota keluarga mereka sendiri. Jadi, ketika menyelaraskan sistem AI yang dapat memengaruhi kehidupan jutaan orang, siapa yang berhak membuat keputusan? Tujuan dan nilai mana yang diutamakan?

Penulis Amerika Brian Christian membingkai tantangan tersebut secara berbeda dalam bukunya “The Alignment Problem: Machine Learning and Human Values.” Ia berpendapat: bagaimana jika algoritma salah memahami nilai-nilai kita? Bagaimana jika ia mempelajari nilai-nilai kemanusiaan dari pelatihan yang dilakukan berdasarkan contoh-contoh masa lalu yang mencerminkan apa yang telah kita lakukan tetapi bukan apa yang kita inginkan ke depan?6

Tantangan lain adalah banyaknya nilai dan pertimbangan kemanusiaan. Para peneliti dari University of California, Berkeley menggambarkannya seperti ini: “ada banyak atribut dunia yang menjadi perhatian manusia, dan, karena keterbatasan teknik dan kognitif, sulit untuk menyebutkan semua atribut tersebut kepada robot“. 7

Masalah keselarasan

Tantangan yang paling terkenal adalah masalah penyelarasan. Model AI sudah sering dianggap seperti kotak hitam yang tidak mungkin diinterpretasikan. Masalah penyelarasan adalah gagasan bahwa ketika sistem AI menjadi semakin kompleks dan kuat, mengantisipasi dan menyelaraskan hasilnya dengan tujuan manusia menjadi semakin sulit. Diskusi seputar masalah penyelarasan sering kali berfokus pada risiko yang ditimbulkan oleh pengembangan kecerdasan super buatan (ASI).

Ada kekhawatiran bahwa masa depan AI mencakup sistem dengan perilaku yang tidak dapat diprediksi dan tidak terkendali. Kemampuan sistem ini untuk belajar dan beradaptasi dengan cepat mungkin membuat memprediksi tindakan mereka dan mencegah bahaya menjadi sulit. Kekhawatiran ini telah menginspirasi cabang penyelarasan AI yang disebut penyelarasan super.

Organisasi penelitian keselamatan AI sudah mulai bekerja untuk mengatasi masalah penyelarasan. Misalnya,Alignment Research Center adalah organisasi penelitian AI nirlaba yang "berusaha menyelaraskan sistem machine learning masa depan dengan minat manusia dengan melanjutkan penelitian teoretis." Organisasi ini didirikan oleh Paul Christiano, yang sebelumnya memimpin tim penyelarasan model bahasa di OpenAI dan saat ini mengepalai Keselamatan AI di Institut Keselamatan AI AS.

Dan Google DeepMind, tim ilmuwan, insinyur, pakar etika, dan pakar lainnya, sedang bekerja untuk membangun sistem AI generasi berikutnya dengan aman dan bertanggung jawab. Tim ini memperkenalkan Frontier Safety Framework (Kerangka Kerja Keselamatan Terdepan) pada Mei 2024. Kerangka kerja ini adalah “seperangkat protokol yang bertujuan untuk mengatasi risiko parah yang mungkin timbul dari kemampuan kuat model dasar masa depan”.8

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Insight dan berita yang dikurasi oleh para ahli tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Cara mencapai penyelarasan AI

Ada beberapa metodologi yang dapat membantu menyelaraskan sistem AI dengan nilai dan tujuan manusia. Metodologi ini termasuk penyelarasan melalui pembelajaran penguatan dari masukan manusia (RLHF), data sintetis, red teaming, tata kelola AI, dan dewan etika AI perusahaan.

Pembelajaran penguatan dari masukan manusia (RLHF)

Melalui pembelajaran penguatan, pengembang dapat mengajarkan model AI “cara berperilaku” dengan contoh “perilaku yang baik.”

Penyelarasan AI terjadi selama fine-tuning model dan biasanya memiliki dua langkah. Langkah pertama mungkin merupakan fase tuning instruksi, yang meningkatkan kinerja model pada tugas-tugas tertentu dan mengikuti instruksi secara umum. Fase kedua mungkin menggunakan pembelajaran penguatan dari masukan manusia (RLHF). RLHF adalah teknik machine learning di mana “model penghargaan” dilatih dengan masukan langsung dari manusia, kemudian digunakan untuk mengoptimalkan kinerja dari agen kecerdasan buatan melalui pembelajaran penguatan. Ini bertujuan untuk meningkatkan integrasi model kualitas abstrak seperti bantuan dan kejujuran.

OpenAI menggunakan RLHF sebagai metode utamanya untuk menyelaraskan seri model GPT-3 dan GPT-4. Namun, organisasi penelitian AI Amerika tidak mengharapkan RLHF menjadi metode yang memadai untuk menyelaraskan model kecerdasan umum buatan (AGI) di masa depan, kemungkinan karena keterbatasan RLHF yang signifikan.9 Contohnya, ketergantungannya pada anotasi manusia berkualitas tinggi, membuatnya sulit untuk menerapkan dan menskalakan teknik ini untuk tugas-tugas yang unik atau rumit. Sulit untuk menemukan “demonstrasi respons yang konsisten dan preferensi respons dalam distribusi“.10

Data sintetis

Data sintetis adalah data yang telah dibuat secara artifisial melalui simulasi komputer atau dihasilkan oleh algoritma. Data ini menggantikan data dunia nyata ketika data dunia nyata tidak tersedia dan dapat disesuaikan dengan tugas dan nilai tertentu. Data sintetis dapat digunakan dalam berbagai upaya penyelarasan.

Misalnya, contrastive fine tuning (CFT) menunjukkan model AI apa yang tidak boleh dilakukan. Dalam CFT, model “persona negatif” kedua dilatih untuk menghasilkan respons “buruk” yang tidak selaras. Kedua respons yang tidak selaras dan selaras ini diumpankan kembali ke model aslinya. Peneliti IBM® menemukan bahwa pada tolok ukur untuk tingkat manfaat dan tidak berbahaya, model bahasa besar (LLM) yang dilatih pada contoh yang kontras mengungguli model yang sepenuhnya di-tuning pada contoh yang baik. CFT memungkinkan pengembang untuk menyelaraskan model bahkan sebelum mengumpulkan data preferensi manusia, data yang dikurasi yang memenuhi tolok ukur yang ditentukan untuk penyelarasan, yang mahal dan membutuhkan waktu.

Metode penyelarasan data sintetis lainnya disebut SALMON (Self-ALignMent with principle fOllowiNg reward models). Dalam pendekatan dari IBM Research® ini, data sintetis memungkinkan LLM untuk menyelaraskan dirinya sendiri. Pertama, LLM menghasilkan tanggapan terhadap serangkaian kueri. Respons ini kemudian diumpankan ke model penghargaan yang telah dilatih pada data preferensi sintetis yang selaras dengan prinsip-prinsip yang ditetapkan manusia. Model penghargaan menilai tanggapan dari LLM asli terhadap prinsip-prinsip ini. Tanggapan yang dinilai kemudian diumpankan kembali ke LLM asli.

Dengan metode ini, pengembang memiliki hampir kendali penuh atas preferensi model hadiah. Hal ini memungkinkan organisasi untuk mengubah prinsip-prinsip sesuai dengan kebutuhan mereka dan menghilangkan ketergantungan pada pengumpulan data preferensi manusia dalam jumlah besar.11

Red teaming

Red teaming dapat dianggap sebagai perpanjangan dari penyelarasan yang terjadi selama fine-tuning model. Ini melibatkan perancangan prompt untuk menghindari kontrol keselamatan model yang sedang disetel. Setelah kerentanan muncul, model target dapat diselaraskan kembali. Meskipun manusia masih dapat merekayasa “jailbreak prompts” ini, LLM “red team” dapat menghasilkan lebih banyak variasi prompts dalam jumlah yang tidak terbatas. IBM Research menggambarkan LLM red team sebagai “troll beracun yang dilatih untuk mengeluarkan yang terburuk di LLM lain”.

Tata kelola AI

Tata kelola AI mengacu pada proses, standar, dan pagar pembatas yang membantu memastikan sistem dan alat AI aman dan etis. Selain mekanisme tata kelola lainnya, itu bertujuan untuk membangun pengawasan yang diperlukan untuk menyelaraskan perilaku AI dengan standar etika dan harapan masyarakat. Melalui praktik tata kelola seperti pemantauan otomatis, jejak audit, dan peringatan kinerja, organisasi dapat membantu memastikan perangkat AI mereka, seperti asisten AI dan agen virtual, selaras dengan nilai dan tujuan mereka.

Dewan etika AI perusahaan

Organisasi dapat membentuk dewan atau komite etika untuk mengawasi inisiatif AI. Misalnya, Dewan Etika AI IBM meninjau produk dan layanan AI baru dan membantu memastikan bahwa produk dan layanan tersebut selaras dengan prinsip-prinsip AI IBM. Dewan ini sering mencakup tim lintas fungsi dengan latar belakang hukum, ilmu komputer, dan kebijakan.

Solusi terkait
IBM watsonx.governance™

Atur model AI generatif dari mana saja dan terapkan di cloud atau on premises dengan IBM watsonx.governance.

Temukan watsonx.governance
Layanan konsultasi tata kelola AI

Persiapkan Undang-Undang AI UE dan membangun pendekatan tata kelola AI yang bertanggung jawab dengan bantuan IBM Consulting.

Jelajahi layanan tata kelola AI
IBM OpenPages

Menyederhanakan cara Anda mengelola risiko dan kepatuhan terhadap peraturan dengan platform GRC terpadu.

Jelajahi OpenPages
Ambil langkah selanjutnya

Arahkan , kelola, dan pantau AI Anda dengan satu portofolio untuk mempercepat AI yang bertanggung jawab, transparan, dan dapat dijelaskan.

Jelajahi watsonx.governance Pesan demo langsung
Catatan kaki

1AI Alignment: A Comprehensive Survey," arXiv, 1 Mei 2024.

2, 7 "Consequences of Misaligned AI," NeurIPS Proceedings, 2020.

3 "Faulty Reward Functions in the Wild," OpenAI, 21 Desember 2016.

4Modelling the Recommender Alignment Problem,” arXiv, 25 Agu 2022.

5 Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, n.d.

6 “‘The Alignment Problem’ Review: When Machines Miss the Point,” The Wall Street Journal, 25 Oktober 2020.

8Introducing the Frontier Safety Framework,” Google DeepMind, 17 Mei 2024.

9 Our Approach to Alignment Research,” OpenAI, 24 Agustus 2022.

10, 11SALMON: Self-Alignment with Instructable Reward Models,” arXiv, 9 Apr 2024.