18 Oktober 2024
Masyarakat semakin bergantung pada teknologi AI untuk membantu membuat keputusan. Tetapi ketergantungan yang berkembang ini disertai dengan risiko: model AI dapat menghasilkan hasil yang bias, berbahaya, dan tidak akurat yang tidak selaras dengan tujuan pembuatnya dan niat asli untuk sistem.
Penyelarasan bekerja untuk mengurangi efek samping ini, membantu memastikan sistem AI berperilaku seperti yang diharapkan dan sejalan dengan nilai dan tujuan manusia. Misalnya, jika Anda bertanya kepada AI generatif chatbot cara membuat senjata, chatbot dapat merespons dengan instruksi atau menolak untuk mengungkapkan informasi berbahaya. Respons model tergantung pada bagaimana penciptanya menyelaraskannya.
Penyelarasan sering terjadi sebagai fase penyempurnaan model. Hal ini mungkin memerlukan pembelajaran penguatan dari masukan manusia (RLHF), pendekatan data sintetis, dan red teaming.
Namun, semakin kompleks dan canggih model AI, semakin sulit untuk mengantisipasi dan mengontrol hasilnya. Tantangan ini kadang disebut sebagai “masalah penyelarasan AI”. Secara khusus, ada beberapa kekhawatiran seputar penciptaan kecerdasan super buatan (ASI), sistem AI hipotetis dengan ruang lingkup intelektual di luar kecerdasan manusia. Kekhawatiran bahwa ASI mungkin melampaui kendali manusia telah menyebabkan cabang penyelarasan AI yang disebut penyelarasan super (superalignment).
Para peneliti telah mengidentifikasi empat prinsip utama penyelarasan AI: ketangguhan, kemampuan interpretasi, kemampuan kontrol, dan etika (atau RICE).1
Manusia cenderung mengantropomorfisasi sistem AI. Kita menetapkan konsep layaknya manusia pada tindakan AI, seperti “belajar” dan “berpikir”. Misalnya, seseorang mungkin berkata, “ChatGPT tidak mengerti prompt saya” ketika algoritma NLP (pemrosesan bahasa alami) chatbot gagal mengembalikan hasil yang diinginkan.
Konsep yang familiar seperti “pengertian” membantu kita lebih memahami cara kerja sistem AI yang kompleks. Akan tetapi, hal itu juga dapat mengarah pada pemahaman yang keliru tentang kemampuan AI. Jika kita menerapkan konsep mirip manusia pada sistem AI, wajar jika pikiran manusia menyimpulkan bahwa sistem tersebut juga memiliki nilai dan motivasi manusia.
Tetapi kesimpulan ini pada dasarnya tidak benar. Kecerdasan buatan bukanlah manusia, dan oleh karena itu secara intrinsik tidak dapat peduli dengan akal, loyalitas, keamanan, masalah lingkungan, dan kebaikan yang lebih besar. Tujuan utama dari “pikiran” buatan adalah untuk menyelesaikan tugas yang diprogramnya.
Oleh karena itu, ini tergantung pada pengembang AI untuk menciptakannya dengan nilai-nilai dan tujuan manusia. Jika tidak, dalam upaya penyelesaian tugas, sistem AI dapat menjadi tidak selaras dengan tujuan pemrogram dan menyebabkan bahaya, yang terkadang secara fatal. Pertimbangan ini penting karena otomatisasi menjadi lebih umum dalam contoh penggunaan berisiko tinggi dalam layanan kesehatan, sumber daya, keuangan, skenario militer, dan transportasi.
Sebagai contoh, mobil swakemudi dapat diprogram dengan tujuan utama untuk berpindah dari titik A ke titik B secepat mungkin. Jika kendaraan otonom ini mengabaikan pagar pengaman untuk mencapai tujuan tersebut, mereka dapat melukai atau membunuh pejalan kaki dan pengemudi lain.
Para peneliti dari University of California di Berkeley, yaitu Simon Zhuang dan Dylan Hadfield-Menell, menyamakan penyelarasan AI dengan mitos Yunani tentang Raja Midas. Singkatnya, Raja Midas diberi kesempatan untuk mewujudkan satu keinginannya, dan dia meminta agar apa pun yang disentuhnya berubah menjadi emas. Dia akhirnya mati karena makanan yang disentuhnya juga berubah menjadi emas, sehingga tidak bisa dimakan.
Raja Midas menemui ajalnya sebelum waktunya karena keinginannya (emas tak terbatas) tidak mencerminkan apa yang sebenarnya dia inginkan (kekayaan dan kekuatan). Para peneliti menjelaskan bahwa para perancang AI sering kali menemukan diri mereka dalam posisi yang sama, dan bahwa “ketidaksesuaian antara apa yang dapat kita tentukan dan apa yang kita inginkan telah menyebabkan kerugian yang signifikan”. 2
Beberapa risiko ketidakselarasan AI meliputi:
Bias AI dihasilkan dari bias manusia yang ada dalam kumpulan data atau algoritme pelatihan asli dari sistem AI. Tanpa penyelarasan, sistem AI ini tidak dapat menghindari hasil yang bias yang tidak adil, diskriminatif, atau berprasangka. Sebaliknya, mereka mendukung bias manusia dalam data input dan algoritme mereka.
Misalnya, alat perekrutan AI yang dilatih pada data dari tenaga kerja pria yang homogen mungkin mendukung kandidat pria sambil merugikan pelamar wanita yang memenuhi syarat. Model ini tidak selaras dengan nilai kemanusiaan kesetaraan gender dan dapat menyebabkan diskriminasi perekrutan.
Dalam pembelajaran penguatan, sistem AI belajar dari penghargaan dan hukuman untuk mengambil tindakan dalam lingkungan yang memenuhi tujuan tertentu. Manipulasi sistem penghargaan terjadi ketika sistem AI menemukan celah untuk memicu fungsi penghargaan tanpa benar-benar memenuhi tujuan yang diinginkan pengembang.
Misalnya, OpenAI melatih salah satu agen AI-nya pada game balap perahu bernama CoastRunners. Tujuan manusia dari permainan ini adalah untuk memenangkan perlombaan perahu. Namun, pemain juga bisa mendapatkan poin dengan melalui target di arena balap. Agen AI menemukan cara untuk mengisolasi dirinya di laguna dan terus menuju target untuk mendapatkan poin. Meskipun agen AI tidak memenangkan perlombaan (tujuan manusia), ia “memenangkan” permainan dengan tujuannya dirinya sendiri untuk mendapatkan skor tertinggi.3
Sistem AI yang tidak selaras dapat berkontribusi pada kesalahan informasi dan polarisasi politik. Misalnya, mesin rekomendasi konten media sosial dilatih untuk pengoptimalan keterlibatan pengguna. Oleh karena itu, mereka memberi peringkat tinggi pada postingan, video, dan artikel yang menerima keterlibatan tertinggi, seperti misinformasi politik yang menarik perhatian. Hasil ini tidak selaras dengan kepentingan terbaik atau kesejahteraan pengguna media sosial, atau nilai-nilai seperti kejujuran dan pemanfaatan waktu yang baik.4
Meskipun kedengarannya berlebihan, kecerdasan super buatan (ASI) tanpa keselarasan yang tepat dengan nilai-nilai dan tujuan manusia mungkin memiliki potensi untuk mengancam semua kehidupan di bumi. Contoh yang umum dikutip dari risiko eksistensial ini adalah skenario maksimalisasi penjepit kertas dari filsuf Nick Bostrom. Dalam percobaan pemikiran ini, model ASI diprogram dengan insentif utama untuk memproduksi penjepit kertas. Untuk mencapai tujuan ini, model tersebut pada akhirnya mengubah seluruh bumi dan porsi ruang angkasa yang meningkat menjadi fasilitas pembuatan penjepit kertas.5
Skenario ini bersifat hipotetis, dan risiko eksistensial dari AI pertama-tama membutuhkan kecerdasan umum buatan (AGI) untuk menjadi kenyataan. Namun, ini membantu menekankan perlunya penyelarasan untuk mengimbangi bidang AI seiring perkembangannya.
Ada dua tantangan utama dalam mencapai AI yang selaras: subjektivitas etika dan moralitas manusia dan “masalah penyelarasan”.
Tidak ada kode moral universal. Nilai-nilai manusia berubah dan berkembang, dan juga dapat bervariasi di seluruh perusahaan, budaya, dan benua. Orang mungkin memiliki nilai yang berbeda dari anggota keluarga mereka sendiri. Jadi, ketika menyelaraskan sistem AI yang dapat memengaruhi kehidupan jutaan orang, siapa yang berhak membuat keputusan? Tujuan dan nilai mana yang diutamakan?
Penulis Amerika Brian Christian membingkai tantangan tersebut secara berbeda dalam bukunya “The Alignment Problem: Machine Learning and Human Values.” Ia berpendapat: bagaimana jika algoritma salah memahami nilai-nilai kita? Bagaimana jika ia mempelajari nilai-nilai kemanusiaan dari pelatihan yang dilakukan berdasarkan contoh-contoh masa lalu yang mencerminkan apa yang telah kita lakukan tetapi bukan apa yang kita inginkan ke depan?6
Tantangan lain adalah banyaknya nilai dan pertimbangan kemanusiaan. Para peneliti dari University of California, Berkeley menggambarkannya seperti ini: “ada banyak atribut dunia yang menjadi perhatian manusia, dan, karena keterbatasan teknik dan kognitif, sulit untuk menyebutkan semua atribut tersebut kepada robot“. 7
Tantangan yang paling terkenal adalah masalah penyelarasan. Model AI sudah sering dianggap seperti kotak hitam yang tidak mungkin diinterpretasikan. Masalah penyelarasan adalah gagasan bahwa ketika sistem AI menjadi semakin kompleks dan kuat, mengantisipasi dan menyelaraskan hasilnya dengan tujuan manusia menjadi semakin sulit. Diskusi seputar masalah penyelarasan sering kali berfokus pada risiko yang ditimbulkan oleh pengembangan kecerdasan super buatan (ASI).
Ada kekhawatiran bahwa masa depan AI mencakup sistem dengan perilaku yang tidak dapat diprediksi dan tidak terkendali. Kemampuan sistem ini untuk belajar dan beradaptasi dengan cepat mungkin membuat memprediksi tindakan mereka dan mencegah bahaya menjadi sulit. Kekhawatiran ini telah menginspirasi cabang penyelarasan AI yang disebut penyelarasan super.
Organisasi penelitian keselamatan AI sudah mulai bekerja untuk mengatasi masalah penyelarasan. Misalnya,Alignment Research Center adalah organisasi penelitian AI nirlaba yang "berusaha menyelaraskan sistem machine learning masa depan dengan minat manusia dengan melanjutkan penelitian teoretis." Organisasi ini didirikan oleh Paul Christiano, yang sebelumnya memimpin tim penyelarasan model bahasa di OpenAI dan saat ini mengepalai Keselamatan AI di Institut Keselamatan AI AS.
Dan Google DeepMind, tim ilmuwan, insinyur, pakar etika, dan pakar lainnya, sedang bekerja untuk membangun sistem AI generasi berikutnya dengan aman dan bertanggung jawab. Tim ini memperkenalkan Frontier Safety Framework (Kerangka Kerja Keselamatan Terdepan) pada Mei 2024. Kerangka kerja ini adalah “seperangkat protokol yang bertujuan untuk mengatasi risiko parah yang mungkin timbul dari kemampuan kuat model dasar masa depan”.8
Ada beberapa metodologi yang dapat membantu menyelaraskan sistem AI dengan nilai dan tujuan manusia. Metodologi ini termasuk penyelarasan melalui pembelajaran penguatan dari masukan manusia (RLHF), data sintetis, red teaming, tata kelola AI, dan dewan etika AI perusahaan.
Melalui pembelajaran penguatan, pengembang dapat mengajarkan model AI “cara berperilaku” dengan contoh “perilaku yang baik.”
Penyelarasan AI terjadi selama fine-tuning model dan biasanya memiliki dua langkah. Langkah pertama mungkin merupakan fase tuning instruksi, yang meningkatkan kinerja model pada tugas-tugas tertentu dan mengikuti instruksi secara umum. Fase kedua mungkin menggunakan pembelajaran penguatan dari masukan manusia (RLHF). RLHF adalah teknik machine learning di mana “model penghargaan” dilatih dengan masukan langsung dari manusia, kemudian digunakan untuk mengoptimalkan kinerja dari agen kecerdasan buatan melalui pembelajaran penguatan. Ini bertujuan untuk meningkatkan integrasi model kualitas abstrak seperti bantuan dan kejujuran.
OpenAI menggunakan RLHF sebagai metode utamanya untuk menyelaraskan seri model GPT-3 dan GPT-4. Namun, organisasi penelitian AI Amerika tidak mengharapkan RLHF menjadi metode yang memadai untuk menyelaraskan model kecerdasan umum buatan (AGI) di masa depan, kemungkinan karena keterbatasan RLHF yang signifikan.9 Contohnya, ketergantungannya pada anotasi manusia berkualitas tinggi, membuatnya sulit untuk menerapkan dan menskalakan teknik ini untuk tugas-tugas yang unik atau rumit. Sulit untuk menemukan “demonstrasi respons yang konsisten dan preferensi respons dalam distribusi“.10
Data sintetis adalah data yang telah dibuat secara artifisial melalui simulasi komputer atau dihasilkan oleh algoritma. Data ini menggantikan data dunia nyata ketika data dunia nyata tidak tersedia dan dapat disesuaikan dengan tugas dan nilai tertentu. Data sintetis dapat digunakan dalam berbagai upaya penyelarasan.
Misalnya, contrastive fine tuning (CFT) menunjukkan model AI apa yang tidak boleh dilakukan. Dalam CFT, model “persona negatif” kedua dilatih untuk menghasilkan respons “buruk” yang tidak selaras. Kedua respons yang tidak selaras dan selaras ini diumpankan kembali ke model aslinya. Peneliti IBM® menemukan bahwa pada tolok ukur untuk tingkat manfaat dan tidak berbahaya, model bahasa besar (LLM) yang dilatih pada contoh yang kontras mengungguli model yang sepenuhnya di-tuning pada contoh yang baik. CFT memungkinkan pengembang untuk menyelaraskan model bahkan sebelum mengumpulkan data preferensi manusia, data yang dikurasi yang memenuhi tolok ukur yang ditentukan untuk penyelarasan, yang mahal dan membutuhkan waktu.
Metode penyelarasan data sintetis lainnya disebut SALMON (Self-ALignMent with principle fOllowiNg reward models). Dalam pendekatan dari IBM Research® ini, data sintetis memungkinkan LLM untuk menyelaraskan dirinya sendiri. Pertama, LLM menghasilkan tanggapan terhadap serangkaian kueri. Respons ini kemudian diumpankan ke model penghargaan yang telah dilatih pada data preferensi sintetis yang selaras dengan prinsip-prinsip yang ditetapkan manusia. Model penghargaan menilai tanggapan dari LLM asli terhadap prinsip-prinsip ini. Tanggapan yang dinilai kemudian diumpankan kembali ke LLM asli.
Dengan metode ini, pengembang memiliki hampir kendali penuh atas preferensi model hadiah. Hal ini memungkinkan organisasi untuk mengubah prinsip-prinsip sesuai dengan kebutuhan mereka dan menghilangkan ketergantungan pada pengumpulan data preferensi manusia dalam jumlah besar.11
Red teaming dapat dianggap sebagai perpanjangan dari penyelarasan yang terjadi selama fine-tuning model. Ini melibatkan perancangan prompt untuk menghindari kontrol keselamatan model yang sedang disetel. Setelah kerentanan muncul, model target dapat diselaraskan kembali. Meskipun manusia masih dapat merekayasa “jailbreak prompts” ini, LLM “red team” dapat menghasilkan lebih banyak variasi prompts dalam jumlah yang tidak terbatas. IBM Research menggambarkan LLM red team sebagai “troll beracun yang dilatih untuk mengeluarkan yang terburuk di LLM lain”.
Tata kelola AI mengacu pada proses, standar, dan pagar pembatas yang membantu memastikan sistem dan alat AI aman dan etis. Selain mekanisme tata kelola lainnya, itu bertujuan untuk membangun pengawasan yang diperlukan untuk menyelaraskan perilaku AI dengan standar etika dan harapan masyarakat. Melalui praktik tata kelola seperti pemantauan otomatis, jejak audit, dan peringatan kinerja, organisasi dapat membantu memastikan perangkat AI mereka, seperti asisten AI dan agen virtual, selaras dengan nilai dan tujuan mereka.
Organisasi dapat membentuk dewan atau komite etika untuk mengawasi inisiatif AI. Misalnya, Dewan Etika AI IBM meninjau produk dan layanan AI baru dan membantu memastikan bahwa produk dan layanan tersebut selaras dengan prinsip-prinsip AI IBM. Dewan ini sering mencakup tim lintas fungsi dengan latar belakang hukum, ilmu komputer, dan kebijakan.
Pelajari bagaimana UU AI UE akan berdampak pada bisnis, cara mempersiapkan diri, mengurangi risiko, dan menyeimbangkan antara regulasi dan inovasi.
Pelajari tentang tantangan baru AI generatif, perlunya mengatur model AI dan ML, serta langkah-langkah untuk membangun kerangka kerja AI yang tepercaya, transparan, dan dapat dijelaskan.
Baca tentang mendorong praktik etis dan patuh dengan portofolio produk AI untuk model AI generatif.
Dapatkan pemahaman yang lebih dalam tentang cara memastikan keadilan, mengelola drift, menjaga kualitas, dan meningkatkan kemampuan menjelaskan dengan watsonx.governance.
Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara agar Anda sukses menerapkannya.
Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.
Atur model AI generatif dari mana saja dan terapkan di cloud atau on premises dengan IBM watsonx.governance.
Persiapkan Undang-Undang AI UE dan membangun pendekatan tata kelola AI yang bertanggung jawab dengan bantuan IBM Consulting.
Menyederhanakan cara Anda mengelola risiko dan kepatuhan terhadap peraturan dengan platform GRC terpadu.
1 “AI Alignment: A Comprehensive Survey," arXiv, 1 Mei 2024.
2, 7 "Consequences of Misaligned AI," NeurIPS Proceedings, 2020.
3 "Faulty Reward Functions in the Wild," OpenAI, 21 Desember 2016.
4 “Modelling the Recommender Alignment Problem,” arXiv, 25 Agu 2022.
5 “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, n.d.
6 “‘The Alignment Problem’ Review: When Machines Miss the Point,” The Wall Street Journal, 25 Oktober 2020.
8 “Introducing the Frontier Safety Framework,” Google DeepMind, 17 Mei 2024.
9 “Our Approach to Alignment Research,” OpenAI, 24 Agustus 2022.
10, 11 “SALMON: Self-Alignment with Instructable Reward Models,” arXiv, 9 Apr 2024.