Kecerdasan super buatan (artificial superintelligence, ASI) masih merupakan konsep hipotetis. Oleh karena itu, upaya penyelarasan AI saat ini sebagian besar berfokus untuk menjadikan model AI saat ini bermanfaat, aman, dan andal. Misalnya, penyelarasan membantu memastikan bahwa chatbot AI seperti ChatGPT tidak melanggengkan bias manusia atau dapat dieksploitasi oleh pelaku kejahatan.
Namun, seiring dengan makin kompleks dan majunya AI, hasilnya menjadi makin sulit untuk diantisipasi dan diselaraskan dengan keinginan manusia. Tantangan ini sering disebut sebagai “masalah penyelarasan”. Ada kekhawatiran bahwa sistem AI supercerdas suatu hari nanti dapat mencapai titik puncak dan menghindari kontrol manusia sepenuhnya. Selain itu, beberapa pakar percaya bahwa risiko AI saat ini bisa menjadi makin parah seiring kemajuan AI.
Kekhawatiran ini, antara lain, telah mengilhami cabang yang muncul dari upaya penyelarasan lanjutan, yang dikenal sebagai penyelarasan super (superalignment).
Untuk memahami kecerdasan super buatan (ASI), ada baiknya kita melihatnya dalam konteks bersama jenis kecerdasan buatan lainnya: kecerdasan sempit buatan (artificial narrow intelligence, ANI) dan kecerdasan umum buatan (artificial general intelligence, AGI). Ketiga jenis AI ini dapat diurutkan berdasarkan kemampuannya:
Ranah AI membuat terobosan teknologi yang mengesankan. Misalnya, AlphaFold 3 dari DeepMind dapat memprediksi struktur molekul dan interaksi dengan akurasi luar biasa. Contoh lainnya, GPT-4o dari OpenAI dapat bernalar secara real time.
Terlepas dari kemajuan ini, AI tetap bukan manusia. AI pada dasarnya tidak peduli dengan alasan, loyalitas, atau keselamatan. AI memiliki satu tujuan: menyelesaikan tugas sesuai programnya.
Oleh karena itu, keputusan untuk menciptakannya dengan nilai-nilai dan tujuan manusia ada di tangan pengembang AI. Jika tidak, ketidakselarasan akan terjadi dan sistem AI dapat memberikan hasil berbahaya yang mengarah pada bias, diskriminasi, dan misinformasi.
Upaya penyelarasan saat ini berfungsi menjaga agar sistem AI lemah sejalan dengan nilai dan tujuan manusia. Namun, sistem AGI dan ASI bisa makin berisiko, lebih sulit dipahami, dan lebih sulit dikontrol. Teknik penyelarasan AI saat ini, yang mengandalkan kecerdasan manusia, kemungkinan besar tidak memadai untuk menyelaraskan sistem AI yang lebih pintar daripada manusia.
Misalnya, pembelajaran penguatan dari masukan manusia (reinforced learning from human feedback, RLHF) adalah teknik machine learning di mana “model penghargaan” dilatih dengan masukan manusia langsung. OpenAI menggunakan RLHF sebagai metode utama untuk menyelaraskan seri model GPT-3 dan GPT-4 di balik ChatGPT, yang semuanya dianggap sebagai model AI yang lemah. Teknik penyelarasan yang jauh lebih maju akan diperlukan untuk membantu memastikan bahwa sistem AI supercerdas memiliki tingkat ketahanan, kemampuan penafsiran, kemampuan kontrol, dan etika yang serupa.
Tanpa penyelarasan super, sistem AI canggih dapat menimbulkan beberapa risiko, termasuk:
Jika sistem AI canggih menjadi sangat kompleks dan tidak selaras sehingga pengawasan manusia tidak mungkin dilakukan, hasilnya bisa jadi tidak dapat diprediksi dan tidak dapat dikontrol. Skenario pengambilalihan robot humanoid dianggap tidak mungkin oleh sebagian besar pakar. Namun, sistem AGI atau ASI yang menyimpang terlalu jauh dari tujuan yang dimaksudkan dapat menjadi bencana dalam situasi berisiko tinggi, seperti dalam infrastruktur penting atau pertahanan nasional.
AI supercerdas dapat berupaya meraih tujuan dengan cara merugikan eksistensi umat manusia. Contoh yang sering dikutip adalah eksperimen gagasan pemaksimal penjepit kertas dari filsuf Nick Bostrom, di mana model ASI diprogram untuk membuat penjepit kertas. Dengan kekuatan komputasi yang melampaui kemampuan manusia atau superhuman, model ini akhirnya mengubah segalanya, bahkan bagian ruang, menjadi fasilitas pembuatan penjepit kertas untuk mengejar tujuannya.1
Meskipun ada beberapa metode yang dapat diandalkan untuk mengurangi bias dalam sistem AI, risiko masih tetap menjadi pertimbangan untuk AI di masa depan. Sistem AI canggih dapat melanggengkan bias manusia dengan hasil yang tidak adil atau diskriminatif. Karena kompleksitas sistem, hasil yang bias ini mungkin sulit untuk diidentifikasi dan dimitigasi. Bias AI terutama memprihatinkan ketika ditemukan di bidang seperti perawatan kesehatan, penegakan hukum, dan sumber daya manusia.
Pelaku kejahatan dapat mengeksploitasi AI supercerdas untuk tujuan buruk seperti kontrol sosial atau peretasan keuangan berskala besar. Namun, gangguan sosial dan ekonomi juga dapat terjadi jika industri mengadopsi AI canggih tanpa kerangka kerja hukum atau peraturan yang diperlukan.
Misalnya, agen AI keuangan makin banyak digunakan untuk tugas-tugas seperti perdagangan atau manajemen aset, tetapi akuntabilitas atas tindakan mereka sering kali tidak jelas. Siapa yang bertanggung jawab jika agen AI melanggar peraturan SEC? Seiring dengan makin matangnya teknologi, kurangnya akuntabilitas ini dapat menyebabkan ketidakpercayaan dan ketidakstabilan.2
Beberapa percakapan seputar ASI mengandung kekhawatiran bahwa manusia pada akhirnya akan menjadi terlalu bergantung pada sistem AI canggih. Akibatnya, kita berpotensi kehilangan kemampuan kognitif dan pengambilan keputusan. Demikian pula, ketergantungan yang terlalu besar pada AI di bidang-bidang seperti keamanan siber dapat menyebabkan rasa puas diri dari tim manusia. AI tidak sempurna dan pengawasan manusia masih diperlukan untuk membantu memastikan semua ancaman dapat diatasi.
Saat ini ada beberapa teknik untuk menyelaraskan AI, termasuk pembelajaran penguatan dari masukan manusia (reinforced learning from human feedback, RLHF), pendekatan data sintetis, dan pengujian lawan. Namun, semua metode tersebut kemungkinan tidak memadai untuk menyelaraskan model AI supercerdas. Selain itu, pada saat penulisan artikel ini, baik AGI maupun ASI belum ada, dan belum ada metode pasti yang dapat menyelaraskan sistem AI yang lebih kompleks ini.
Namun, ada beberapa ide penyelarasan super yang memberikan hasil penelitian menjanjikan:
Sebagai manusia, kita tidak dapat diandalkan untuk mengawasi sistem AI yang lebih cerdas dari kita. Pengawasan yang dapat diskalakan adalah metode pelatihan yang dapat diskalakan di mana manusia dapat menggunakan sistem AI yang lebih lemah untuk membantu menyelaraskan sistem AI yang lebih kompleks.
Penelitian untuk menguji dan memperluas teknik ini terbatas, karena sistem AI supercerdas belum ada. Namun, para peneliti di Anthropic (perusahaan keselamatan dan penelitian AI) telah melakukan eksperimen pembuktian konsep (proof of concept).
Dalam eksperimen tersebut, peserta manusia diarahkan untuk menjawab pertanyaan dengan bantuan LLM. Pada metrik akurasi, manusia yang menggunakan bantuan AI didapati mengungguli model itu sendiri dan manusia yang tidak menggunakan bantuan AI. Dalam temuan mereka, para peneliti mengatakan hasil ini menggembirakan dan membantu mengonfirmasi gagasan bahwa LLM “dapat membantu manusia mengerjakan tugas-tugas sulit dalam lingkungan yang relevan dengan pengawasan yang dapat diskalakan”.3
Generalisasi adalah kapasitas sistem AI untuk membuat prediksi dengan andal dari data yang tidak digunakan untuk melatih sistem tersebut. Generalisasi lemah ke kuat adalah teknik pelatihan AI di mana model yang lebih lemah digunakan untuk melatih model yang lebih kuat agar berkinerja lebih baik dengan data baru, sehingga memperbaiki generalisasi.
Tim penyelarasan super OpenAI, yang dipimpin oleh Ilya Sutskever (co-founder OpenAI dan mantan Chief Scientist) dan Jan Leike (mantan Head of Alignment), membahas generalisasi lemah ke kuat dalam makalah penelitian pertamanya. Eksperimen ini menggunakan model tingkat GPT-2 yang “lemah” untuk menyempurnakan model tingkat GPT-4. Dengan menggunakan metode ini, tim tersebut menemukan bahwa kinerja model yang dihasilkan berada di antara model tingkat GPT-3 dan GPT-3.5 . Mereka menyimpulkan bahwa dengan metode lemah ke kuat, generalisasi dapat ditingkatkan secara signifikan.
Mengenai penyelarasan super, demo bukti konsep ini menunjukkan bahwa peningkatan signifikan mungkin terjadi pada generalisasi lemah ke kuat. Menurut makalah penelitian yang dihasilkan oleh tim tersebut, “adalah mungkin untuk membuat kemajuan empiris hari ini berdasarkan tantangan mendasar dalam menyelaraskan model superhuman”.4 Sebuah studi lanjutan di Beijing Jiaotong University menunjukkan bahwa generalisasi lemah ke kuat dapat ditingkatkan dengan menggunakan pengawasan yang dapat diskalakan.5
Namun, tim penyelarasan super OpenAI dibubarkan pada Mei 2024 karena pergeseran prioritas di dalam perusahaan. Dalam sebuah posting media sosial, CEO Sam Altman berterima kasih kepada tim tersebut dan mengatakan bahwa OpenAI telah “[menempatkan] fondasi yang diperlukan untuk penerapan aman sistem yang makin canggih.”6
Lebih jauh pada jalur penyelarasan terdapat penelitian penyelarasan otomatis. Teknik penyelarasan super ini menggunakan sistem AI superhuman yang sudah diselaraskan untuk melakukan penelitian penyelarasan otomatis. “Peneliti AI” ini akan lebih cepat dan lebih pintar daripada peneliti manusia. Dengan keunggulan ini, mereka berpotensi merancang teknik penyelarasan super yang baru. Alih-alih secara langsung mengembangkan dan mengimplementasikan penelitian penyelarasan teknis, para peneliti manusia akan meninjau ulasan penelitian yang dihasilkan.
Leopold Aschenbrenner, seorang investor AGI dan mantan anggota tim penyelarasan super di OpenAI, menjelaskan potensi besar dari teknik ini: “Jika kita cukup berhasil menyelaraskan sistem yang serupa superhuman hingga memercayainya, kita akan berada dalam posisi yang luar biasa: kita akan memiliki jutaan peneliti AI otomatis, yang lebih pintar daripada peneliti AI terbaik, dan dapat kita manfaatkan.”7
Penyelarasan super menghadapi banyak tantangan. Antara lain, siapa yang menentukan tolok ukur untuk nilai, tujuan, dan etika? Namun, ada satu tantangan yang membayangi semuanya: Sangat sulit untuk merancang teknik penyelarasan yang dapat diandalkan untuk sistem AI yang kuat, yang tidak hanya lebih cerdas daripada kita, tetapi juga hanya ada dalam teori.
Para pakar industri juga memiliki pertentangan filosofis mengenai penyelarasan super. Misalnya, beberapa laboratorium AI menyatakan bahwa memfokuskan upaya pengembangan AI untuk menyelaraskan sistem AI di masa depan dapat menghambat prioritas AI saat ini dan penelitian baru. Di sisi lain, pendukung keselamatan AI berpendapat bahwa risiko kecerdasan super terlalu berat untuk diabaikan dan lebih besar daripada potensi manfaatnya.
Pemikiran yang terakhir ini mengilhami mantan kepala ilmuwan OpenAI, Ilya Sutskever, untuk bergabung bersama investor Daniel Gross dan mantan peneliti OpenAI, Daniel Levy, dalam menciptakan Safe Superintelligence Inc. Fokus utama perusahaan rintisan ini adalah “membangun kecerdasan super yang aman (safe superintelligence, SSI)” tanpa “gangguan dari overhead manajemen atau siklus produk” dan kemajuan yang “terisolasi dari tekanan komersial jangka pendek”.8
Tautan berada di luar ibm.com.
1 “Ethical Issues in Advanced Artificial Intelligence,” Nick Bostrom, n.d.
2 “Will Financial AI Agents Destroy The Economy?,” The Tech Buzz, 25 Oktober 2024.
3 “Measuring Progress on Scalable Oversight for Large Language Models,” Anthropic, 4 November 2022.
4 “Weak-to-strong generalization,” OpenAI, 14 Desember 2023.
5 “Improving Weak-to-Strong Generalization with Scalable Oversight and Ensemble Learning,” arXiv, 1 Februari 2024.
6 X post, Greg Brockman, 18 Mei 2024.
7 “Superalignment,” Situational Awareness: The Decade Ahead, Juni 2024.
8 “Superintelligence is within reach,” Safe Superintelligence Inc., 19 Juni 2024.
Atur model AI generatif dari mana saja dan terapkan di cloud atau on premises dengan IBM watsonx.governance.
Lihat cara tata kelola AI dapat membantu meningkatkan kepercayaan karyawan Anda terhadap AI, mempercepat adopsi dan inovasi, serta meningkatkan kepercayaan pelanggan.
Bersiaplah menghadapi Undang-Undang AI UE dan bangun pendekatan tata kelola AI yang bertanggung jawab dengan bantuan IBM Consulting.