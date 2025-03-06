Richard Sutton, salah satu pelopor kecerdasan buatan modern, tidak yakin bahwa sekadar menambah kekuatan komputasi akan menghasilkan mesin AI yang dapat berpikir seperti manusia. Bahkan, dia berpendapat obsesi hari ini untuk meningkatkan pembelajaran mendalam mungkin menahan AI dari potensi penuhnya.
Sutton, bersama kolaborator lamanya Andrew Barto, memenangkan Turing Award tahun ini—sering disebut "Hadiah Nobel Komputasi"—untuk karyanya dalam pembelajaran penguatan. Dia percaya terobosan nyata akan datang ketika AI berhenti mengandalkan kumpulan data yang dikuratori dan mulai belajar dari pengalaman, seperti yang dilakukan anak-anak.
“Jika kita menginginkan kecerdasan nyata, AI perlu belajar dengan melakukan, dengan coba-coba,” kata Sutton dalam sebuah wawancara. “Komputasi bukanlah obat mujarab untuk segala masalah.” “Lebih banyak daya komputasi memang membantu, tetapi itu bukan unsur utama dari kecerdasan.”
Ini adalah klaim yang berani pada saat raksasa AI seperti OpenAI, Google DeepMind, dan Anthropic berlomba untuk menskalakan model mereka, memberi mereka jumlah data dan komputasi yang terus meningkat dalam mengejar penalaran tingkat manusia. Namun, Sutton meyakini bahwa pendekatan tersebut keliru. Ia berpendapat bahwa kemajuan yang sesungguhnya akan datang dari penyempurnaan algoritma yang mengatur cara mesin belajar, bukan sekadar membuatnya lebih besar.
Kontribusi Sutton terhadap AI berlangsung beberapa dekade lalu. Meski begitu, dampaknya yang paling signifikan adalah pada pembelajaran penguatan. Metode ini memungkinkan AI untuk belajar dengan berinteraksi dengan lingkungannya, seperti bagaimana manusia dan hewan belajar melalui coba-coba.
Pembelajaran penguatan bekerja dengan memberi penghargaan kepada sistem AI untuk tindakan yang benar dan menghukumnya karena kesalahan, mirip dengan bagaimana seorang anak belajar bahwa menyentuh kompor panas adalah ide yang buruk tetapi meraih mainan itu bagus. Seiring waktu, sistem AI menyempurnakan proses pengambilan keputusan dengan memaksimalkan imbalan dan meminimalkan kesalahan.
Teknik ini terkenal digunakan dalam AlphaGo, sistem AI yang dikembangkan oleh Google DeepMind yang mengejutkan dunia pada tahun 2016 dengan mengalahkan pemain Go juara dunia, Lee Sedol. AI belajar bukan dengan menghafal strategi manusia tetapi dengan memainkan jutaan game melawan dirinya sendiri, menyempurnakan strateginya melalui pembelajaran penguatan.
Sejak itu, pembelajaran penguatan telah berkembang melampaui permainan ke area seperti robotika, perdagangan keuangan, dan perawatan kesehatan. Ini membantu mengoptimalkan mobil self-driving, meningkatkan algoritma perdagangan otomatis, dan bahkan melakukan penyempurnaan chatbot AI seperti ChatGPT melalui pembelajaran penguatan dari masukan manusia (RLHF). RLHF memungkinkan model AI untuk menyempurnakan tanggapan mereka berdasarkan interaksi pengguna, membuatnya lebih percakapan dan selaras dengan harapan manusia.
Meskipun ada kemajuan ini, Sutton yakin pembelajaran penguatan belum dimanfaatkan sepenuhnya. "Masih terlalu dini," katanya. “Sistem AI saat ini sebagian besar bergantung pada data yang telah diproses sebelumnya, bukan interaksi dunia nyata. Itu perlu diubah jika kita menginginkan AI yang benar-benar memahami dan beradaptasi.”
Gagasan ecerdasan umum buatan (AGI) —AI yang dapat berpikir, bernalar, dan belajar di berbagai tugas setara dengan manusia—telah lama menjadi topik yang kontroversial. Beberapa pakar berpendapat bahwa AGI masih membutuhkan waktu bertahun-tahun untuk terwujud, sedangkan sebagian lainnya meragukan kemungkinan AGI dapat diwujudkan sama sekali. Di kubu lain, beberapa ahli menyatakan bahwa AGI bukanlah tujuan yang tepat untuk diprioritaskan. “Kita tidak boleh melupakan kekuatan model-model ini di domain non-bahasa lainnya,” kata Marina Danilevsky, Ilmuwan Riset Senior di IBM®, pada sebuah episode podcast Mixture of Experts. “Jika kita benar-benar memperluas di mana teknologi ini dapat digunakan... kita bisa pergi ke tempat-tempat yang jauh lebih menarik, jauh lebih pragmatis, jauh lebih praktis... [alih-alih] mengejar AGI.”
Sutton mengambil sikap yang terukur. Dia memperkirakan satu dari empat kemungkinan bahwa AI dapat mencapai kecerdasan tingkat manusia dalam lima tahun dan peluang 50% dalam 15 tahun. Itu perkiraan yang sangat optimis dibandingkan dengan banyak rekan-rekannya, yang sering memprediksi AGI masih beberapa dekade lagi.
“Masih ada terobosan yang dibutuhkan,” akunya. "Tapi kami semakin dekat. Bagian terbesar yang hilang adalah bagaimana membuat sistem AI belajar dari pengalaman dengan cara yang lebih alami, daripada kumpulan data berlabel yang diberi makan sendok.
Seperti yang dijelaskan Sutton, salah satu tantangan terbesar adalah mengajarkan AI untuk memahami perencanaan dan abstraksi jangka panjang—kemampuan untuk memecah masalah kompleks menjadi bagian-bagian yang lebih kecil dan dapat dikelola, seperti yang dilakukan manusia.
“Jika saya menyuruh Anda menyeberang jalan, Anda tidak memikirkan setiap gerakan otot kecil.” Anda memikirkan tujuannya: menyeberang jalan. AI perlu belajar seperti itu, pada tingkat abstraksi yang lebih tinggi,” jelas Sutton.
Salah satu kontribusi utamanya untuk pembelajaran penguatan adalah konsep abstraksi temporal, yang memungkinkan AI untuk belajar dalam langkah-langkah daripada terjebak dalam manajemen mikro. Ini bisa sangat penting untuk sistem AI yang perlu bernalar di cakrawala waktu yang panjang—sesuatu yang diperjuangkan oleh model saat ini.
Sebagai contoh, asisten AI mungkin mampu memberikan jawaban yang baik untuk satu pertanyaan, tetapi kesulitan mempertahankan percakapan yang logis dalam beberapa interaksi atau merencanakan tugas kompleks yang berlangsung dalam rentang waktu—seperti memesan liburan yang melibatkan koordinasi penerbangan, hotel, dan aktivitas. Sutton percaya bahwa pembelajaran penguatan dan algoritma penalaran jangka panjang yang lebih baik akan menjadi kunci untuk mengatasi keterbatasan ini.
Sutton percaya cara terbaik untuk berpikir tentang masa depan AI bukanlah sebagai alat atau budak tetapi sebagai anak-anak—belajar, berkembang, dan akhirnya mendapatkan kemandirian.
“Kami tidak memperlakukan anak-anak kami sebagai mesin yang harus dikendalikan,” katanya. “Kami membimbing mereka, mengajar mereka, tetapi pada akhirnya, mereka tumbuh menjadi makhluk mereka sendiri. AI juga sama."
Sutton memperingatkan bahwa memperlakukan AI sebagai sesuatu yang akan didominasi atau diperbudak dapat mengarah pada hubungan permusuhan daripada kerja sama. Sebaliknya, ia berpendapat bahwa sama seperti anak-anak mempelajari nilai-nilai masyarakat manusia melalui pengamatan dan interaksi, AI harus diajarkan, bukan diprogram, untuk menyelaraskan dengan nilai-nilai kemanusiaan.
“Ini bukan tentang kontrol; ini tentang pemahaman,” jelasnya. “Ketika Anda membesarkan anak, Anda tidak hanya memaksakan aturan keras dan mengharapkan kepatuhan. Anda menunjukkan kebaikan, keadilan dan kerja sama, dan anak menginternalisasi nilai-nilai itu. AI bisa belajar dengan cara yang sama.”
Analogi ini menimbulkan pertanyaan yang mendalam. Jika AI menjadi lebih otonom, bagaimana masyarakat akan mengintegrasikan makhluk digital ini? Apakah mereka akan memiliki hak? Haruskah mereka diberi kemerdekaan? Sutton menyarankan bahwa cara kita mendekati pengembangan AI sekarang akan menentukan bagaimana hubungan masa depan ini berkembang.
“Jika kita meningkatkan AI dalam lingkungan kepercayaan dan kerja sama, mereka akan belajar untuk hidup bersama kita. Jika kita memperlakukan mereka sebagai musuh, kita berisiko menciptakan sistem yang memiliki setiap alasan untuk melawan kita,” katanya.
Perspektif Sutton menantang narasi berbasis ketakutan konvensional tentang penyelarasan AI, yang sering mengasumsikan bahwa AI canggih harus dibelenggu untuk mencegahnya merugikan umat manusia. Sebaliknya, ia mengusulkan pendekatan berdasarkan manfaat, di mana AI belajar melalui pengalaman daripada kendala yang kaku.
Visi Sutton untuk AI pada akhirnya adalah tentang membangun mesin yang mempelajari bagaimana manusia melakukannya—melalui eksplorasi, pengalaman, dan adaptasi. Baginya, masa depan AI bukan tentang model yang lebih besar atau lebih banyak aturan tetapi tentang membuat sistem AI yang dapat mencari tahu sendiri.
Uang hadiah Turing Award-nya—500.000 USD dari USD 1 juta yang dibagikan dengan Barto—sudah digunakan untuk bekerja menuju visi itu. Dia telah mendirikan Institut Riset Openmind, yang bertujuan memberikan kebebasan kepada para peneliti AI muda untuk menjelajahi pertanyaan-pertanyaan mendasar tentang pembelajaran, tanpa tekanan komersialisasi.
“Ketika Andy Barto dan saya memulai, kami memiliki waktu dan ruang untuk menjelajahi ide dengan bebas,” katanya. "Itulah yang menyebabkan pembelajaran penguatan menjadi seperti sekarang ini. Saya ingin memberi generasi berikutnya kesempatan yang sama.”
Jadi, apakah AI tingkat manusia tidak dapat dihindari? Sutton tetap optimis namun berhati-hati. “Ini bukan pertanyaan apakah—pertanyaannya adalah kapan,” katanya. “Dan ketika hal itu terjadi, itu bukan karena kami membangun model yang lebih besar. Itu karena kita membangun pembelajar yang lebih pintar.”
