Model bahasa yang besar mungkin unggul dalam memberikan petunjuk arah di jalan-jalan kota New York, tetapi riset baru mengungkapkan bahwa mereka melakukannya tanpa benar-benar memahami bagaimana kota itu saling terhubung. Model-model tersebut jatuh secara spektakuler ketika dihadapkan pada jalan memutar sederhana, memperlihatkan bahwa keahlian mereka yang tampak hanyalah pencocokan pola yang canggih.
Temuan ini menyentuh pertanyaan sentral dalam kecerdasan buatan: apakah sistem AI mengembangkan model dunia "yang sebenarnya" —pemahaman yang koheren tentang bagaimana segala sesuatunya bekerja dan berhubungan satu sama lain—atau hanya menjadi sangat pandai meniru perilaku yang benar tanpa pemahaman yang tulus.
“Apa yang kami temukan dalam pekerjaan kami adalah bahwa model generatif dapat menghasilkan output yang mengesankan tanpa memulihkan model dunia yang mendasarinya,” kata Ashesh Rambachan, Asisten Profesor Ekonomi di MIT dan salah satu penulis makalah. “Ketika kita melihat output yang mengesankan ini, kita secara alami percaya bahwa model generatif ini mempelajari beberapa kebenaran mendasar tentang dunia—lagipula, sulit bagi saya untuk membayangkan seseorang yang dapat menavigasi dari titik A ke titik B di NYC tanpa juga percaya bahwa orang itu memahami peta NYC.”
Tantangan mendasar yang diungkapkan dalam makalah oleh Wakil Presiden IBM® dan Mitra Senior, Global Head of Tech, Data, & AI Strategy, Brent Smolinksi, adalah bahwa model bahasa besar “tidak dapat melakukan penalaran deduktif. Model tersebut tidak dibangun untuk melakukan hal itu. Sistem itu dirancang untuk mengenali pola dan merespons pola-pola tersebut.
Tim Rambachan mengembangkan dua cara baru untuk mengukur seberapa baik model AI memahami lingkungan mereka: perbedaan urutan dan kompresi urutan. Mereka menguji metrik ini menggunakan deterministic finite automata (DFA) dalam dua skenario: menavigasi New York City dan bermain Othello.
Hasil temuan mereka benar-benar tak terduga. Model yang dilatih menggunakan langkah-langkah acak menunjukkan tingkat pemahaman yang lebih tinggi daripada model yang belajar dari permainan yang penuh strategi. Alasannya? Dengan belajar dari langkah-langkah acak, model mengalami lebih banyak variasi situasi dan perubahan kondisi, sehingga memahami lingkungan secara lebih menyeluruh dibandingkan model yang hanya mempelajari langkah strategis yang dianggap “optimal.”
Ketika para peneliti menguji stres sistem AI ini, mereka menemukan kesenjangan yang mengganggu antara kinerja dan pemahaman. Sistem terlihat mengesankan di permukaan - mereka dapat menghasilkan pindah dan arah yang valid dengan akurasi tinggi. Tetapi di bawah fasad ini, hampir setiap model gagal dalam tes dasar pemodelan dunia.
Contoh yang mencolok datang dari tes navigasi NYC. Model navigasi tersebut gagal berfungsi ketika para peneliti membuat perubahan sederhana pada peta kota dengan menambahkan rute memutar. Temuan ini menunjukkan bahwa model itu tidak benar-benar mengerti tata letak kota maupun logika penentuan rute—mereka hanya menghasilkan rekomendasi yang kelihatannya tepat, padahal tanpa pemahaman mendalam.
Ini menunjukkan kelemahan penting dalam sistem AI saat ini: mereka bisa sangat pandai membuat prediksi sambil membutuhkan pemahaman yang lebih tulus tentang apa yang mereka kerjakan. Menurut Smolinski, model bahasa besar mungkin tampak cerdas, tetapi mereka hanya sangat pandai dalam pencocokan pola daripada penalaran (deduktif) aktual. Menurutnya, saat AI terlihat menyelesaikan masalah logika, yang sebenarnya terjadi hanyalah pengenalan pola yang sudah pernah ditemui, bukan proses penalaran langkah demi langkah.
Smolinksi berpendapat bahwa perbedaan utama adalah bahwa kita membutuhkan berbagai jenis teknik AI yang bekerja bersama—misalnya, Anda mungkin memiliki satu untuk mengenali pola, yang lain untuk mewakili pengetahuan, dan yang ketiga untuk penalaran logis untuk memecahkan masalah.
Temuan bahwa sistem AI paling canggih saat ini dapat mengatasi tes tanpa pemahaman yang benar memotong inti dari perdebatan sengit yang sekarang melanda Lembah Silikon: apakah kecerdasan umum buatan sudah dekat atau pada dasarnya masih di luar jangkauan.
Perlombaan untuk mencapai kecerdasan umum buatan (AGI) telah menjadi salah satu perdebatan paling kontroversial di bidang teknologi, menyoroti keretakan yang semakin dalam antara optimis dan skeptis. Di ruang rapat perusahaan dan laboratorium riset di Silicon Valley, percakapan semakin berpusat pada tidak hanya jika tetapi kapan mesin akan cocok dengan kemampuan kognitif manusia.
Garis waktu untuk pengembangan AGI telah membagi komunitas AI menjadi dua kubu yang berbeda. Di satu sisi berdiri para ahli teknologi yang optimis, yang melihat AGI sebagai terobosan yang akan segera terjadi yang dapat membentuk kembali peradaban dalam hidup kita. Di sisi lain adalah pragmatis, yang memperingatkan bahwa kita mungkin berjarak beberapa dekade dari mesin yang benar-benar Think seperti manusia.
Ketidaksepakatan mendasar tentang garis waktu AGI ini tidak hanya akademisi - ini membentuk prioritas riset, keputusan investasi, dan diskusi kebijakan seputar keamanan dan regulasi AI. Ketika miliaran dolar mengalir ke riset dan pengembangan AGI, taruhan perdebatan ini terus meningkat.
Sementara beberapa pemimpin teknologi terkemuka seperti Sam Altman dari OpenAI telah menyarankan yang dapat mencocokkan atau melampaui kognisi tingkat manusia di hampir semua tugas—dapat tiba dalam beberapa tahun, Smolinski IBM® enawarkan pandangan yang lebih skeptis. Dia berpendapat bahwa sistem AI saat ini, terutama model bahasa besar, pada dasarnya terbatas pada pencocokan pola daripada penalaran aktual.
Menurut Smolinski, kita masih jauh dari kecerdasan mirip manusia, bahkan arsitektur yang ada sekarang "mungkin belum mendekati arah yang benar" untuk mewujudkan AGI yang sesungguhnya. Seperti yang dia katakan secara langsung: "Saya akan membedakan antara AI yang membantu dalam memecahkan masalah tertentu versus AI umum... Menurut saya memiliki sistem yang beroperasi seperti manusia, yang memiliki jenis proses berpikir yang sama dengan manusia, atau pemecahan masalah... kita masih bertahun-tahun lagi dari itu. Kita bahkan mungkin tidak pernah sampai di sana."
Smolinski memecah kemampuan AI menjadi kategori yang jelas yang masing-masing melayani tujuan yang berbeda. Di satu sisi, Anda memiliki model bahasa besar seperti AI modern yang sangat baik dalam pengenalan pola, seperti melihat kesamaan dan tren dalam data. Sebaliknya, Anda memiliki sistem berbasis aturan tradisional yang dapat mengikuti langkah-langkah logis. Tantangan sebenarnya, jelasnya, bukanlah meningkatkan kedua jenis tetapi mencari tahu bagaimana menggabungkannya secara efektif.
Smolinski berpendapat bahwa neuro-symbolic AI dapat menjadi salah satu pendekatan yang menjanjikan untuk maju. Cabang AI ini mencoba menggabungkan neural networks dengan penalaran simbolis, meskipun potensi utamanya masih harus dilihat. Sistem hybrid ini dapat belajar dari data mentah dan menerapkan aturan logis. Sifat ganda ini membantu mesin mengatasi tantangan yang kompleks, mulai dari mengurai bahasa alami hingga memecahkan masalah di lingkungan yang dinamis sambil memberikan penjelasan yang lebih jelas untuk keputusan mereka.
“Menurut saya, pendekatan ini yang menunjukkan potensi terbesar untuk mencapai kecerdasan sejati,” ujarnya.