Jika mesin dapat mempelajari bagaimana kita bernalar, mereka juga dapat membantu kita memahami mengapa kita melakukannya.
Centaur adalah model kecerdasan buatan baru yang dirancang untuk meniru penalaran manusia. Dikembangkan pada Llama 3.1 milik Meta dan dilatih pada lebih dari 10 juta keputusan dari 160 studi psikologi, Centaur menangani masalah logika, dilema moral, dan pilihan sehari-hari untuk mengungkap pola di balik pemikiran manusia. Para peneliti melihatnya sebagai alat untuk penemuan, yang berperilaku cukup seperti seseorang untuk memunculkan insight yang mungkin dilewatkan oleh model tradisional.
“Saya senang menggunakan model ini untuk mempelajari sesuatu tentang pikiran manusia,” Marcel Binz, Wakil Kepala Institut AI yang Berpusat pada Manusia di Helmholtz Munich dan penulis utama studi ini yang menggambarkan Centaur, mengatakan dalam sebuah wawancara dengan IBM Think.
Sebagian besar model kognitif menyederhanakan eksperimen menjadi angka mentah. Centaur melakukan kebalikannya. Centaur membaca setiap tugas secara lengkap, lengkap dengan instruksi bahasa alami dan setiap langkah respons manusia. Model tersebut dilatih pada kumpulan data yang disebut Psych 101, kumpulan masalah psikologi klasik yang mencakup semuanya mulai dari teka-teki visual dan tes memori hingga dilema moral dan permainan bahasa. Dengan melihat informasi yang sama dengan seseorang, Centaur belajar mengikuti tugas seperti manusia.
Pendekatan itu memungkinkan generalisasi jauh melampaui data pelatihan. Ketika para peneliti menulis ulang masalah pembelajaran penguatan standar, mengalihkan pembingkaian dari astronot ke karpet ajaib, Centaur masih menunjukkan kecenderungan perilaku yang sama. Ini juga bekerja dengan baik pada jenis tugas yang sama sekali baru, seperti teka-teki logika gaya LSAT.
Penggunaan bahasa, daripada deskripsi numerik terkompresi, disengaja. “Kami ingin model melihat apa yang dilihat peserta,” jelas Binz. “Instruksi lengkap, konteks lengkap. “Tidak ada jalan pintas.”
Centaur tidak dibangun untuk menjelaskan cara kerja otak. Sebaliknya, Centaur berfokus pada mereproduksi apa yang dilakukan orang dalam studi perilaku. Kekuatan prediktif itu memiliki implikasi langsung bagi para peneliti, yang sering mengandalkan model buatan tangan yang sempit untuk setiap jenis fungsi kognitif.
Russell Poldrack, seorang Profesor Psikologi di Universitas Stanford yang tidak terlibat dalam proyek tersebut, memandang Centaur sebagai bagian dari pergeseran yang lebih besar di bidangnya.
“Secara historis, kami telah memberikan model versi tugas yang sangat berkurang,” katanya kepada IBM Think dalam sebuah wawancara. “Sekarang, kita bisa memberi mereka apa yang akan kita berikan kepada seseorang dan melihat perilaku yang mencerminkan apa yang akan dilakukan seseorang.”
Perbedaannya bukan hanya dalam skala, tetapi dalam niat. Sebagian besar model kognitif dibangun untuk menjelaskan perilaku tertentu. Centaur dibangun untuk mengamati dan mereplikasi perilaku lintas domain, seperti penalaran visual dan tugas memori. Itu membuka kemungkinan menemukan pola-pola baru yang mungkin terlewatkan oleh para peneliti.
Dalam satu contoh dari penelitian ini, tim memeriksa bagaimana orang memilih antara produk dengan beberapa peringkat pakar. Perilaku Centaur mengungkapkan strategi dua langkah: orang awalnya tampaknya menghitung jumlah peringkat positif, dan hanya menggunakan kredibilitas pakar sebagai pemutus. Insight itu mengarah pada model pengambilan keputusan manusia yang baru dan dapat ditafsirkan, yang dapat dicocokkan Centaur setelah penyempurnaan.
“Kami tidak mencoba mengganti model kognitif,” kata Binz. “Kami ingin memberi para peneliti alat yang lebih baik untuk mengeksplorasi apa yang mungkin dilakukan manusia.”
Meskipun memiliki cakupan yang luas, Centaur memiliki batas-batas yang jelas. Centaur tidak mensimulasikan waktu, dinamika perhatian atau interaksi fisik. Centaur tidak dapat menjelaskan berapa lama waktu yang dibutuhkan seseorang untuk merespons, atau bagaimana perilaku berubah dalam lingkungan sosial atau bagaimana keputusan berkembang dari waktu ke waktu.
Batasan tersebut mungkin terbukti berguna. Di mana Centaur gagal, para peneliti dapat menemukan petunjuk tentang aspek kognisi yang tidak mudah dipelajari dari bahasa saja.
Di situlah Poldrack akan memulai. "Saya ingin mencari tempat-tempat yang rusak," katanya. "Apa yang dilewatkan? Di mana itu berbeda dari apa yang dilakukan orang—dan mengapa?”
Arsitektur Centaur, sejenis transformer, tidak dirancang untuk memodelkan dinamika kognitif yang kompleks. Pengulangan, modul memori atau pelatihan multimodal mungkin diperlukan untuk membawanya lebih dekat ke kemampuan tersebut. Namun, bahkan sekarang, kemampuannya untuk menghasilkan perilaku seperti manusia di berbagai tugas tidak biasa.
Beberapa peneliti mempertanyakan apakah model bahasa besar (LLM) benar-benar bernalar, atau hanya mengulang apa yang mereka lihat selama pelatihan. Binz memilih kata-katanya dengan hati-hati ketika dia menggambarkan Centaur. “Centaur tidak mensimulasikan bagaimana otak manusia bekerja,” katanya. “Namun, ini bukan hanya sekedar menyalin. “Centaur melakukan sesuatu yang menggeneralisasi.”
Poldrack mencatat bahwa perdebatan ini bukanlah hal baru. Pertanyaan apakah model bahasa benar-benar berpikir atau hanya meniru pola statistik dalam bahasa telah menjadi pusat kritik AI, sering disebut sebagai masalah “burung beo stokastik”.
"Ketika orang-orang pertama kali mulai melontarkan kritik burung beo stokastik pada model bahasa besar, respons awal saya adalah cukup jelas bahwa manusia setidaknya juga merupakan burung beo yang agak stokastik," katanya.
Ia menunjuk pada teori exemplar, sebuah konsep dari psikologi yang menyatakan bahwa orang sering kali mengandalkan ingatan spesifik daripada aturan abstrak ketika membuat keputusan.
"Ketika saya melihat seekor anjing, saya tidak mengkomputasi ulang apa itu anjing," katanya. “Saya mencocokkannya dengan sesuatu yang pernah saya lihat sebelumnya. Itu cepat dan berhasil."
Poldrack menyarankan bahwa Centaur mungkin memanfaatkan pengalaman masa lalu, menggabungkannya dengan cara baru dan menghasilkan prediksi. Namun, apakah proses ini sama dengan berpikir tetap menjadi pertanyaan terbuka, katanya.
Salah satu alasan model seperti Centaur dimungkinkan sekarang adalah karena data akhirnya memenuhi pertanyaan. Selama beberapa dekade, psikologi beroperasi dalam apa yang digambarkan Poldrack sebagai “rezim terbatas data,” dengan eksperimen yang melibatkan 30 atau 40 peserta, dianalisis dengan tangan.
Psych-101 mengubah itu. Kumpulan data menyatukan puluhan juta keputusan yang diambil dari riset psikologi selama beberapa dekade, semuanya ditulis ulang dalam format bahasa alami yang konsisten. Ini mencakup deskripsi tugas lengkap, instruksi, dan urutan respons manusia di berbagai eksperimen. Ini adalah fondasi di mana Centaur dilatih. Alih-alih belajar dari input dan output yang terisolasi, model diekspos ke konteks penuh dari setiap tugas. Itu memungkinkannya untuk terlibat dengan masalah dengan cara yang lebih mirip manusia, mengikuti struktur dan aliran setiap pengalaman.
Skala itu mungkin tidak memberikan penjelasan mendalam, kata Poldrack, tetapi membuka pintu baru untuk eksplorasi.
“Kami belum pernah memiliki akses ke rezim data semacam ini sebelumnya,” katanya. “Sekarang kita dapat melatih model yang mencerminkan perilaku di seluruh tugas, tidak hanya di dalamnya.”
Binz mengatakan tim berencana untuk memperluas Psych-101 dalam beberapa bulan mendatang untuk memasukkan tugas-tugas psikolinguistik, studi perkembangan, dan lintas budaya. Tujuannya adalah untuk melakukan lebih dari sekadar mencocokkan perilaku rata-rata. Para peneliti ingin memahami bagaimana orang berbeda berdasarkan usia, kepribadian, atau latar belakang, dan bagaimana perbedaan itu membentuk cara mereka merespons.
“Akhirnya, kami ingin membangun model yang dapat bernalar tentang kognisi itu sendiri,” katanya.
Centaur tidak berpura-pura menjadi otak. Namun Centaur adalah sesuatu yang lain yang tidak dimiliki oleh ilmu kognitif: model perilaku tujuan umum, dilatih dalam skala besar, yang berperilaku cukup mirip dengan seseorang untuk membantu kita memahami di mana teori kita berhasil, dan di mana tidak.
“Ini pada dasarnya kotak hitam besar yang memprediksi perilaku dengan sangat baik,” kata Binz. “Namun, makin kita memahami apa yang ada di dalam, makin banyak kita dapat belajar tentang apa yang ada di dalam diri kita juga.”
