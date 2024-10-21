Dalam sebuah penelitian yang menghebohkan dunia teknologi, para peneliti Apple meragukan anggapan bahwa model bahasa besar (LLM) mampu melakukan penalaran yang sebenarnya.
Penulis makalah ini bertujuan untuk menguji kemampuan penalaran matematis dari model AI saat ini, termasuk pemimpin industri GPT-4 dari OpenAI, dengan memperkenalkan kumpulan data simbolis baru. Dengan menyajikan konsep matematika yang sudah dikenal dengan cara yang tidak dikenal, para peneliti berusaha menantang pemahaman model di luar pengenalan pola belaka.
Hasilnya sangat mencolok: sebagian besar LLM yang mereka uji berkinerja jauh lebih buruk ketika dihadapkan dengan representasi baru dari masalah matematika ini, menunjukkan bahwa sistem ini mungkin lebih bergantung pada pencocokan pola daripada keterampilan pemecahan masalah yang sebenarnya.
“Makalah ini secara fundamental telah membuktikan bahwa LLM tidak dapat bernalar,” kata Ash Minhas, Content Manager IBM. “Mereka hanya mencocokkan pola.”
Pengungkapan ini membuat para pakar mempertanyakan kedalaman kemampuan AI saat ini dan jalan ke depan di lapangan. Temuan penelitian ini menggarisbawahi perbedaan antara kecerdasan sempit buatan (ANI) dan kecerdasan buatan umum (AGI), menunjukkan bahwa LLM saat ini secara tegas termasuk dalam kategori pertama, kata Minhas.
Bidang AI makin merangkul kemungkinan mencapai AGI, yang mengacu pada sistem AI yang mampu belajar dan memahami seperti manusia, menerapkan pengetahuan di berbagai domain, melakukan tugas yang beragam dan berpotensi melampaui kemampuan manusia dalam segala hal mulai dari penalaran hingga pengejaran kreatif.
Helen Toner, mantan anggota dewan OpenAI dan direktur strategi di Pusat Keamanan dan Teknologi Berkembang Universitas Georgetown, baru-baru ini bersaksi di hadapan subkomite Kehakiman Senat AS bahwa “perbedaan terbesar yang saya lihat antara persepsi publik dan perspektif para pakar AI berasal dari dalam sejumlah kecil perusahaan yang sedang berusaha mengembangkan ‘kecerdasan buatan umum’ (AGI), yaitu AI yang kira-kira sepintar manusia.” Dia mengatakan bahwa perusahaan AI terkemuka seperti OpenAI, Google dan Anthropic memperlakukan pembangunan AGI sebagai “tujuan yang sepenuhnya serius.”
Namun demikian, beberapa pakar mengatakan bahwa AGI masih jauh dari kenyataan. “Makalah ini menggarisbawahi bahwa kita masih berada di dunia ANI,” kata Minhas. "Kita belum mencapai AGI."
Makalah ini juga menyoroti perlunya tolok ukur yang lebih baik dalam industri AI. Menurut Minhas, tolok ukur saat ini bermasalah karena model dapat menyelesaikannya melalui pencocokan pola daripada penalaran yang sebenarnya. “Jika tolok ukur didasarkan pada penalaran aktual, atau jika masalah penalaran lebih kompleks, maka semua model akan berkinerja buruk,” katanya.
Minhas mengatakan para peneliti Apple menciptakan dataset sintetis ini, kumpulan data yang digunakan untuk melatih dan menguji model dan algoritma AI, dengan mencampur simbol-simbol
“Mereka telah membuktikan bahwa kinerja model ini menurun ketika Anda mulai mengubah dan mengubah hal-hal dalam urutan input, baik melalui simbol itu sendiri atau konteks tambahan seperti token yang berlebihan,” katanya.
Metodologi penelitian Apple melibatkan penambahan berbagai “pernak-pernik” dan klausul ke dalam set data pelatihan untuk mengamati bagaimana kinerja model berubah. Namun, Jess Bozorg, Ilmuwan Data IBM, menunjukkan batasan potensial: “Mereka tidak menentukan berapa banyak kategori yang mereka pertimbangkan dalam penambahan mereka, atau jenis pernak-pernik apa yang mereka gunakan dari kategori mana,” katanya.
Salah satu kritik makalah ini terhadap tolok ukur LLM saat ini adalah masalah kontaminasi data. Bozorg menjelaskan bahwa penelitian Apple menggunakan kumpulan data GSM-8K. set yang berisi masalah kata matematika sekolah dasar yang dibuat oleh manusia. “Ada kebocoran data,” katanya. “Ini berarti bahwa model telah melihat beberapa data ini selama tahap pengujian dalam pelatihan mereka.”
Kontaminasi adalah masalah yang tersebar luas di industri ini. Minhas mengatakan bahwa kumpulan data GSM-8K “adalah tolok ukur industri sehingga ada potongan-potongan di seluruh data pelatihan yang diketahui semua model. Ini adalah masalah mendasar dengan semua tolok ukur yang dibuat ini.”
Menariknya, penelitian ini mengungkapkan bahwa GPT-4 berkinerja jauh lebih baik daripada model lain ketika diuji pada kumpulan data simbolik baru. Minhas berspekulasi tentang alasannya: “Mungkinkah ketika melatih GPT-4, mereka memikirkan representasi simbolis dan menghasilkan data uji seperti itu? Mungkin model masih hanya melakukan pencocokan pola, tetapi memiliki tipe data ini dalam kumpulan data pelatihannya.”
Minhas menunjukkan bahwa para peneliti mencoba untuk bergerak melampaui pencocokan pola dengan memperkenalkan memori ke dalam sistem AI. “Itu salah satu cara kami mencoba membuatnya lebih umum, tetapi itu masih hanya merupakan pencocokan pola berdasarkan informasi yang telah Anda berikan kepadanya”, katanya.
Studi Apple telah mengungkap keterbatasan signifikan dalam sistem AI saat ini, mengungkapkan bahwa perjalanan menuju mesin yang benar-benar cerdas masih jauh dari selesai. Sekarang, pakar mengatakan, komunitas AI menghadapi tantangan dalam menjembatani kesenjangan antara pencocokan pola dan penalaran yang sesungguhnya.
“Arsitektur transformator saja tidak cukup untuk penalaran,” kata Minhas. “Kemajuan dalam arsitektur model diperlukan untuk kemampuan penalaran.”
