Makalah ini juga menyoroti perlunya tolok ukur yang lebih baik dalam industri AI. Menurut Minhas, tolok ukur saat ini bermasalah karena model dapat menyelesaikannya melalui pencocokan pola daripada penalaran yang sebenarnya. “Jika tolok ukur didasarkan pada penalaran aktual, atau jika masalah penalaran lebih kompleks, maka semua model akan berkinerja buruk,” katanya.

Minhas mengatakan para peneliti Apple menciptakan dataset sintetis ini, kumpulan data yang digunakan untuk melatih dan menguji model dan algoritma AI, dengan mencampur simbol-simbol



“Mereka telah membuktikan bahwa kinerja model ini menurun ketika Anda mulai mengubah dan mengubah hal-hal dalam urutan input, baik melalui simbol itu sendiri atau konteks tambahan seperti token yang berlebihan,” katanya.

Metodologi penelitian Apple melibatkan penambahan berbagai “pernak-pernik” dan klausul ke dalam set data pelatihan untuk mengamati bagaimana kinerja model berubah. Namun, Jess Bozorg, Ilmuwan Data IBM, menunjukkan batasan potensial: “Mereka tidak menentukan berapa banyak kategori yang mereka pertimbangkan dalam penambahan mereka, atau jenis pernak-pernik apa yang mereka gunakan dari kategori mana,” katanya.

Salah satu kritik makalah ini terhadap tolok ukur LLM saat ini adalah masalah kontaminasi data. Bozorg menjelaskan bahwa penelitian Apple menggunakan kumpulan data GSM-8K. set yang berisi masalah kata matematika sekolah dasar yang dibuat oleh manusia. “Ada kebocoran data,” katanya. “Ini berarti bahwa model telah melihat beberapa data ini selama tahap pengujian dalam pelatihan mereka.”

Kontaminasi adalah masalah yang tersebar luas di industri ini. Minhas mengatakan bahwa kumpulan data GSM-8K “adalah tolok ukur industri sehingga ada potongan-potongan di seluruh data pelatihan yang diketahui semua model. Ini adalah masalah mendasar dengan semua tolok ukur yang dibuat ini.”

Menariknya, penelitian ini mengungkapkan bahwa GPT-4 berkinerja jauh lebih baik daripada model lain ketika diuji pada kumpulan data simbolik baru. Minhas berspekulasi tentang alasannya: “Mungkinkah ketika melatih GPT-4, mereka memikirkan representasi simbolis dan menghasilkan data uji seperti itu? Mungkin model masih hanya melakukan pencocokan pola, tetapi memiliki tipe data ini dalam kumpulan data pelatihannya.”

Minhas menunjukkan bahwa para peneliti mencoba untuk bergerak melampaui pencocokan pola dengan memperkenalkan memori ke dalam sistem AI. “Itu salah satu cara kami mencoba membuatnya lebih umum, tetapi itu masih hanya merupakan pencocokan pola berdasarkan informasi yang telah Anda berikan kepadanya”, katanya.

Studi Apple telah mengungkap keterbatasan signifikan dalam sistem AI saat ini, mengungkapkan bahwa perjalanan menuju mesin yang benar-benar cerdas masih jauh dari selesai. Sekarang, pakar mengatakan, komunitas AI menghadapi tantangan dalam menjembatani kesenjangan antara pencocokan pola dan penalaran yang sesungguhnya.

“Arsitektur transformator saja tidak cukup untuk penalaran,” kata Minhas. “Kemajuan dalam arsitektur model diperlukan untuk kemampuan penalaran.”