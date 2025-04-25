Sebuah topik hangat, jika memang pernah ada, tolok ukur telah menjadi perdebatan utama saat ini karena kemampuan AI berkembang begitu cepat dan secara konsisten mengungguli alat yang digunakan untuk mengukurnya.

“Setiap tahun, kami melihat bagaimana algoritme ini berkinerja di seluruh tolok ukur, dan setiap tahun sepertinya mereka mengalahkan tolok ukur tersebut,” kata Vanessa Parli, salah satu penulis laporan, dalam sebuah wawancara dengan IBM Think. “Demikian pula, tahun ini, hal itu terjadi bahkan dengan tolok ukur yang lebih baru.”

Laporan tersebut mencatat bahwa pada tahun 2023, para peneliti memperkenalkan tolok ukur baru, MMMU, GPQA, dan SWE-bench, untuk menguji batas-batas sistem AI yang canggih. Hanya setahun kemudian, kinerja meningkat tajam: skor naik masing-masing sebesar 18,8, 48,9, dan 67,3 poin persentase di MMMU, GPQA dan SWE-bench, menurut laporan tersebut.

Hal ini menimbulkan ambiguitas dalam komunitas riset tentang makna dan nilai sebenarnya dari tolok ukur LLM. Parli mengajukan pertanyaan penting untuk dipertimbangkan: “Apakah kita mengukur hal yang benar? Apakah tolok ukur itu telah terkompromi? Dan bagaimana seharusnya komunitas ilmiah mengevaluasi model?”

Berpikir ke depan, Ash Minhas juga mempertanyakan seperti apa masa depan tolok ukur nantinya. “Kapan itu akan berhenti?” ia bertanya dalam sebuah wawancara dengan IBM Think. “Apakah Tes Turing akan selalu menjadi sasaran yang terus berubah? Apakah ujian terakhir manusia memang yang terakhir?”

Sementara itu, para pakar memperingatkan terhadap risiko overfitting, sebuah fenomena di mana model AI telah belajar untuk berkinerja sangat baik pada tes tolok ukur tertentu tetapi mungkin gagal untuk menyesuaikan diri dengan data baru yang belum pernah ditemui dalam penerapan dunia nyata. “Apakah kita hanya melatih model untuk lulus tolok ukur?” ia menambahkan. “MMMU adalah tolok ukur yang baik, tetapi apakah itu karena model tahu cara menanggapi tolok ukur?”

Minhas juga memperingatkan bahwa antusias dan momentum kemajuan dapat menjadi prioritas alih-alih kepedulian pada etika, keadilan, dan bias.