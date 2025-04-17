Apakah model baru berbuat curang pada tolok ukur tertentu? Tolok ukur mana yang terbaik? Dan apa arti “terbaik” ketika setiap tolok ukur mengukur kinerja pada tugas yang berbeda?
Pertanyaan-pertanyaan ini membuat para pakar seperti Senior Research Scientist IBM®Marina Danilevsky mendekati evaluasi model dengan hati-hati. “Berkinerja baik pada tolok ukur hanyalah itu—berkinerja baik pada tolok ukur itu,” katanya kepada IBM® Think. Transparansi adalah kuncinya, katanya. "Kita perlu mengakui banyak hal yang tidak diuji oleh tolok ukur tertentu, sehingga tolok ukur berikutnya mengatasi beberapa lubang tersebut."
Berbeda dengan pencarian tolok ukur tunggal, semua dan akhir, solusi baru mengalihkan kendali kepada pengguna. Sebuah tim dari platform AI open-source Hugging Face baru-baru ini meluncurkan YourBench, alat sumber terbuka yang memungkinkan perusahaan dan pengembang menggunakan data mereka sendiri untuk membuat tolok ukur khusus untuk mengevaluasi kinerja model mereka. Sebagian besar tolok ukur menguji “kemampuan umum,” kata Sumuk Shashidhar, Peneliti Hugging Face dalam wawancara IBM® Think. “Untuk banyak contoh penggunaan dalam kehidupan nyata, yang paling penting adalah seberapa baik model melakukan tugas spesifik Anda,” katanya.
Untuk meningkatkan kegunaan tolok ukur untuk aplikasi kehidupan nyata, YourBench secara otomatis menghasilkan tolok ukur yang disesuaikan dengan domain secara langsung dari dokumen yang disediakan oleh pengguna, dengan harga yang murah dan tanpa harus membuat anotasi dokumen secara manual, kata Shashidhar. Secara khusus, para peneliti menunjukkan kemanjuran YourBench dengan mereplikasi tujuh subset MMLU— atau Massive Multitask Language Understanding — yang beragam dengan biaya inferensi di bawah 15 USD, sambil mempertahankan peringkat kinerja model relatif. MMLU digunakan untuk mengevaluasi seberapa baik model bahasa memahami dan menerapkan pengetahuan di berbagai mata pelajaran.
Beberapa perusahaan, seperti IBM®, telah mengembangkan generator tolok ukur khusus yang mirip dengan YourBench. “Ini mengingatkan saya pada pipeline buatan sendiri untuk membuat data sintetis untuk pelatihan atau evaluasi,” kata Danilevsky. “Membuat data sintetis itu mudah. Membuat data sintetis yang baik itu sulit,” katanya. “Jadi meskipun YourBench efektif dengan subset MMLU, itu tidak berarti menjadi pandai dalam apa pun yang saya lemparkan.”
Alternatif lain yang telah melonjak popularitasnya adalah Chatbot Arena (CA), sebuah tolok ukur urun daya. Alih-alih tes matematika atau bahasa yang ketat, Chatbot Arena memungkinkan pengguna mengajukan pertanyaan, mendapatkan jawaban dari dua model AI anonim dan menilai mana yang lebih baik.
Dimulai oleh dua mahasiswa pascasarjana University of California, Berkeley, CA sekarang mendapatkan akses awal ke model dari semua pemain AI utama sehingga penggemar dapat melawa bot satu sama lain , “menciptakan ketegangan dan evaluasi model gamifikasi,” kata Co-Founder CA Anastasios Angelopoulos dalam wawancara IBM® Think. Papan peringkat CA, seperti Billboard Hot 100 untuk model AI, telah menerima lebih dari dua juta suara hingga saat ini.
Karena mereka melacak model-model baru dengan cermat, Angelopoulos kurang terkejut daripada banyak orang ketika Deepseek-R 1 melonjak dalam popularitas. “Model sumber terbuka telah mengejar ketinggalan selama beberapa waktu, jadi DeepSeek hanya mengkonfirmasi tren itu.”
Para pendiri menciptakan Chatbot Arena sebagai tanggapan atas frustrasi dengan tolok ukur tradisional. Bagian dari tantangannya, kata Angelopoulos, adalah bahwa “tolok ukur bersifat statis—model tertentu menjadi sangat baik pada tolok ukur tertentu.” Akibatnya, ada risiko “data yang berlebihan,” katanya, di mana model mempelajari data pelatihan dengan terlalu baik. Manfaat Chatbot Arena, tambahnya, adalah datanya langsung. “Anda tidak dapat melakukan overfitting pada data. Itu tidak menjadi terkontaminasi atau basi.”
Bagi Danilevsky, “Agregat papan peringkat Chatbot Arena dengan sendirinya tidak dapat ditindaklanjuti,” katanya. "Memiliki masukan yang lebih bernuansa pada model, lebih dari sekadar jempol ke atas dan jempol ke bawah, diperlukan untuk banyak aplikasi di dunia nyata." Namun, konsepnya sangat populer, dia mengakui. “Saya hanya ingin sedikit lebih memahami bagaimana dan mengapa orang merespons seperti yang mereka lakukan terhadap model tertentu. Metadata tambahan akan sangat berguna di sini.”
Bahkan Angelopoulos percaya “penggunaan nyata mengukur sesuatu yang berbeda dari tolok ukur.” Dia menggunakan model GPT-4.5 OpenAI sebagai contoh. “Itu tidak berkinerja baik pada banyak tolok ukur kualitatif, tetapi orang-orang menyukainya. Anda memerlukan alat yang berbeda untuk mengukur getaran seorang model.”
