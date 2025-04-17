Apakah model baru berbuat curang pada tolok ukur tertentu? Tolok ukur mana yang terbaik? Dan apa arti “terbaik” ketika setiap tolok ukur mengukur kinerja pada tugas yang berbeda?

Pertanyaan-pertanyaan ini membuat para pakar seperti Senior Research Scientist IBM®Marina Danilevsky mendekati evaluasi model dengan hati-hati. “Berkinerja baik pada tolok ukur hanyalah itu—berkinerja baik pada tolok ukur itu,” katanya kepada IBM® Think. Transparansi adalah kuncinya, katanya. "Kita perlu mengakui banyak hal yang tidak diuji oleh tolok ukur tertentu, sehingga tolok ukur berikutnya mengatasi beberapa lubang tersebut."

Berbeda dengan pencarian tolok ukur tunggal, semua dan akhir, solusi baru mengalihkan kendali kepada pengguna. Sebuah tim dari platform AI open-source Hugging Face baru-baru ini meluncurkan YourBench, alat sumber terbuka yang memungkinkan perusahaan dan pengembang menggunakan data mereka sendiri untuk membuat tolok ukur khusus untuk mengevaluasi kinerja model mereka. Sebagian besar tolok ukur menguji “kemampuan umum,” kata Sumuk Shashidhar, Peneliti Hugging Face dalam wawancara IBM® Think. “Untuk banyak contoh penggunaan dalam kehidupan nyata, yang paling penting adalah seberapa baik model melakukan tugas spesifik Anda,” katanya.

Untuk meningkatkan kegunaan tolok ukur untuk aplikasi kehidupan nyata, YourBench secara otomatis menghasilkan tolok ukur yang disesuaikan dengan domain secara langsung dari dokumen yang disediakan oleh pengguna, dengan harga yang murah dan tanpa harus membuat anotasi dokumen secara manual, kata Shashidhar. Secara khusus, para peneliti menunjukkan kemanjuran YourBench dengan mereplikasi tujuh subset MMLU— atau Massive Multitask Language Understanding — yang beragam dengan biaya inferensi di bawah 15 USD, sambil mempertahankan peringkat kinerja model relatif. MMLU digunakan untuk mengevaluasi seberapa baik model bahasa memahami dan menerapkan pengetahuan di berbagai mata pelajaran.