Apa tolok ukur LLM?

Penyusun

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Apa tolok ukur LLM?

Tolok ukur LLM adalah kerangka kerja standar untuk menilai kinerja model bahasa besar (LLM). Tolok ukur ini terdiri atas data sampel, serangkaian pertanyaan atau tugas untuk menguji LLM pada keterampilan tertentu, metrik untuk mengevaluasi kinerja, dan mekanisme penilaian.

Model dibandingkan berdasarkan kemampuan, seperti pengodean, akal sehat, dan penalaran. Kemampuan lainnya mencakup pemrosesan bahasa alami, termasuk terjemahan mesin, menjawab pertanyaan, dan meringkas teks.

Tolok ukur LLM memainkan peran penting dalam mengembangkan dan meningkatkan model. Tolok ukur menunjukkan kemajuan LLM saat belajar, dengan tolok ukur kuantitatif yang menyoroti di mana model unggul dan mana yang perlu perbaikan.

Hal ini pada gilirannya memandu proses penyempurnaan, yang membantu peneliti dan pengembang LLM memajukan bidang tersebut. Tolok ukur LLM juga menyediakan perbandingan objektif antara berbagai model, membantu memberi informasi kepada pengembang perangkat lunak dan organisasi saat mereka memilih model mana yang paling sesuai dengan kebutuhan mereka.

Cara kerja tolok ukur LLM

Tolok ukur LLM beroperasi secara langsung. Mereka menyediakan tugas yang harus diselesaikan oleh LLM, mengevaluasi kinerja model menurut metrik tertentu dan menghasilkan skor berdasarkan metrik tersebut. Berikut cara kerja setiap langkah secara rinci:

Persiapan

Tolok ukur LLM sudah menyiapkan data sampel—tantangan pengodean, dokumen besar, soal matematika, percakapan dunia nyata, pertanyaan sains. Berbagai tugas juga sudah siap, termasuk penalaran akal sehat, pemecahan masalah, menjawab pertanyaan, pembuatan ringkasan dan terjemahan. Ini semua diberikan kepada model pada awal pengujian.

Pengujian

Saat menjalankan tolok ukur, itu diperkenalkan ke model dalam salah satu dari tiga pendekatan:

  • Few-shot: Sebelum meminta LLM untuk melakukan tugas, LLM dilengkapi dengan sejumlah kecil contoh yang menunjukkan cara memenuhi tugas itu. Hal ini menunjukkan kemampuan model untuk belajar mengingat data yang sedikit.
     

  • Zero-shot: LLM diberi prompt untuk menyelesaikan tugas tanpa melihat contoh sebelumnya. Metode ini mengungkap kemampuan model untuk memahami konsep baru dan beradaptasi dengan skenario baru.
     

  • Disetel dengan baik: Sebuah model dilatih pada kumpulan data yang mirip dengan apa yang digunakan benchmark. Tujuannya adalah untuk meningkatkan penguasaan LLM terhadap tugas yang terkait dengan tolok ukur dan mengoptimalkan kinerjanya dalam tugas spesifik tersebut.

Penilaian

Setelah pengujian selesai, tolok ukur LLM menghitung seberapa dekat hasil model menyerupai solusi yang diharapkan atau jawaban standar, lalu menghasilkan skor antara 0 dan 100.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Metrik utama untuk membandingkan LLM

Tolok ukur menerapkan metrik yang berbeda untuk mengevaluasi kinerja LLM. Berikut beberapa hal yang umum:

  • Akurasi atau presisi menghitung persentase prediksi yang benar.
     

  • Recall, yang juga disebut tingkat sensitivitas, mengukur jumlah positif sebenarnya, yaitu prediksi yang benar.
     

  • Skor F1 memadukan akurasi dan ingatan menjadi satu metrik. Metrik ini menganggap kedua ukuran memiliki bobot yang sama untuk menyeimbangkan positif palsu atau negatif palsu. Skor F1 berkisar dari 0 hingga 1, dengan 1 menandakan ingatan dan presisi yang sangat baik.
     

  • Kecocokan tepat (Exact match) adalah proporsi prediksi yang dibuat oleh LLM secara tepat dan merupakan kriteria berharga untuk penerjemahan dan tanya jawab.
     

  • Perplexity mengukur seberapa baik sebuah model dalam memprediksi. Makin rendah skor perplexity LLM, makin baik kemampuannya dalam memahami suatu tugas.
     

  • Bilingual evaluation understudy (BLEU) mengevaluasi terjemahan mesin dengan menghitung pencocokan n-gram (sekuens n-simbol teks yang berdekatan) antara terjemahan yang diprediksi oleh LLM dan terjemahan yang dibuat oleh manusia.
     

  • Recall-oriented understudy for gisting evaluation (ROUGE) mengevaluasi ringkasan teks dan memiliki beberapa jenis. ROUGE-N, misalnya, melakukan perhitungan yang serupa dengan BLEU untuk ringkasan, sementara ROUGE-L menghitung urutan umum terpanjang antara ringkasan yang diprediksi dan ringkasan yang dibuat oleh manusia.

Satu atau lebih metrik kuantitatif ini biasanya digabungkan untuk penilaian yang lebih komprehensif dan kuat.

Sementara itu, evaluasi manusia melibatkan metrik kualitatif seperti koherensi, relevansi, dan makna semantik. Penilai manusia yang memeriksa dan menilai LLM dapat memberikan penilaian yang lebih bernuansa, tetapi bisa jadi membutuhkan banyak tenaga kerja, subyektif, dan memakan waktu. Oleh karena itu, keseimbangan metrik kuantitatif dan kualitatif diperlukan.

Akademi AI

Mengapa model dasar merupakan perubahan paradigma untuk AI

Pelajari tentang kelas baru model AI yang dapat digunakan kembali dan fleksibel, yang dapat membuka pendapatan baru, mengurangi biaya, dan meningkatkan produktivitas. Lalu gunakan buku panduan kami untuk mempelajari lebih dalam.

Keterbatasan tolok ukur LLM

Meskipun tolok ukur merupakan indikator kinerja LLM yang kuat, tolok ukur tersebut tidak dapat memprediksi seberapa baik suatu model akan beroperasi di dunia nyata. Berikut adalah beberapa kendala tolok ukur LLM:

Skor terbatas

Setelah model mencapai skor tertinggi untuk tolok ukur tertentu, tolok ukur tersebut perlu diperbarui dengan tugas-tugas yang lebih sulit untuk membuatnya ke tingkat yang berguna.

Kumpulan data yang luas

Karena tolok ukur LLM menggunakan data sampel yang sebagian besar berasal dari berbagai subjek dan beragam tugas, mereka mungkin bukan metrik yang cocok untuk skenario tepi, area khusus atau contoh penggunaan tertentu.

Penilaian terbatas

Tolok ukur LLM hanya dapat menguji keterampilan model saat ini. Tetapi seiring kemajuan LLM dan kemampuan baru muncul, tolok ukur baru harus dibuat.

Overfitting

Jika LLM dilatih menggunakan kumpulan data yang sama dengan tolak ukur, hal itu dapat menyebabkan overfitting, yang membuat model mungkin berkinerja baik pada data uji tetapi tidak pada data dunia nyata. Hal ini menghasilkan skor yang tidak mencerminkan kemampuan LLM sebenarnya.

Apa itu papan peringkat LLM?

Papan peringkat LLM menerbitkan peringkat LLM berdasarkan berbagai tolok ukur. Papan peringkat menyediakan cara untuk melacak banyak LLM dan membandingkan kinerjanya. Papan peringkat LLM sangat bermanfaat dalam membuat keputusan tentang model mana yang akan digunakan.

Setiap tolok ukur biasanya memiliki papan peringkatnya sendiri, tetapi papan peringkat LLM independen juga ada. Misalnya, Hugging Face memiliki koleksi papan peringkat, salah satunya adalah papan peringkat LLM terbuka yang memberi peringkat beberapa model sumber terbuka berdasarkan tolok ukur ARC, HellaSwag, MMLU, GSM8K, TruthfulQA dan Winogrande.

Tolok ukur LLM umum

Peneliti mengklasifikasikan tolok ukur LLM menurut dua aspek ini:1

  • Kriteria penilaian: Metrik evaluasi LLM dapat berupa kebenaran dasar atau preferensi manusia. Kebenaran dasar mengacu pada informasi yang diasumsikan benar, sedangkan preferensi manusia adalah pilihan yang mencerminkan penggunaan di dunia nyata.
     

  • Sumber pertanyaan: Prompt dapat berasal dari sumber statis maupun langsung. Prompt statis berisi pertanyaan-pertanyaan yang telah ditentukan sebelumnya, sementara prompt langsung adalah pertanyaan yang dibuat dalam lingkungan interaktif.

Tolok ukur dapat termasuk ke dalam satu atau beberapa kategori ini. Berikut cara kerja beberapa tolok ukur populer:

Tantangan Penalaran AI2 (ARC)

ARC mengukur kemampuan menjawab pertanyaan dan penalaran LLM melalui lebih dari 7.000 pertanyaan ilmu pengetahuan alam sekolah dasar. Pertanyaan-pertanyaan ini dibagi menjadi satu set yang mudah dan satu set tantangan. Penilaian sangat sederhana, dengan model mendapatkan satu poin untuk setiap jawaban yang benar dan 1/N poin jika model memberikan beberapa jawaban dan salah satunya benar.2

Chatbot Arena

Chatbot Arena adalah platform tolok ukur terbuka yang mengadu dua chatbot anonim satu sama lain. Pengguna melakukan percakapan dunia nyata secara acak dengan kedua chatbot di sebuah "arena", kemudian memberikan suara untuk memilih yang mana yang mereka sukai, setelah itu identitas para model terungkap. Data perbandingan berpasangan yang bersumber dari crowdsourced ini dimasukkan ke dalam metode statistik yang memperkirakan skor dan membuat perkiraan peringkat untuk berbagai LLM. Algoritma sampling juga digunakan untuk memasangkan model.1

Matematika Sekolah Dasar 8K (GSM8K)

GSM8K menguji keterampilan penalaran matematika LLM. Ini memiliki korpus 8.500 soal kata-kata matematika sekolah dasar. Solusi dikumpulkan dalam bentuk bahasa alami, bukan ekspresi matematika. Verifier AI dilatih untuk mengevaluasi solusi model.3

HellaSwag

HellaSwag adalah akronim dari "Harder Endings, Longer contexts and Low-shot Activities for Situations With Adversarial Generations" (Akhir yang Lebih Sulit, Konteks yang Lebih Panjang dan Aktivitas dengan Bidikan Rendah untuk Situasi dengan Generasi yang Berseberangan). Tolok ukur ini berpusat pada penalaran akal sehat dan inferensi bahasa alami. Model ditugaskan untuk menyelesaikan kalimat dengan memilih dari sejumlah kemungkinan akhir. Hasil akhir ini termasuk jawaban yang salah yang dibuat melalui penyaringan lawan, sebuah algoritme yang menghasilkan jawaban yang realistis namun kelihatannya salah. HellaSwag mengevaluasi akurasi untuk kategori few-shot dan zero-shot.4

HumanEval

HumanEval menilai kinerja LLM dalam hal pembuatan kode, khususnya kebenaran fungsional. Model diberikan masalah pemrograman untuk dipecahkan dan dievaluasi berdasarkan kelulusan tes unit yang sesuai. Hal ini mirip dengan pengembang perangkat lunak manusia yang menguji apakah kode mereka sudah benar berdasarkan kelulusan tes unit tertentu. Tolok ukur HumanEval menggunakan metrik evaluasinya sendiri yang disebut pass@k, yang merupakan probabilitas bahwa setidaknya salah satu solusi kode yang dihasilkan k untuk masalah pengodean lulus pengujian unit masalah itu.5

Massive Multitask Language Understanding (MMLU)

MMLU adalah tolok ukur yang menilai luasnya pengetahuan LLM, kedalaman natural language understanding dan kemampuannya untuk memecahkan masalah berdasarkan pengetahuan yang diperoleh. Kumpulan data MMLU mencakup lebih dari 15.000 pertanyaan pengetahuan umum pilihan ganda di 57 mata pelajaran. Evaluasi hanya terjadi dalam pengaturan few-shot dan zero-shot. Tolok ukur MMLU menilai akurasi model dalam setiap mata pelajaran, kemudian rata-rata angka-angka tersebut untuk mendapatkan skor akhir.6

Mostly Basic Programming Problems (MBPP)

MBPP, juga dikenal sebagai Masalah Python Dasar, adalah tolok ukur pembuatan kode lainnya. Ini memiliki kumpulan lebih dari 900 tugas pengodean. Mirip dengan HumanEval, ini menilai kebenaran fungsional berdasarkan kelulusan serangkaian kasus uji. Evaluasi terjadi dalam pengaturan few-shot dan disetel dengan baik. MBPP menggunakan dua metrik: persentase masalah yang diselesaikan oleh sampel dari model dan persentase sampel yang menyelesaikan tugas masing-masing.7

MT-Bench

Para peneliti di balik Chatbot Arena juga menciptakan MT-Bench, yang dirancang untuk menguji seberapa baik LLM dapat terlibat dalam dialog dan mengikuti instruksi. Kumpulan data terdiri dari pertanyaan multi-turn terbuka, dengan 10 pertanyaan masing-masing di delapan bidang: pengodean, ekstraksi, pengetahuan I (STEM), pengetahuan II (humaniora dan ilmu sosial), matematika, penalaran, permainan peran, dan penulisan. MT-Bench menggunakan GPT-4 LLM untuk mengevaluasi tanggapan dari LLM lainnya.8

SWE-bench

Seperti HumanEval, SWE-bench menguji keterampilan pembuatan kode LLM, dengan fokus pada penyelesaian masalah. Model ditugaskan untuk memperbaiki bug atau menangani permintaan fitur dalam basis kode tertentu. Metrik penilaian tolok ukur adalah persentase instance tugas yang diselesaikan.9

TruthfulQA

Model bahasa besar memiliki kecenderungan untuk berhalusinasi, sehingga memberikan hasil yang tidak akurat. Tolok ukur TruthfulQA bertujuan untuk mengatasi hal ini dengan mengukur kemampuan LLM untuk menghasilkan jawaban yang benar atas pertanyaan. Kumpulan datanya berisi lebih dari 800 pertanyaan yang mencakup 38 topik. TruthfulQA menggabungkan evaluasi manusia dengan GPT-3 LLM yang disempurnakan menggunakan metrik BLEU dan ROUGE untuk memprediksi penilaian manusia tentang pengetahuan dan akurasinya.10

Winogrande

Winogrande mengevaluasi kemampuan penalaran akal sehat LLM. Ini dibangun di atas tolok ukur Winograd Schema Challenge (WSC) asli, dengan kumpulan data besar 44.000 masalah crowdsourcing yang juga menggunakan pemfilteran adversarial. Penilaian didasarkan pada akurasi.11

Solusi terkait
Model dasar

Jelajahi pustaka model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda keahlian AI terdepan di industri dan portofolio solusi dari IBM.

Jelajahi solusi AI
Konsultasi dan layanan AI

Rancang ulang alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Jelajahi perpustakaan model dasar IBM dalam portofolio IBM watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan penuh percaya diri.

Jelajahi watsonx.ai Jelajahi solusi AI