Evaluasi LLM: Mengapa pengujian model AI penting

30 Oktober 2024

Penyusun

Amanda McGrath

Writer, IBM

Alexandra Jonker

Editorial Content Lead

Bayangkan suatu perusahaan mempekerjakan karyawan baru. Resume karyawan tersebut sangat bagus dan dia menyelesaikan semua tugasnya dengan cepat dan efisien. Secara teknis, dia dapat menyelesaikan tugasnya; tetapi, apakah pekerjaannya dilakukan dengan baik? Apakah hasilnya berkualitas tinggi, akurat, dan dapat diandalkan?

Seperti halnya karyawan baru, manajer meluangkan waktu untuk meninjau pekerjaan karyawan tersebut guna memastikan pekerjaan itu memenuhi standar perusahaan dan berkinerja baik. Karena kecerdasan buatan (AI) memainkan peran yang lebih besar dalam hasil dan keputusan bisnis, perusahaan perlu melakukan hal yang sama untuk LLM.

Model bahasa besar (LLM) adalah model dasar yang dilatih menggunakan sejumlah besar data dan digunakan untuk tugas-tugas yang berhubungan dengan proses memahami dan menghasilkan teks. Misalnya, jenis sistem AI ini sangat berguna untuk pekerjaan seperti pembuatan konten, peringkasan, dan analisis sentimen.

LLM merevolusi bidang pemrosesan bahasa alami (NLP) dan menghadirkan AI generatif ke hadapan publik dengan cara-cara baru. Chat GPT-3 dan GPT-4 dari OpenAI, bersama dengan Llama dari Meta, adalah contoh yang paling terkenal, tetapi berbagai macam LLM digunakan di berbagai domain. LLM mendukung alat bantu AI seperti chatbot, asisten virtual, alat bantu penerjemahan bahasa, dan sistem pembuatan kode.

Karena aplikasi LLM diadopsi secara lebih luas, terutama untuk digunakan dalam industri berisiko tinggi seperti layanan kesehatan dan keuangan, pengujian hasilnya menjadi makin penting. Di situlah evaluasi LLM berperan.

Apa yang dimaksud dengan evaluasi LLM?

Evaluasi LLM adalah proses penilaian kinerja dan kemampuan model bahasa besar. Terkadang disingkat sebagai “eval LLM”, proses ini memerlukan pengujian berbagai model tersebut di beragam tugas, kumpulan data, dan metrik guna mengukur efektivitasnya.

Metode evaluasi dapat menggunakan tolok ukur otomatis dan penilaian yang dipimpin manusia untuk menemukan kekuatan dan kelemahan LLM. Proses ini melibatkan perbandingan hasil model dengan data kebenaran dasar atau ground truth (informasi yang diasumsikan benar) atau respons yang dihasilkan manusia untuk menentukan akurasi, koherensi, dan keandalan model. Hasil evaluasi LLM membantu peneliti dan pengembang mengidentifikasi area yang perlu ditingkatkan. Proses evaluasi juga merupakan komponen utama dari operasi model bahasa besar, atau LLMOPS, yang melibatkan manajemen operasional LLM.

Mengapa evaluasi LLM penting?

Karena LLM memiliki peran lebih besar dalam kehidupan sehari-hari, mengevaluasi LLM membantu memastikan bahwa LLM beroperasi sebagaimana mestinya. Di luar kebutuhan teknis, evaluasi LLM juga membantu membangun kepercayaan di antara pengguna dan pemangku kepentingan.

Evaluasi LLM dapat membantu menangani:

  • Kinerja model
  • Pertimbangan etis
  • Pembandingan komparatif
  • Pengembangan model baru
  • Kepercayaan pengguna dan pemangku kepentingan

Kinerja model

Evaluasi LLM menunjukkan apakah model bekerja sesuai harapan dan memberikan hasil berkualitas tinggi di seluruh tugas dan domainnya. Di luar fungsi dasar, evaluasi dapat mengungkapkan nuansa pemahaman bahasa, kualitas hasil, dan kemahiran khusus tugas. Evaluasi ini juga dapat menemukan potensi kelemahan, seperti kesenjangan pengetahuan atau inkonsistensi dalam penalaran, yang memungkinkan para peneliti dan pengembang untuk menargetkan perbaikan dengan lebih baik.

Pertimbangan etis

Saat dikembangkan, LLM dipengaruhi oleh bias manusia, terutama melalui data pelatihan. Evaluasi adalah salah satu cara untuk mengidentifikasi dan mengurangi potensi prasangka atau ketidakakuratan dalam respons model. Fokus pada etika AI membantu melindungi terhadap teknologi yang melanggengkan ketidaksetaraan sosial dan mendukung hasil faktual.

Pembandingan komparatif

Evaluasi LLM memungkinkan kita membandingkan kinerja berbagai model dan memilih yang terbaik untuk contoh penggunaan spesifik. Ini adalah cara standar untuk membandingkan hasil dari metrik kinerja mentah dengan faktor-faktor seperti efisiensi komputasi dan skalabilitas.

Pengembangan model baru

Insight yang diperoleh dari evaluasi LLM dapat memandu pengembangan model baru. Ini membantu peneliti menemukan cara untuk membuat teknik pelatihan, desain model, atau kemampuan khusus yang baru.

Kepercayaan pengguna dan pemangku kepentingan

Evaluasi LLM mendukung transparansi dalam pengembangan dan membangun kepercayaan terhadap hasil. Akibatnya, organisasi terbantu dalam menetapkan harapan yang realistis dan menumbuhkan kepercayaan pada alat AI.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Insight dan berita yang dikurasi oleh para ahli tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Evaluasi model LLM vs. evaluasi sistem LLM

Meskipun terkait erat, evaluasi LLM dan evaluasi sistem LLM memiliki fokus yang berbeda.

Evaluasi LLM (yang dapat juga disebut evaluasi model LLM) menilai seberapa baik kinerja model. Jenis ini melihat model bahasa inti itu sendiri, dengan memfokuskan kemampuannya untuk memahami dan menghasilkan teks di berbagai tugas dan domain. Evaluasi model biasanya mencakup pengujian kemampuan mentah model. Kemampuan ini meliputi pemahaman akan bahasa, kualitas hasil yang diberikannya, dan kinerja terkait tugas-tugas tertentu.

Evaluasi sistem LLM lebih komprehensif dan memberikan insight tentang kinerja menyeluruh dari aplikasi yang didukung LLM. Evaluasi sistem melihat seluruh ekosistem yang dibangun di sekitar LLM. Upaya ini mencakup skalabilitas, keamanan, dan integrasi dengan komponen lain, seperti API atau database.

Singkatnya, evaluasi model berfokus memastikan LLM bekerja untuk tugas-tugas tertentu, sementara evaluasi sistem adalah pandangan yang lebih holistik terhadap penggunaan dan efektivitas LLM secara keseluruhan. Keduanya penting untuk mengembangkan aplikasi LLM yang kuat dan efektif.

Metrik evaluasi LLM

Langkah pertama dalam evaluasi LLM adalah menentukan kriteria evaluasi keseluruhan berdasarkan tujuan penggunaan model. Ada banyak metrik yang digunakan untuk evaluasi, tetapi beberapa metrik yang paling umum meliputi:

  • Akurasi
  • Perolehan
  • Skor F1
  • Koherensi
  • Perpleksitas
  • BLEU
  • ROUGE
  • Latensi
  • Toksisitas

Akurasi

Menghitung persentase respons yang benar dalam tugas seperti klasifikasi atau menjawab pertanyaan.

Perolehan

Mengukur jumlah aktual positif yang benar, atau prediksi yang tepat, dibandingkan dengan yang salah dalam respons LLM.

Skor F1

Memadukan akurasi dan perolehan ke dalam satu metrik. Skor F1 berkisar 0—1, dengan 1 menandakan perolehan dan presisi yang sangat baik.

Koherensi

Menilai alur logis dan konsistensi teks yang dihasilkan.

Perpleksitas

Mengukur seberapa baik model memprediksi serangkaian kata atau contoh teks. Makin konsisten model memprediksi hasil yang benar, makin rendah skor perpleksitas.

BLEU (Bilingual Evaluation Understudy)

Menilai kualitas teks yang dihasilkan mesin, terutama dalam tugas terjemahan.

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

Mengevaluasi kualitas ringkasan teks dengan membandingkannya dengan teks buatan manusia.

Latensi

Mengukur efisiensi dan kecepatan model secara keseluruhan.

Toksisitas

Mengukur keberadaan konten berbahaya atau menyinggung dalam hasil model.

Menerapkan kerangka kerja dan tolok ukur evaluasi LLM

Evaluator LLM menetapkan kriteria evaluasi yang jelas dan kemudian memilih kerangka kerja evaluasi yang menawarkan metodologi komprehensif untuk menilai kinerja model. Misalnya, kerangka kerja Evaluasi Model Dasar (Foundation Model Evaluation, FM-Eval) dari IBM digunakan untuk memvalidasi dan mengevaluasi LLM baru dengan cara yang sistematis, dapat direproduksi, dan konsisten.

Dalam kerangka kerja evaluasi terdapat tolok ukur LLM, yang merupakan kumpulan data standar atau tugas yang digunakan untuk menganalisis hasil dan memandu proses evaluasi. Sementara kerangka kerja menentukan cara mengevaluasi LLM, tolok ukur menentukan hal yang harus dievaluasi, atau dengan kata lain, tugas dan data spesifik.

Tolok ukur LLM terdiri dari kumpulan data contoh, tugas, dan templat prompt untuk menguji LLM terkait keterampilan tertentu, seperti menjawab pertanyaan, terjemahan mesin, peringkasan, dan analisis sentimen. Tolok ukur ini juga mencakup metrik untuk mengevaluasi kinerja dan mekanisme penilaian. Kriteria penilaian ini dapat didasarkan pada kebenaran dasar atau preferensi manusia.

Dengan mengevaluasi LLM berdasarkan tolok ukur ini, pengembang dapat membandingkan kinerja berbagai macam model dan melacak kemajuan dari waktu ke waktu. Beberapa contoh tolok ukur LLM yang banyak digunakan meliputi:

  • Kumpulan data MMLU (Massive Multitask Language Understanding), yang terdiri dari sekumpulan pertanyaan pilihan ganda yang mencakup berbagai domain.
  • HumanEval, yang menilai kinerja LLM dalam hal pembuatan kode, terutama kebenaran fungsional.
  • TruthfulQA, yang menangani masalah halusinasi dengan mengukur kemampuan LLM untuk menghasilkan jawaban yang jujur atas pertanyaan.
  • General Language Understanding Evaluation (GLUE), dan SuperGLUE, yang menguji kinerja model pemrosesan bahasa alami (NLP), terutama yang dirancang untuk tugas-tugas pemahaman bahasa.
  • Perpustakaan kumpulan data Hugging Face, yang menyediakan akses sumber terbuka ke berbagai kumpulan data evaluasi.

Tolok ukur yang dipilih kemudian diperkenalkan ke LLM melalui pengujian zero-shot, few-shot, dan fine-tuning untuk melihat seberapa baik model tersebut beroperasi. Dengan pengujian few-shot, LLM dievaluasi berdasarkan kemampuannya untuk bekerja menggunakan data terbatas setelah menerima sejumlah kecil contoh berlabel yang menunjukkan cara melaksanakan tugas. Pengujian zero-shot meminta LLM untuk menyelesaikan tugas tanpa contoh apa pun, yang menguji bagaimana tugas tersebut beradaptasi dengan keadaan baru. Terakhir, fine-tuning melatih model menggunakan kumpulan data yang mirip dengan yang digunakan tolok ukur untuk meningkatkan perintah LLM untuk tugas tertentu.

Hasil evaluasi LLM dapat digunakan untuk menyempurnakan dan melakukan iterasi model dengan menyesuaikan parameter, menyempurnakan, atau bahkan melatih ulang menggunakan data baru.

LLM-as-a-judge vs. human-in-the-loop

Ketika mengevaluasi hasil model, para pengembang dan peneliti menggunakan dua pendekatan: evaluasi LLM sebagai juri (LLM-as-a-judge) dan keterlibatan manusia (human-in-the-loop).

Dalam evaluasi LLM-as-a-judge, LLM sendiri digunakan untuk mengevaluasi kualitas hasilnya sendiri. Sebagai contoh, ini mungkin termasuk membandingkan teks yang dihasilkan oleh model dengan kumpulan data kebenaran dasar, atau menggunakan metrik seperti perpleksitas atau F1 untuk mengukur hasil.

Untuk pendekatan human-in-the-loop, evaluator manusia mengukur kualitas hasil LLM. Jenis evaluasi ini dapat berguna untuk penilaian yang lebih bernuansa, seperti koherensi, relevansi, dan pengalaman pengguna, yang sulit ditangkap melalui metrik otomatis saja.

Contoh penggunaan evaluasi LLM

Evaluasi LLM memiliki banyak contoh penggunaan praktis. Beberapa contohnya antara lain:

Mengevaluasi keakuratan sistem penjawab pertanyaan

Dalam Generasi dengan dukungan pengambilan data (retrieval-augmented generation, RAG), evaluasi LLM dapat membantu menguji kualitas jawaban yang dihasilkan oleh model. Peneliti dapat menggunakan kumpulan data seperti SQuAD (Stanford Question Answering Dataset) atau TruthfulQA untuk memeriksa akurasi sistem penjawab pertanyaan yang didukung oleh LLM dengan membandingkan jawaban model dengan jawaban dari kebenaran dasar.

Menilai kefasihan dan koherensi teks yang dihasilkan

Dengan menggunakan metrik seperti BLEU dan evaluasi manusia, para peneliti dapat menguji kualitas respons teks yang dihasilkan chatbot atau sistem penerjemahan mesin. Ini membantu memastikan bahwa teks yang dihasilkan fasih, koheren, dan sesuai dengan konteks.

Mendeteksi bias dan toksisitas

Dengan menggunakan kumpulan data dan metrik khusus, peneliti dapat mengevaluasi keberadaan bias dan konten toksik dalam teks yang dihasilkan LLM. Misalnya, kumpulan data ToxiGen dapat digunakan untuk menilai toksisitas hasil model, yang dapat menghasilkan aplikasi yang lebih aman dan lebih inklusif.

Membandingkan kinerja berbagai LLM

Peneliti dapat menggunakan kumpulan data tolok ukur seperti GLUE atau SuperGlue untuk membandingkan kinerja berbagai LLM di beragam tugas NLP, seperti analisis sentimen atau pengenalan entitas bernama.

Dalam contoh penggunaan ini dan lainnya, evaluasi LLM dapat menghasilkan manfaat penting bagi bisnis. Dengan mengidentifikasi area yang memerlukan perbaikan dan peluang untuk mengatasi kelemahan, evaluasi LLM dapat memberikan pengalaman pengguna yang lebih baik, risiko yang lebih rendah, dan potensi keunggulan kompetitif.

Tantangan evaluasi LLM

Di balik semua manfaatnya, evaluasi LLM juga menghadapi sejumlah tantangan dan keterbatasan. Laju pengembangan LLM yang cepat menyulitkan penetapan tolok ukur yang terstandarisasi dan tahan lama. Mengevaluasi pemahaman kontekstual adalah hal menantang, seperti halnya mendeteksi nuansa bias yang lebih halus.

Keterjelasan juga menjadi masalah: LLM sering dianggap sebagai "kotak hitam", yang membuatnya sulit untuk menafsirkan proses pengambilan keputusan untuk tujuan evaluasi dan untuk mengidentifikasi faktor yang berkontribusi pada hasil.

Selain itu, banyak kumpulan data evaluasi tidak mewakili berbagai bahasa atau budaya. Akibatnya, model yang diuji dengan kumpulan data ini mungkin berkinerja baik pada tolok ukur tertentu, tetapi tetap saja gagal dalam skenario dunia nyata.

Karena LLM dan aplikasi machine learning kompleks lainnya terus dikembangkan dan diterapkan dengan cara baru, mengatasi tantangan tersebut untuk memastikan evaluasi yang kuat akan berperan penting dalam membantu evaluator dan pengembang meningkatkan efektivitas, keselamatan, dan penggunaan LLM yang beretika.

Solusi terkait IBM watsonx.governance™

Kelola aktivitas AI organisasi Anda dan akses kemampuan tata kelola, risiko, dan kepatuhan yang canggih.

Layanan IBM AI Governance

IBM Consulting bekerja sama dengan klien untuk menciptakan strategi AI yang bertanggung jawab dan transparan dengan dukungan kerangka kerja tata kelola organisasi.

Solusi IBM AI

Perluas penggunaan kecerdasan buatan dalam bisnis Anda dengan keyakinan yang lebih besar dan hasil yang lebih memuaskan.

Sumber daya

Apa yang dimaksud dengan tata kelola AI?
Topik terkait

Jelajahi topiknya

Apa yang dimaksud dengan manajemen risiko AI?
Blog

Baca blog

Apa itu etika AI?
Topik terkait

Jelajahi topiknya

Apa yang dimaksud dengan LLMOps?
Topik terkait

Jelajahi topiknya

Ambil langkah selanjutnya

Mempercepat alur kerja AI yang bertanggung jawab, transparan, dan dapat dijelaskan di seluruh siklus proses untuk model machine learning dan model generatif. Mengarahkan, mengelola, dan memantau aktivitas AI organisasi Anda untuk mengelola peraturan AI yang berkembang dengan lebih baik serta mendeteksi dan memitigasi risiko.

Jelajahi watsonx.governance Pesan demo langsung