Bayangkan suatu perusahaan mempekerjakan karyawan baru. Resume karyawan tersebut sangat bagus dan dia menyelesaikan semua tugasnya dengan cepat dan efisien. Secara teknis, dia dapat menyelesaikan tugasnya; tetapi, apakah pekerjaannya dilakukan dengan baik? Apakah hasilnya berkualitas tinggi, akurat, dan dapat diandalkan?
Seperti halnya karyawan baru, manajer meluangkan waktu untuk meninjau pekerjaan karyawan tersebut guna memastikan pekerjaan itu memenuhi standar perusahaan dan berkinerja baik. Karena kecerdasan buatan (AI) memainkan peran yang lebih besar dalam hasil dan keputusan bisnis, perusahaan perlu melakukan hal yang sama untuk LLM.
Model bahasa besar (LLM) adalah model dasar yang dilatih menggunakan sejumlah besar data dan digunakan untuk tugas-tugas yang berhubungan dengan proses memahami dan menghasilkan teks. Misalnya, jenis sistem AI ini sangat berguna untuk pekerjaan seperti pembuatan konten, peringkasan, dan analisis sentimen.
LLM merevolusi bidang pemrosesan bahasa alami (NLP) dan menghadirkan AI generatif ke hadapan publik dengan cara-cara baru. Chat GPT-3 dan GPT-4 dari OpenAI, bersama dengan Llama dari Meta, adalah contoh yang paling terkenal, tetapi berbagai macam LLM digunakan di berbagai domain. LLM mendukung alat bantu AI seperti chatbot, asisten virtual, alat bantu penerjemahan bahasa, dan sistem pembuatan kode.
Karena aplikasi LLM diadopsi secara lebih luas, terutama untuk digunakan dalam industri berisiko tinggi seperti layanan kesehatan dan keuangan, pengujian hasilnya menjadi makin penting. Di situlah evaluasi LLM berperan.
Evaluasi LLM adalah proses penilaian kinerja dan kemampuan model bahasa besar. Terkadang disingkat sebagai “eval LLM”, proses ini memerlukan pengujian berbagai model tersebut di beragam tugas, kumpulan data, dan metrik guna mengukur efektivitasnya.
Metode evaluasi dapat menggunakan tolok ukur otomatis dan penilaian yang dipimpin manusia untuk menemukan kekuatan dan kelemahan LLM. Proses ini melibatkan perbandingan hasil model dengan data kebenaran dasar atau ground truth (informasi yang diasumsikan benar) atau respons yang dihasilkan manusia untuk menentukan akurasi, koherensi, dan keandalan model. Hasil evaluasi LLM membantu peneliti dan pengembang mengidentifikasi area yang perlu ditingkatkan. Proses evaluasi juga merupakan komponen utama dari operasi model bahasa besar, atau LLMOPS, yang melibatkan manajemen operasional LLM.
Karena LLM memiliki peran lebih besar dalam kehidupan sehari-hari, mengevaluasi LLM membantu memastikan bahwa LLM beroperasi sebagaimana mestinya. Di luar kebutuhan teknis, evaluasi LLM juga membantu membangun kepercayaan di antara pengguna dan pemangku kepentingan.
Evaluasi LLM dapat membantu menangani:
Evaluasi LLM menunjukkan apakah model bekerja sesuai harapan dan memberikan hasil berkualitas tinggi di seluruh tugas dan domainnya. Di luar fungsi dasar, evaluasi dapat mengungkapkan nuansa pemahaman bahasa, kualitas hasil, dan kemahiran khusus tugas. Evaluasi ini juga dapat menemukan potensi kelemahan, seperti kesenjangan pengetahuan atau inkonsistensi dalam penalaran, yang memungkinkan para peneliti dan pengembang untuk menargetkan perbaikan dengan lebih baik.
Saat dikembangkan, LLM dipengaruhi oleh bias manusia, terutama melalui data pelatihan. Evaluasi adalah salah satu cara untuk mengidentifikasi dan mengurangi potensi prasangka atau ketidakakuratan dalam respons model. Fokus pada etika AI membantu melindungi terhadap teknologi yang melanggengkan ketidaksetaraan sosial dan mendukung hasil faktual.
Evaluasi LLM memungkinkan kita membandingkan kinerja berbagai model dan memilih yang terbaik untuk contoh penggunaan spesifik. Ini adalah cara standar untuk membandingkan hasil dari metrik kinerja mentah dengan faktor-faktor seperti efisiensi komputasi dan skalabilitas.
Insight yang diperoleh dari evaluasi LLM dapat memandu pengembangan model baru. Ini membantu peneliti menemukan cara untuk membuat teknik pelatihan, desain model, atau kemampuan khusus yang baru.
Evaluasi LLM mendukung transparansi dalam pengembangan dan membangun kepercayaan terhadap hasil. Akibatnya, organisasi terbantu dalam menetapkan harapan yang realistis dan menumbuhkan kepercayaan pada alat AI.
Meskipun terkait erat, evaluasi LLM dan evaluasi sistem LLM memiliki fokus yang berbeda.
Evaluasi LLM (yang dapat juga disebut evaluasi model LLM) menilai seberapa baik kinerja model. Jenis ini melihat model bahasa inti itu sendiri, dengan memfokuskan kemampuannya untuk memahami dan menghasilkan teks di berbagai tugas dan domain. Evaluasi model biasanya mencakup pengujian kemampuan mentah model. Kemampuan ini meliputi pemahaman akan bahasa, kualitas hasil yang diberikannya, dan kinerja terkait tugas-tugas tertentu.
Evaluasi sistem LLM lebih komprehensif dan memberikan insight tentang kinerja menyeluruh dari aplikasi yang didukung LLM. Evaluasi sistem melihat seluruh ekosistem yang dibangun di sekitar LLM. Upaya ini mencakup skalabilitas, keamanan, dan integrasi dengan komponen lain, seperti API atau database.
Singkatnya, evaluasi model berfokus memastikan LLM bekerja untuk tugas-tugas tertentu, sementara evaluasi sistem adalah pandangan yang lebih holistik terhadap penggunaan dan efektivitas LLM secara keseluruhan. Keduanya penting untuk mengembangkan aplikasi LLM yang kuat dan efektif.
Langkah pertama dalam evaluasi LLM adalah menentukan kriteria evaluasi keseluruhan berdasarkan tujuan penggunaan model. Ada banyak metrik yang digunakan untuk evaluasi, tetapi beberapa metrik yang paling umum meliputi:
Menghitung persentase respons yang benar dalam tugas seperti klasifikasi atau menjawab pertanyaan.
Mengukur jumlah aktual positif yang benar, atau prediksi yang tepat, dibandingkan dengan yang salah dalam respons LLM.
Memadukan akurasi dan perolehan ke dalam satu metrik. Skor F1 berkisar 0—1, dengan 1 menandakan perolehan dan presisi yang sangat baik.
Menilai alur logis dan konsistensi teks yang dihasilkan.
Mengukur seberapa baik model memprediksi serangkaian kata atau contoh teks. Makin konsisten model memprediksi hasil yang benar, makin rendah skor perpleksitas.
Menilai kualitas teks yang dihasilkan mesin, terutama dalam tugas terjemahan.
Mengevaluasi kualitas ringkasan teks dengan membandingkannya dengan teks buatan manusia.
Mengukur efisiensi dan kecepatan model secara keseluruhan.
Mengukur keberadaan konten berbahaya atau menyinggung dalam hasil model.
Evaluator LLM menetapkan kriteria evaluasi yang jelas dan kemudian memilih kerangka kerja evaluasi yang menawarkan metodologi komprehensif untuk menilai kinerja model. Misalnya, kerangka kerja Evaluasi Model Dasar (Foundation Model Evaluation, FM-Eval) dari IBM digunakan untuk memvalidasi dan mengevaluasi LLM baru dengan cara yang sistematis, dapat direproduksi, dan konsisten.
Dalam kerangka kerja evaluasi terdapat tolok ukur LLM, yang merupakan kumpulan data standar atau tugas yang digunakan untuk menganalisis hasil dan memandu proses evaluasi. Sementara kerangka kerja menentukan cara mengevaluasi LLM, tolok ukur menentukan hal yang harus dievaluasi, atau dengan kata lain, tugas dan data spesifik.
Tolok ukur LLM terdiri dari kumpulan data contoh, tugas, dan templat prompt untuk menguji LLM terkait keterampilan tertentu, seperti menjawab pertanyaan, terjemahan mesin, peringkasan, dan analisis sentimen. Tolok ukur ini juga mencakup metrik untuk mengevaluasi kinerja dan mekanisme penilaian. Kriteria penilaian ini dapat didasarkan pada kebenaran dasar atau preferensi manusia.
Dengan mengevaluasi LLM berdasarkan tolok ukur ini, pengembang dapat membandingkan kinerja berbagai macam model dan melacak kemajuan dari waktu ke waktu. Beberapa contoh tolok ukur LLM yang banyak digunakan meliputi:
Tolok ukur yang dipilih kemudian diperkenalkan ke LLM melalui pengujian zero-shot, few-shot, dan fine-tuning untuk melihat seberapa baik model tersebut beroperasi. Dengan pengujian few-shot, LLM dievaluasi berdasarkan kemampuannya untuk bekerja menggunakan data terbatas setelah menerima sejumlah kecil contoh berlabel yang menunjukkan cara melaksanakan tugas. Pengujian zero-shot meminta LLM untuk menyelesaikan tugas tanpa contoh apa pun, yang menguji bagaimana tugas tersebut beradaptasi dengan keadaan baru. Terakhir, fine-tuning melatih model menggunakan kumpulan data yang mirip dengan yang digunakan tolok ukur untuk meningkatkan perintah LLM untuk tugas tertentu.
Hasil evaluasi LLM dapat digunakan untuk menyempurnakan dan melakukan iterasi model dengan menyesuaikan parameter, menyempurnakan, atau bahkan melatih ulang menggunakan data baru.
Ketika mengevaluasi hasil model, para pengembang dan peneliti menggunakan dua pendekatan: evaluasi LLM sebagai juri (LLM-as-a-judge) dan keterlibatan manusia (human-in-the-loop).
Dalam evaluasi LLM-as-a-judge, LLM sendiri digunakan untuk mengevaluasi kualitas hasilnya sendiri. Sebagai contoh, ini mungkin termasuk membandingkan teks yang dihasilkan oleh model dengan kumpulan data kebenaran dasar, atau menggunakan metrik seperti perpleksitas atau F1 untuk mengukur hasil.
Untuk pendekatan human-in-the-loop, evaluator manusia mengukur kualitas hasil LLM. Jenis evaluasi ini dapat berguna untuk penilaian yang lebih bernuansa, seperti koherensi, relevansi, dan pengalaman pengguna, yang sulit ditangkap melalui metrik otomatis saja.
Evaluasi LLM memiliki banyak contoh penggunaan praktis. Beberapa contohnya antara lain:
Dalam Generasi dengan dukungan pengambilan data (retrieval-augmented generation, RAG), evaluasi LLM dapat membantu menguji kualitas jawaban yang dihasilkan oleh model. Peneliti dapat menggunakan kumpulan data seperti SQuAD (Stanford Question Answering Dataset) atau TruthfulQA untuk memeriksa akurasi sistem penjawab pertanyaan yang didukung oleh LLM dengan membandingkan jawaban model dengan jawaban dari kebenaran dasar.
Dengan menggunakan metrik seperti BLEU dan evaluasi manusia, para peneliti dapat menguji kualitas respons teks yang dihasilkan chatbot atau sistem penerjemahan mesin. Ini membantu memastikan bahwa teks yang dihasilkan fasih, koheren, dan sesuai dengan konteks.
Dengan menggunakan kumpulan data dan metrik khusus, peneliti dapat mengevaluasi keberadaan bias dan konten toksik dalam teks yang dihasilkan LLM. Misalnya, kumpulan data ToxiGen dapat digunakan untuk menilai toksisitas hasil model, yang dapat menghasilkan aplikasi yang lebih aman dan lebih inklusif.
Peneliti dapat menggunakan kumpulan data tolok ukur seperti GLUE atau SuperGlue untuk membandingkan kinerja berbagai LLM di beragam tugas NLP, seperti analisis sentimen atau pengenalan entitas bernama.
Dalam contoh penggunaan ini dan lainnya, evaluasi LLM dapat menghasilkan manfaat penting bagi bisnis. Dengan mengidentifikasi area yang memerlukan perbaikan dan peluang untuk mengatasi kelemahan, evaluasi LLM dapat memberikan pengalaman pengguna yang lebih baik, risiko yang lebih rendah, dan potensi keunggulan kompetitif.
Di balik semua manfaatnya, evaluasi LLM juga menghadapi sejumlah tantangan dan keterbatasan. Laju pengembangan LLM yang cepat menyulitkan penetapan tolok ukur yang terstandarisasi dan tahan lama. Mengevaluasi pemahaman kontekstual adalah hal menantang, seperti halnya mendeteksi nuansa bias yang lebih halus.
Keterjelasan juga menjadi masalah: LLM sering dianggap sebagai "kotak hitam", yang membuatnya sulit untuk menafsirkan proses pengambilan keputusan untuk tujuan evaluasi dan untuk mengidentifikasi faktor yang berkontribusi pada hasil.
Selain itu, banyak kumpulan data evaluasi tidak mewakili berbagai bahasa atau budaya. Akibatnya, model yang diuji dengan kumpulan data ini mungkin berkinerja baik pada tolok ukur tertentu, tetapi tetap saja gagal dalam skenario dunia nyata.
Karena LLM dan aplikasi machine learning kompleks lainnya terus dikembangkan dan diterapkan dengan cara baru, mengatasi tantangan tersebut untuk memastikan evaluasi yang kuat akan berperan penting dalam membantu evaluator dan pengembang meningkatkan efektivitas, keselamatan, dan penggunaan LLM yang beretika.
Kelola aktivitas AI organisasi Anda dan akses kemampuan tata kelola, risiko, dan kepatuhan yang canggih.
IBM Consulting bekerja sama dengan klien untuk menciptakan strategi AI yang bertanggung jawab dan transparan dengan dukungan kerangka kerja tata kelola organisasi.
Perluas penggunaan kecerdasan buatan dalam bisnis Anda dengan keyakinan yang lebih besar dan hasil yang lebih memuaskan.