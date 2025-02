HellaSwag adalah akronim dari “Harder Endings, Longer contexts and Low-shot Activities for Situations With Adversarial Generations”. Tolok ukur ini berpusat pada penalaran akal sehat dan inferensi bahasa alami. Model ditugaskan untuk menyelesaikan kalimat dengan memilih dari sejumlah kemungkinan akhir. Hasil akhir ini termasuk jawaban yang salah yang dibuat melalui penyaringan lawan, sebuah algoritme yang menghasilkan jawaban yang realistis namun kelihatannya salah. HellaSwag mengevaluasi akurasi untuk kategori few-shot dan zero-shot.4