HellaSwag es un acrónimo de “Harder Endings, Longer contexts and Low-shot Activities for Situations With Adversarial Generations”. Este punto de referencia se centra en torno al razonamiento de sentido común y la inferencia del lenguaje natural. Los modelos tienen la tarea de completar oraciones eligiendo entre una serie de posibles finales. Estos finales incluyen respuestas erróneas creadas a través del filtrado adversarial, un algoritmo que genera respuestas realistas pero engañosamente incorrectas. HellaSwag evalúa la precisión para las categories de few-shot y zero-shot.4