HellaSwag es un acrónimo de "Harder Endings, Longer contexts and Low-shot Activities for Situations With Adversarial Generations" (Finales más difíciles, contextos más largos y actividades de baja intensidad para situaciones con generaciones enfrentadas). Este punto de referencia se centra en el razonamiento de sentido común y la inferencia del lenguaje natural. A los modelos se les pide que completen frases y elijan entre varios finales posibles. Estos finales incluyen respuestas erróneas generadas mediante un algoritmo de filtrado adversarial, que crea respuestas realistas pero engañosamente incorrectas. HellaSwag evalúa la precisión en las categorías few-shot y zero-shot.4