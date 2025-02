HellaSwag è l'acronimo di “Harder Endings, Longer contexts and Low-shot Activities for Situations With Adversarial Generations", ovvero "Finali più difficili, contesti più lunghi e attività a basso impatto per situazioni con generazioni avverse". Questo benchmark è incentrato sul ragionamento sensato e sull'inferenza del linguaggio naturale. Ai modelli viene chiesto di completare le frasi scegliendo tra un certo numero di possibili finali. Questi finali includono risposte sbagliate create tramite l'adversial filtering, un algoritmo che genera risposte realistiche, ma ingannevolmente errate. HellaSwag valuta la precisione sia per le categorie few-shot che per quelle zero-shot.4