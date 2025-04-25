Un argomento più scottante che mai: i benchmark sono diventati un dibattito centrale ora che le capacità dell'AI stanno avanzando così rapidamente da superare costantemente gli strumenti utilizzati per misurarle.

"Ogni anno guardiamo come questi algoritmi si comportano nei benchmark, e ogni anno sembra che li stiano superando", afferma Vanessa Parli, una delle autrici del rapporto, in un'intervista con IBM Think. "Allo stesso modo, quest'anno, ciò sta accadendo anche con i nuovi benchmark".

Il report ha rilevato che nel 2023 i ricercatori hanno introdotto nuovi benchmark (MMMU, GPQA e SWE-bench) per testare i limiti dei sistemi di AI avanzati. Solo un anno dopo, le prestazioni sono aumentate drasticamente: i punteggi sono aumentati rispettivamente di 18,8, 48,9 e 67,3 punti percentuali su MMMU, GPQA e SWE-bench, secondo il rapporto.

Questo genera ambiguità all'interno della comunità di ricerca sul vero significato e valore di un benchmark LLM. Parli ha posto domande critiche da considerare: "Stiamo misurando la cosa giusta? Questi parametri di benchmark sono compromessi? E in che modo dovrebbe la comunità scientifica valutare i modelli?"

Guardando al futuro, Ash Minhas si chiede anche come sarà il futuro del benchmarking. "Dove andremo a finire?" chiede in un'intervista con IBM Think. "Il test di Turing dovrà essere un obiettivo costantemente in movimento? L'ultimo esame dell'umanità sarà davvero l'ultimo esame?"

Nel frattempo, gli esperti mettono in guardia dal rischio di overfitting, un fenomeno in cui un modello AI ha imparato a ottenere risultati eccezionali su test di benchmark specifici ma potrebbe non generalizzare a dati nuovi e mai visti in applicazioni reali. "E se stessimo solo addestrando il modello a superare il benchmark?" aggiunge. "L'MMMU è un buon benchmark, ma se lo fosse solo perché il modello sa come soddisfarne i requisiti?”

Minhas avverte anche che l'entusiasmo e lo slancio del progresso prendere il sopravvento rispetto all'etica, all'equità e ai pregiudizi.