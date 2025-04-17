Un nuovo modello ha tradito un determinato benchmark? Qual è il benchmark migliore? E cosa significa "migliore" quando ogni benchmark misura le prestazioni in un compito diverso?
Sono domande come queste a spingere esperti come Marina Danilevsky, Senior Research Scientist di IBM, ad affrontare la valutazione dei modelli con cautela. "Per ottenere buoni risultati in un benchmark è semplicemente questo: ottenere buoni risultati in quel benchmark", ha dichiarato a IBM Think. La trasparenza è fondamentale, afferma. "Dobbiamo riconoscere le numerose cose che un dato benchmark non verifica, in modo che i benchmark successivi affrontino alcune di queste lacune."
In contrasto con la ricerca di un benchmark unico e definitivo, le nuove soluzioni spostano il controllo sugli utenti. Un team della piattaforma AI open source Hugging Face ha recentemente lanciato YourBench, uno strumento open-source che consente a imprese e sviluppatori di utilizzare i propri dati per creare benchmark personalizzati per valutare le prestazioni dei loro modelli. La maggior parte dei benchmark testa le "funzionalità generali", afferma Sumuk Shashidhar, un ricercatore di Hugging Face in un'intervista IBM Think . "Per molti casi d'uso nella vita reale, ciò che conta di più è quanto un modello sia in grado di svolgere un compito specifico", afferma.
Per aumentare l'utilità dei benchmark nelle applicazioni reali, YourBench genera automaticamente benchmark personalizzati per il dominio direttamente dai documenti forniti dall'utente, sia a basso costo sia senza dover annotare manualmente i documenti, afferma Shashidhar. In particolare, i ricercatori dimostrano l'efficacia di YourBench replicando sette diversi sottoinsiemi MMLU (o Massive Multitask Language Understanding) per costi totali di inferenza inferiori a USD 15, mantenendo però le classifiche relative sulle prestazioni del modello. L'MMLU viene utilizzato per valutare la capacità dei modelli linguistici di comprendere e applicare le conoscenze in diverse materie.
Alcune aziende, come IBM, hanno già sviluppato un generatore di benchmark personalizzato simile a YourBench. "Mi ricorda la nostra pipeline interna per la creazione di dati sintetici per l'addestramento o per la valutazione", dice Danilevsky. "Creare dati sintetici è facile. "Creare dati sintetici di qualità è difficile", afferma. "Quindi, sebbene YourBench sia efficace con i sottoinsiemi MMLU, ciò non significa che sia efficace in tutto ciò che gli propongo."
Un'altra alternativa che ha perso grande popolarità è Chatbot Arena (CA), un benchmark crowdsourced. Invece di test di matematica o linguistica rigorosi, Chatbot Arena permette agli utenti di fare una domanda, ottenere risposte da due modelli AI anonimi e valutare quale sia migliore.
Fondato da due studenti laureati della University of California, Berkeley, CA ora ha accesso anticipato ai modelli di tutti i principali attori dell'AI così gli appassionati possono sfidare bot tra loro, "creando suspense e gamficando la valutazione dei modelli", afferma Anastasios Angelopoulos, co-fondatore di CA, in un'intervista a IBM Think. La classifica CA, come una Billboard Hot 100 per modelli AI, ha ricevuto finora oltre due milioni di voti.
Poiché stanno monitorando da vicino i nuovi modelli, Angelopoulos è rimasto meno sorpreso di molti quando la popolarità di DeepSeek-R1 è aumentata vertiginosamente. "I modelli open source hanno iniziato a recuperare terreno da un po' di tempo, quindi DeepSeek non ha fatto altro che confermare questa tendenza."
I fondatori hanno creato Chatbot Arena in risposta alla frustrazione con i benchmark tradizionali. Parte della sfida, secondo Angelopoulos, è che "i benchmark sono statici: alcuni modelli risultano molto efficaci in determinati benchmark". Di conseguenza, secondo lui, si corre il rischio di un "overfitting dei dati", ovvero che un modello impari troppo bene i dati di addestramento. Il beneficio di Chatbot Arena, aggiunge, è che i dati sono in tempo reale. "Non è possibile sovradimensionare i dati. Non diventano contaminati né stantii."
Per Danilevsky, "l'aggregato della classifica di Chatbot Arena di per sé non è utilizzabile", afferma. "Per molte applicazioni nel mondo reale è necessario avere un feedback più dettagliato su un modello, che vada oltre il semplice pollice in su o il pollice in giù." Ciononostante, il concetto è molto popolare, riconosce. "Vorrei solo capire meglio come e perché le persone rispondono in un certo modo a un dato modello. In questo caso sarebbero davvero utili ulteriori metadati."
Perfino Angelopoulos crede che "il vero uso è misurare qualcosa di diverso dai benchmark." Usa il modello GPT-4.5 di OpenAI come esempio. "Non ha ottenuto buoni risultati in molti benchmark qualitativi, ma alla gente è piaciuto molto. Per misurare l'atmosfera di un modello serve uno strumento diverso."
