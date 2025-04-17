I fondatori hanno creato Chatbot Arena in risposta alla frustrazione con i benchmark tradizionali. Parte della sfida, secondo Angelopoulos, è che "i benchmark sono statici: alcuni modelli risultano molto efficaci in determinati benchmark". Di conseguenza, secondo lui, si corre il rischio di un "overfitting dei dati", ovvero che un modello impari troppo bene i dati di addestramento. Il beneficio di Chatbot Arena, aggiunge, è che i dati sono in tempo reale. "Non è possibile sovradimensionare i dati. Non diventano contaminati né stantii."

Per Danilevsky, "l'aggregato della classifica di Chatbot Arena di per sé non è utilizzabile", afferma. "Per molte applicazioni nel mondo reale è necessario avere un feedback più dettagliato su un modello, che vada oltre il semplice pollice in su o il pollice in giù." Ciononostante, il concetto è molto popolare, riconosce. "Vorrei solo capire meglio come e perché le persone rispondono in un certo modo a un dato modello. In questo caso sarebbero davvero utili ulteriori metadati."

Perfino Angelopoulos crede che "il vero uso è misurare qualcosa di diverso dai benchmark." Usa il modello GPT-4.5 di OpenAI come esempio. "Non ha ottenuto buoni risultati in molti benchmark qualitativi, ma alla gente è piaciuto molto. Per misurare l'atmosfera di un modello serve uno strumento diverso."