¿Un nuevo modelo hizo trampa en un punto de referencia determinado? ¿Cuál es el mejor punto de referencia? ¿Y qué significa "mejor" cuando cada punto de referencia mide el rendimiento en una tarea diferente?
Estas preguntas hacen que expertos como Marina Danilevsky, científica de investigación sénior de IBM, aborden la evaluación de modelos con cautela. “Obtener un buen desempeño en un punto de referencia es justamente eso: tener un buen desempeño en ese punto de referencia”, explica a IBM Think. La transparencia es clave, dice. "Tenemos que reconocer las muchas cosas que una referencia determinada no prueba, para que las próximas referencias aborden algunos de esos agujeros".
En contraste con la búsqueda de un único punto de referencia que lo sea todo, las nuevas soluciones están trasladando el control a los usuarios. Un equipo de la plataforma de IA de código abierto Hugging Face ha lanzado recientemente YourBench, una herramienta de código abierto que permite a empresas y desarrolladores utilizar sus propios datos para crear puntos de referencia personalizados con los que evaluar el rendimiento de sus modelos. La mayoría de los puntos de referencia prueban las "capacidades generales", dice Sumuk Shashidhar, investigador de Hugging Face en una entrevista de IBM Think. "Para muchos casos de uso en la vida real, lo que más importa es lo bien que un modelo realiza su tarea específica", dice.
Para mejorar la utilidad de las referencias en aplicaciones reales, YourBench genera automáticamente referencias personalizadas para el dominio directamente a partir de documentos proporcionados por el usuario, tanto de forma económica como sin necesidad de anotar los documentos manualmente, dice Shashidhar. En concreto, los investigadores demuestran la eficacia de YourBench replicando siete subconjuntos diversos de MMLU(o comprensión masiva del lenguaje multitarea) por menos de 15 USD en costes totales de inferencia, al tiempo que conservan la clasificación relativa del rendimiento del modelo. MMLU se utiliza para evaluar hasta qué punto los modelos de lenguaje comprenden y aplican el conocimiento en diversas materias.
Algunas empresas, como IBM, ya han desarrollado un generador de puntos de referencia personalizado similar a YourBench. "Esto me recuerda a nuestra canalización local para crear datos sintéticos para entrenamiento o evaluación", dice Danilevsky. "Crear datos sintéticos es fácil. “Crear buenos datos sintéticos es difícil”, afirma. "Así que, aunque YourBench es eficaz con los subconjuntos MMLU, eso no se traduce en ser bueno en nada de lo que le lanzo".
Otra alternativa que ha ganado popularidad es Chatbot Arena (CA), una referencia basada en la colaboración masiva. En lugar de pruebas rigurosas de matemáticas o lenguaje, Chatbot Arena permite a los usuarios hacer una pregunta, obtener respuestas de dos modelos anónimos de IA y valorar cuál es mejor.
Fundada por dos estudiantes graduados de la Universidad de California, Berkeley, CA ahora tiene acceso temprano a los modelos de los principales actores de la IA para que los entusiastas puedan luchar contra los bots entre sí, "creando suspenso y gamificando la evaluación de modelos", dice el cofundador de CA Anastasios Angelopoulos en una entrevista de IBM Think. La clasificación de CA, como un Billboard Hot 100 para modelos de IA, ha recibido más de dos millones de votos hasta la fecha.
Dado que están siguiendo de cerca los nuevos modelos, Angelopoulos se sorprendió menos que muchos cuando la popularidad de DeepSeek-R1 se disparó. “Los modelos de código abierto han ido ganando terreno durante algún tiempo, por lo que DeepSeek solo confirmó esa tendencia”.
Los fundadores crearon Chatbot Arena en respuesta a la frustración con los puntos de referencia tradicionales. Parte del desafío, dice Angelopoulos, es que “los puntos de referencia son estáticos: ciertos modelos se vuelven muy buenos en puntos de referencia específicos”. Como resultado, existe el riesgo de "sobreajuste de datos", dice, en el que un modelo aprende demasiado bien los datos de entrenamiento. El beneficio de Chatbot Arena, añade, es que los datos están vivos. "No se pueden sobreajustar los datos. No se contaminan ni se vuelven obsoletos".
Para Danilevsky, "el conjunto de la tabla de clasificación de chatbot Arena por sí solo no es ejecutable", dice. "Para muchas aplicaciones del mundo real es necesario tener comentarios más matizados sobre un modelo más allá de un pulgar hacia arriba y un pulgar hacia abajo". Aun así, el concepto es muy popular, reconoce. “Solo me gustaría comprender un poco más cómo y por qué las personas responden como lo hacen a un modelo determinado. Los metadatos adicionales serían muy útiles en este caso".
Incluso Angelopoulos cree que "el uso real es medir algo diferente a los puntos de referencia". Utiliza el modelo GPT-4.5 de OpenAI como ejemplo. "No funcionó bien en muchos puntos de referencia cualitativos, pero a la gente le encantó. “Necesitas una herramienta diferente para medir la vibración de un modelo”.
