¿Un modelo nuevo hizo trampa en un punto de referencia dado? ¿Qué punto de referencia es el mejor? ¿Y qué significa "mejor" cuando cada punto de referencia mide el rendimiento en una tarea diferente?
Estas preguntas hacen que expertos como Marina Danilevsky, investigadora sénior de IBM, aborden la evaluación de modelos con cautela. “Un buen desempeño en un punto de referencia es solo eso: un buen desempeño en ese punto de referencia”, le dice a IBM Think. La transparencia es clave, comenta. "Necesitamos reconocer las muchas cosas que un punto de referencia determinado no prueba, para que los próximos puntos de referencia aborden algunos de esos agujeros".
A diferencia de la búsqueda de un único punto de referencia definitivo, las nuevas soluciones están transfiriendo el control a los usuarios. Un equipo de la plataforma de IA de código abierto Hugging Face lanzó recientemente YourBench, una herramienta de código abierto que permite a compañías y desarrolladores usar sus propios datos para crear puntos de referencia personalizados que evalúen el rendimiento de sus modelos. La mayoría de los puntos de referencia evalúan las "capacidades generales", dice Sumuk Shashidhar, investigador de Hugging Face en una entrevista de IBM Think. "Para muchos casos de uso en la vida real, lo más importante es qué tan bien un modelo realiza su tarea específica", dice.
Para mejorar la utilidad de los benchmarks en aplicaciones reales, YourBench genera automáticamente puntos de referencia personalizados al dominio directamente a partir de documentos proporcionados por el usuario, tanto de forma económica como sin necesidad de anotar los documentos manualmente, dice Shashidhar. Específicamente, los investigadores demuestran la eficacia de YourBench replicando siete subconjuntos diversos de MMLU—o comprensión masiva del lenguaje multitarea— por menos de 15 USD en costos totales de inferencia, al tiempo que preservan las clasificaciones relativas de desempeño del modelo. MMLU se emplea para evaluar hasta qué punto los modelos de lenguaje comprenden y aplican el conocimiento en diversas materias.
Algunas compañías, como IBM, ya desarrollaron un generador de puntos de referencia personalizado similar a YourBench. “Esto me recuerda a nuestro pipeline propio para crear datos sintéticos para capacitación o evaluación”, dice Danilevsky. “Crear datos sintéticos es fácil. Crear buenos datos sintéticos es difícil”, dice. "Entonces, aunque YourBench es eficaz con los subconjuntos de MMLU, eso no se traduce en ser bueno en nada de lo que le lanzo".
Otra alternativa que ha ganado popularidad es Chatbot Arena (CA), un punto de referencia. En lugar de pruebas rigurosas de matemáticas o lenguaje, Chatbot Arena permite a los usuarios hacer una pregunta, obtener respuestas de dos modelos anónimos de IA y valorar cuál de los dos modelos es mejor.
Iniciada por dos estudiantes graduados de la Universidad de California, Berkeley, CA ahora obtiene acceso temprano a modelos de todos los principales actores de IA para que los entusiastas puedan luchar contra los bots entre sí, "creando suspenso y gamificando la evaluación de modelos", dice el cofundador de CA Anastasios Angelopoulos en una entrevista de IBM Think. La tabla de clasificación de CA, como un Billboard Hot 100 para modelos de IA, ha recibido más de dos millones de votos hasta la fecha.
Dado que están siguiendo de cerca los nuevos modelos, Angelopoulos se sorprendió menos que muchos cuando la popularidad de DeepSeek-R1 se disparó. “Los modelos de código abierto llevan algún tiempo poniéndose al día, por lo que DeepSeek solo confirmó esa tendencia”.
Los fundadores crearon Chatbot Arena en respuesta a la frustración con los puntos de referencia tradicionales. Parte del desafío, dice Angelopoulos, es que “los puntos de referencia son estáticos, ciertos modelos se ponen muy buenos en puntos de referencia específicos”. Como resultado, existe el riesgo de "sobreajuste de datos", dice, en el que un modelo aprende demasiado bien los datos de entrenamiento. El beneficio de Chatbot Arena, agrega, es que los datos están en vivo. “No se puede sobreajustar los datos. No se contamina ni se vuelve obsoleto”.
Para Danilevsky, "el agregado de la tabla de clasificación de Chatbot Arena por sí solo no es procesable", dice. “Para muchas aplicaciones del mundo real, es necesario recibir más feedback sobre un modelo, más allá de un simple visto bueno o no”. Aun así, el concepto es muy popular, reconoce. “Solo me gustaría comprender un poco más cómo y por qué las personas responden como lo hacen a un modelo determinado. Aquí sería muy útil disponer de metadatos adicionales.
Incluso Angelopoulos cree que "el uso real es medir algo diferente a los puntos de referencia". Utiliza el modelo GPT-4.5 de OpenAI como ejemplo. “No funcionó bien en muchos puntos de referencia cualitativos, pero a la gente le encantó. Se necesita una herramienta diferente para medir la vibra de un modelo”.
