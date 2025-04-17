¿Un nuevo modelo hizo trampa en un punto de referencia determinado? ¿Cuál es el mejor punto de referencia? ¿Y qué significa "mejor" cuando cada punto de referencia mide el rendimiento en una tarea diferente?

Estas preguntas hacen que expertos como Marina Danilevsky, científica de investigación sénior de IBM, aborden la evaluación de modelos con cautela. “Obtener un buen desempeño en un punto de referencia es justamente eso: tener un buen desempeño en ese punto de referencia”, explica a IBM Think. La transparencia es clave, dice. "Tenemos que reconocer las muchas cosas que una referencia determinada no prueba, para que las próximas referencias aborden algunos de esos agujeros".

En contraste con la búsqueda de un único punto de referencia que lo sea todo, las nuevas soluciones están trasladando el control a los usuarios. Un equipo de la plataforma de IA de código abierto Hugging Face ha lanzado recientemente YourBench, una herramienta de código abierto que permite a empresas y desarrolladores utilizar sus propios datos para crear puntos de referencia personalizados con los que evaluar el rendimiento de sus modelos. La mayoría de los puntos de referencia prueban las "capacidades generales", dice Sumuk Shashidhar, investigador de Hugging Face en una entrevista de IBM Think. "Para muchos casos de uso en la vida real, lo que más importa es lo bien que un modelo realiza su tarea específica", dice.

Para mejorar la utilidad de las referencias en aplicaciones reales, YourBench genera automáticamente referencias personalizadas para el dominio directamente a partir de documentos proporcionados por el usuario, tanto de forma económica como sin necesidad de anotar los documentos manualmente, dice Shashidhar. En concreto, los investigadores demuestran la eficacia de YourBench replicando siete subconjuntos diversos de MMLU(o comprensión masiva del lenguaje multitarea) por menos de 15 USD en costes totales de inferencia, al tiempo que conservan la clasificación relativa del rendimiento del modelo. MMLU se utiliza para evaluar hasta qué punto los modelos de lenguaje comprenden y aplican el conocimiento en diversas materias.