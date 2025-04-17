¿Un modelo nuevo hizo trampa en un punto de referencia dado? ¿Qué punto de referencia es el mejor? ¿Y qué significa "mejor" cuando cada punto de referencia mide el rendimiento en una tarea diferente?

Estas preguntas hacen que expertos como Marina Danilevsky, investigadora sénior de IBM, aborden la evaluación de modelos con cautela. “Un buen desempeño en un punto de referencia es solo eso: un buen desempeño en ese punto de referencia”, le dice a IBM Think. La transparencia es clave, comenta. "Necesitamos reconocer las muchas cosas que un punto de referencia determinado no prueba, para que los próximos puntos de referencia aborden algunos de esos agujeros".

A diferencia de la búsqueda de un único punto de referencia definitivo, las nuevas soluciones están transfiriendo el control a los usuarios. Un equipo de la plataforma de IA de código abierto Hugging Face lanzó recientemente YourBench, una herramienta de código abierto que permite a compañías y desarrolladores usar sus propios datos para crear puntos de referencia personalizados que evalúen el rendimiento de sus modelos. La mayoría de los puntos de referencia evalúan las "capacidades generales", dice Sumuk Shashidhar, investigador de Hugging Face en una entrevista de IBM Think. "Para muchos casos de uso en la vida real, lo más importante es qué tan bien un modelo realiza su tarea específica", dice.

Para mejorar la utilidad de los benchmarks en aplicaciones reales, YourBench genera automáticamente puntos de referencia personalizados al dominio directamente a partir de documentos proporcionados por el usuario, tanto de forma económica como sin necesidad de anotar los documentos manualmente, dice Shashidhar. Específicamente, los investigadores demuestran la eficacia de YourBench replicando siete subconjuntos diversos de MMLU—o comprensión masiva del lenguaje multitarea— por menos de 15 USD en costos totales de inferencia, al tiempo que preservan las clasificaciones relativas de desempeño del modelo. MMLU se emplea para evaluar hasta qué punto los modelos de lenguaje comprenden y aplican el conocimiento en diversas materias.