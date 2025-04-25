Si hay un tema candente, ese es sin duda el de las referencias, que se han convertido en un debate central ahora que las capacidades de la IA avanzan tan rápidamente que superan constantemente a las herramientas utilizadas para medirlas.

"Cada año, observamos el rendimiento de estos algoritmos en todos los puntos de referencia, y cada año parece que están superando esos puntos de referencia", dice Vanessa Parli, una de las autoras del informe, en una entrevista con IBM Think. "Del mismo modo, este año, eso está sucediendo incluso con las referencia más nuevos".

El informe señalaba que en 2023, los investigadores introdujeron nuevos puntos de referencia-MMU, GPQA y SWE-bench para probar los límites de los sistemas avanzados de IA. Solo un año después, el rendimiento aumentó considerablemente: las puntuaciones aumentaron 18,8, 48,9 y 67,3 puntos porcentuales en MMMU, GPQA y SWE-bench, respectivamente, según el informe.

Esto genera ambigüedad dentro de la comunidad de investigación sobre el verdadero significado, y valor, de una referencia LLM. Parli plantea preguntas críticas para consideración: "¿Estamos midiendo lo correcto? ¿Están comprometidos esos puntos de referencia? ¿Y cómo debe la comunidad científica evaluar los modelos?"

Pensando en el futuro, Ash Minhas también se pregunta cómo será el futuro de la evaluación comparativa. "¿Dónde va a parar eso?" pregunta en una entrevista con IBM Think. "¿El test de Turing tendrá que ser constantemente un objetivo en movimiento? ¿El último examen de la humanidad es realmente el último examen?

Mientras tanto, los expertos advierten contra el riesgo de sobreajuste, un fenómeno en el que un modelo de IA ha aprendido a funcionar excepcionalmente bien en pruebas de referencia específicas, pero puede no generalizarse a datos nuevos e invisibles en aplicaciones del mundo real. "¿Solo estamos entrenando el modelo para superar el punto de referencia?" añade. "La MMMU es un buen punto de referencia, pero ¿es porque la modelo sabe cómo responder al punto de referencia?"

Minhas también advierte que el entusiasmo y el impulso del progreso podrían estar teniendo prioridad por encima de preocuparse por la ética, la equidad y los prejuicios.