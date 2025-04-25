Un tema candente, si alguna vez hubo uno, los puntos de referencia se han convertido en un debate central ahora que las capacidades de IA están avanzando tan rápido que están superando constantemente a las herramientas utilizadas para medirlas.

“Cada año, observamos cómo funcionan estos algoritmos en todos los puntos de referencia, y cada año parece que están superando esos puntos de referencia”, dice Vanessa Parli, una de las autoras del informe, en una entrevista con IBM Think. "Del mismo modo, este año, eso está sucediendo incluso con los puntos de referencia más nuevos".

El informe indicó que en 2023, los investigadores presentaron nuevos puntos de referencia—MMMU, GPQA y SWE-bench—para probar los límites de los sistemas avanzados de IA. Solo un año después, el rendimiento aumentó considerablemente: las puntuaciones aumentaron 18.8, 48.9 y 67.3 puntos porcentuales en MMMU, GPQA y SWE-bench, respectivamente, según el informe.

Esto genera ambigüedad dentro de la comunidad de investigación sobre el verdadero significado y valor de un punto de referencia LLM. Parli plantea preguntas críticas para consideración: “¿Estamos midiendo lo correcto? ¿Están comprometidos esos puntos de referencia? ¿Y cómo debería la comunidad científica evaluar los modelos?”

Pensando en el futuro, Ash Minhas también se pregunta cómo será el futuro del benchmarking. "¿Dónde va a parar eso?" pregunta en una entrevista con IBM Think. “¿El Test de Turing tendrá que ser constantemente una meta en movimiento? ¿El último examen de la humanidad es realmente el último examen?

Mientras tanto, los expertos advierten sobre el riesgo del sobreajuste, un fenómeno en el que un modelo de IA ha aprendido a funcionar excepcionalmente bien en pruebas de punto de referencia específicas, pero puede no ser capaz de generalizar a datos nuevos y desconocidos en aplicaciones del mundo real. “¿Solo estamos entrenando al modelo para que pase el punto de referencia?” añade. “MMMU es un buen punto de referencia, pero ¿es porque el modelo sabe responder al punto de referencia?”

Minhas también advierte que el entusiasmo y el impulso del progreso podrían estar prevaleciendo sobre la preocupación por la ética, la equidad y los prejuicios.