La nueva regla de punto de referencia de la IA: BYOB

Foto de primer plano de dos pares de manos escribiendo en sus respectivas computadoras portátiles

Autor

Aili McConnon

News Writer | Inbound Marketing Editorial Strategist

IBM Think

¿Un modelo nuevo hizo trampa en un punto de referencia dado? ¿Qué punto de referencia es el mejor? ¿Y qué significa "mejor" cuando cada punto de referencia mide el rendimiento en una tarea diferente?

Estas preguntas hacen que expertos como Marina Danilevsky, investigadora sénior de IBM, aborden la evaluación de modelos con cautela. “Un buen desempeño en un punto de referencia es solo eso: un buen desempeño en ese punto de referencia”, le dice a IBM Think. La transparencia es clave, comenta. "Necesitamos reconocer las muchas cosas que un punto de referencia determinado no prueba, para que los próximos puntos de referencia aborden algunos de esos agujeros".

A diferencia de la búsqueda de un único punto de referencia definitivo, las nuevas soluciones están transfiriendo el control a los usuarios. Un equipo de la plataforma de IA de código abierto Hugging Face lanzó recientemente  YourBench, una herramienta de código abierto que permite a compañías y desarrolladores usar sus propios datos para crear puntos de referencia personalizados que evalúen el rendimiento de sus modelos. La mayoría de los puntos de referencia evalúan las "capacidades generales", dice Sumuk Shashidhar, investigador de Hugging Face en una entrevista de IBM Think. "Para muchos casos de uso en la vida real, lo más importante es qué tan bien un modelo realiza su tarea específica", dice.

Para mejorar la utilidad de los benchmarks en aplicaciones reales, YourBench genera automáticamente puntos de referencia personalizados al dominio directamente a partir de documentos proporcionados por el usuario, tanto de forma económica como sin necesidad de anotar los documentos manualmente, dice Shashidhar. Específicamente, los investigadores demuestran la eficacia de YourBench replicando siete subconjuntos diversos de MMLU—o comprensión masiva del lenguaje multitarea— por menos de 15 USD en costos totales de inferencia, al tiempo que preservan las clasificaciones relativas de desempeño del modelo. MMLU se emplea para evaluar hasta qué punto los modelos de lenguaje comprenden y aplican el conocimiento en diversas materias.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Puntos de referencia, propios y de colaboración colectiva

Algunas compañías, como IBM, ya desarrollaron un generador de puntos de referencia personalizado similar a YourBench. “Esto me recuerda a nuestro pipeline propio para crear datos sintéticos para capacitación o evaluación”, dice Danilevsky. “Crear datos sintéticos es fácil. Crear buenos datos sintéticos es difícil”, dice. "Entonces, aunque YourBench es eficaz con los subconjuntos de MMLU, eso no se traduce en ser bueno en nada de lo que le lanzo".  

Otra alternativa que ha ganado popularidad es Chatbot Arena (CA), un punto de referencia. En lugar de pruebas rigurosas de matemáticas o lenguaje, Chatbot Arena permite a los usuarios hacer una pregunta, obtener respuestas de dos modelos anónimos de IA y valorar cuál de los dos modelos es mejor.

Iniciada por dos estudiantes graduados de la Universidad de California, Berkeley, CA ahora obtiene acceso temprano a modelos de todos los principales actores de IA para que los entusiastas puedan luchar contra los bots entre sí, "creando suspenso y gamificando la evaluación de modelos", dice el cofundador de CA Anastasios Angelopoulos en una entrevista de IBM Think. La tabla de clasificación de CA, como un Billboard Hot 100 para modelos de IA, ha recibido más de dos millones de votos hasta la fecha.

Dado que están siguiendo de cerca los nuevos modelos, Angelopoulos se sorprendió menos que muchos cuando la popularidad de DeepSeek-R1 se disparó. “Los modelos de código abierto llevan algún tiempo poniéndose al día, por lo que DeepSeek solo confirmó esa tendencia”.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables que pueden desbloquear nuevos ingresos, reducir costos y aumentar la productividad, luego use nuestra guía para investigar a profundidad.

Tablas de clasificación vs. Vibes

Los fundadores crearon Chatbot Arena en respuesta a la frustración con los puntos de referencia tradicionales. Parte del desafío, dice Angelopoulos, es que “los puntos de referencia son estáticos, ciertos modelos se ponen muy buenos en puntos de referencia específicos”. Como resultado, existe el riesgo de "sobreajuste de datos", dice, en el que un modelo aprende demasiado bien los datos de entrenamiento. El beneficio de Chatbot Arena, agrega, es que los datos están en vivo. “No se puede sobreajustar los datos. No se contamina ni se vuelve obsoleto”.

Para Danilevsky, "el agregado de la tabla de clasificación de Chatbot Arena por sí solo no es procesable", dice. “Para muchas aplicaciones del mundo real, es necesario recibir más feedback sobre un modelo, más allá de un simple visto bueno o no”. Aun así, el concepto es muy popular, reconoce. “Solo me gustaría comprender un poco más cómo y por qué las personas responden como lo hacen a un modelo determinado. Aquí sería muy útil disponer de metadatos adicionales.

Incluso Angelopoulos cree que "el uso real es medir algo diferente a los puntos de referencia". Utiliza el modelo GPT-4.5 de OpenAI como ejemplo. “No funcionó bien en muchos puntos de referencia cualitativos, pero a la gente le encantó. Se necesita una herramienta diferente para medir la vibra de un modelo”.

Soluciones relacionadas
IBM Bob

Acelere la entrega de software con Bob, su socio de IA para un desarrollo seguro y consciente de la intención.

Explore IBM Bob
IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Explore watsonx Orchestrate
Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Dé el siguiente paso

Independientemente de en qué fase del ciclo de desarrollo se encuentre, Bob lo respalda con revisiones agénticas basadas en la intención y alineadas con la seguridad, que aceleran la entrega de software de alta calidad.

  1. Descubra IBM Bob
  2. Explore watsonx Orchestrate