Cada vez se les pide más a los modelos de IA que se evalúen a sí mismos, lo que plantea una pregunta crítica: ¿quién vigila a los observadores?
Las empresas de IA están desarrollando modelos para evaluar otros sistemas de IA, lo que supone un cambio con respecto a los métodos de evaluación tradicionales dirigidos por humanos. El nuevo modelo de Meta, por ejemplo, puede evaluar el rendimiento de la IA sin entrada humana. Y está generando debate entre los investigadores sobre la precisión y las limitaciones de las pruebas automatizadas.
El evaluador autodidacta utiliza datos de entrenamiento generados por IA y una técnica de cadena de pensamiento para evaluar las respuestas científicas, de programación y matemáticas. El objetivo es la transparencia, pero viene con riesgos. "Este es un gran problema: validar validadores", dice Kush Varshney, miembro de IBM. La autoevaluación de la IA promete una mayor eficiencia, pero también conlleva riesgos graves. Varshney y su equipo en IBM están desarrollando métricas de evaluación para modelos de LLM-as-a-judge—LLM que pueden evaluar otros resultados de la IA. Aún así, como dice Varshney, "este es en gran medida un problema de investigación abierto".
La preocupación central es si se puede confiar en que los modelos de IA se mejoren a sí mismos o si corren el riesgo de amplificar sus propios errores.
"Think en acercar un micrófono a un altavoz", dice Varshney. "En cualquier sistema de retroalimentación, los errores o el ruido se amplifican".
El evaluador autodidacta de Meta intenta mitigar estos riesgos proporcionando una pista de razonamiento, de manera similar a un humano que explica su proceso de pensamiento. Sin embargo, confiar en datos sintéticos y la autosuperación plantea una pregunta: ¿los juicios del modelo son sin sesgo? El sesgo se produce cuando los Resultados de un sistema de IA reflejan suposiciones con sesgo o sesgadas, generalmente como resultado de datos con sesgo o algoritmos con sesgo.
"El objetivo tiene que ser hacer que los jueces de LLM sean sin sesgo, por lo que necesitamos evaluar su sesgo", dice Varshney. Un método consiste en barajar respuestas de opción múltiple para determinar si un modelo muestra sesgo posicional, es decir, favorece una respuesta sobre otras. Junto con el sesgo de verborrea y el sesgo de auto-mejora, los sesgos posicionales pueden sesgar las evaluaciones. "Gestionar estos riesgos es parte del desarrollo de la IA", dice Varshney. El avance de IA responsable requiere identificar y mitigar los sesgos.
Garantizar una autoevaluación fiable de la IA es aún más difícil en campos especializados como las matemáticas avanzadas y la investigación científica. Esto significa que a menudo se necesitan expertos humanos para validar los resultados y mantener los sistemas de IA confiables y en marcha.
"Hay muchos trucos para intentar hacer eso, como mezclar respuestas de opción múltiple", dice Varshney.
Según Dev Nag, fundador y director ejecutivo (CEO) de QueryPal, el evaluador autodidacta de Meta consiste en amplificar y escalar el juicio humano, no en eliminar a los humanos del circuito.
"Think en ello como algo similar a cómo un maestro podría crear problemas de práctica basados en su comprensión de lo que hace que una respuesta sea buena o mala", dice Nag. "Al igual que AlphaGo utilizó las reglas de Go como base antes de participar en el autojuego, el evaluador autodidacta se basa en criterios de calidad establecidos por humanos antes de generar ejemplos de entrenamiento sintéticos que incorporan implícitamente el juicio humano".
Incluso con la IA de autosupervisión, las auditorías periódicas pueden detectar sesgos o problemas ocultos, dice Dan O'Toole, presidente y director ejecutivo (CEO) de Arrive AI.
"Emplear múltiples modelos de IA para realizar la misma evaluación de forma independiente, o encadenarlos secuencialmente, reduce los errores y resalta posibles problemas", afirma. La explicabilidad también es esencial. "La cadena de pensamiento es un paso importante hacia la transparencia, aumentando la confiabilidad".
O’Toole destaca que las métricas especializadas son fundamentales para campos como las matemáticas avanzadas y la investigación científica. Meta, por ejemplo, ha utilizado MT-Bench y RewardBench para la evaluación de propósito general, dice, pero los puntos de referencia como GSM8K son apropiados para la resolución de problemas matemáticos. CRUXEval puede ayudar con el razonamiento del código, mientras que los puntos de referencia específicos de dominio como FactKB, PubMed y SciBench pueden ayudar a garantizar que los modelos satisfagan necesidades específicas.
Nag enfatiza que medir el rendimiento y garantizar la fiabilidad es crucial, especialmente en campos especializados. Cree que el punto de referencia definitivo debe ser hasta qué punto los resultados se alinean con las evaluaciones realizadas por expertos humanos en el campo.
"El 88.7 % de acuerdo del evaluador autodidacta con los juicios humanos en RewardBench es una base sólida, pero el seguimiento de otros factores, como la coherencia, la explicabilidad y la capacidad del sistema para identificar casos extremos, es igualmente importante", dice. "Así como el autojuego de AlphaGo fue validado por su desempeño contra campeones humanos, los sistemas de evaluación deben probarse regularmente contra paneles de expertos en el dominio".
Jen Clark, quien dirige los servicios de asesoría y Tecnología en EisnerAmper, enfatiza que el desarrollo de la IA requiere infraestructura/marco para garantizar tanto la seguridad como el progreso efectivo.
"A medida que la IA continúa avanzando, es crucial confiar en metodologías que han apoyado la investigación humana, como el método científico, comunidades sólidas y redes de colaboración", dice. "Es fundamental centrar los esfuerzos en este ámbito para garantizar la seguridad de la IA mediante el crowdsourcing y gestionar la velocidad y la escala del desarrollo de la IA."