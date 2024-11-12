Cada vez se les pide más a los modelos de IA que se evalúen a sí mismos, lo que plantea una pregunta crítica: ¿quién vigila a los vigilantes?
Las empresas de IA están desarrollando modelos para evaluar otros sistemas de IA, lo que supone un cambio con respecto a los métodos tradicionales de evaluación dirigidos por humanos. El nuevo modelo de Meta, por ejemplo, puede evaluar el rendimiento de IA sin entrada humana. Y está provocando un debate entre los investigadores sobre la precisión y las limitaciones de las pruebas automatizadas.
El evaluador autodidacta utiliza datos de entrenamiento generados por IA y una técnica de cadena de pensamiento para evaluar las respuestas científicas, de codificación y matemáticas. El objetivo es la transparencia, pero conlleva riesgos. "Este es un gran problema: validar validadores", dice Kush Varshney, miembro de IBM. La autoevaluación de la IA promete una mayor eficiencia, pero también conlleva graves riesgos. Varshney y su equipo de IBM están desarrollando métricas de evaluación para modelos de LLM como juez, es decir, LLM que pueden evaluar otros resultados de la IA. Aun así, como dice Varshney, "se trata en gran medida de un problema de investigación abierto".
La preocupación central es si se puede confiar en que los modelos de IA se mejoren a sí mismos o si corren el riesgo de amplificar sus propios errores.
"Piense en acercar un micrófono a un altavoz", dice Varshney. “En cualquier sistema de feedback, los errores o el ruido se amplifican”.
El evaluador autodidacta de Meta intenta mitigar estos riesgos proporcionando una pista de razonamiento, de forma similar a como un humano explica su proceso de pensamiento. Sin embargo, confiar en datos sintéticos y en la automejora plantea una pregunta: ¿los juicios del modelo son imparciales? El sesgo se produce cuando los resultados de un sistema de IA reflejan suposiciones injustas o sesgadas, normalmente como resultado de datos sesgados o algoritmos sesgados.
"El objetivo tiene que ser que los jueces de LLM sean imparciales, por lo que tenemos que evaluar su parcialidad", dice Varshney. Un método consiste en barajar respuestas de opción múltiple para determinar si un modelo muestra sesgo posicional, es decir, favorece una respuesta sobre otras. Junto con el sesgo de verbosidad y el sesgo de automejora, los sesgos posicionales pueden sesgar las evaluaciones. "Gestionar estos riesgos forma parte del desarrollo de la IA", afirma Varshney. El avance de IA responsable requiere identificar y mitigar los sesgos.
Garantizar una autoevaluación fiable de la IA es aún más difícil en campos especializados como las matemáticas avanzadas y la investigación científica. Esto significa que a menudo se necesitan expertos humanos para validar los resultados y mantener los sistemas de IA fiables y en marcha.
"Hay muchos trucos para intentar hacer eso, como barajar las respuestas de opción múltiple", dice Varshney.
Según Dev Nag, fundador y CEO de QueryPal, el evaluador autodidacta de Meta consiste en amplificar y escalar el juicio humano, no en eliminar a los humanos del bucle.
"Piense en ello como algo similar a cómo un profesor podría crear problemas de práctica basados en su comprensión de lo que hace que una respuesta sea buena o mala", dice Nag. "Al igual que AlphaGo utilizó las reglas de Go como base antes de participar en el autojuego, el evaluador autodidacta se basa en criterios de calidad establecidos por humanos antes de generar ejemplos de entrenamiento sintéticos que incorporan implícitamente el juicio humano".
Incluso con IA de automonitorización, las auditorías periódicas pueden detectar sesgos o problemas ocultos, afirma Dan O'Toole, presidente y CEO de Arrive AI.
"Emplear varios modelos de IA para realizar la misma evaluación de forma independiente, o encadenarlos secuencialmente, reduce los errores y resalta posibles problemas", afirma. La explicabilidad también es esencial. "La cadena de pensamiento es un paso importante hacia la transparencia, que aumenta la fiabilidad."
O'Toole subraya que las métricas especializadas son cruciales para campos como las matemáticas avanzadas y la investigación científica. Meta, por ejemplo, ha utilizado MT-Bench y RewardBench para la evaluación de propósito general, dice, pero los puntos de referencia como GSM8K son apropiados para la resolución de problemas matemáticos. CRUXEval puede ayudar con el razonamiento del código, mientras que los puntos de referencia específicos del dominio como FactKB, PubMed y SciBench pueden ayudar a garantizar que los modelos satisfagan necesidades específicas.
Nag enfatiza que medir el rendimiento y garantizar la fiabilidad es crucial, especialmente en campos especializados. Cree que el punto de referencia definitivo debe ser hasta qué punto los resultados se alinean con las evaluaciones realizadas por expertos humanos en el campo.
“El 88,7 % de acuerdo del evaluador autodidacta con los juicios humanos en RewardBench es una base sólida, pero el seguimiento de otros factores, como la coherencia, la explicabilidad y la capacidad del sistema para identificar casos edge, es igualmente importante”, afirma. "Al igual que el autojuego de AlphaGo se validó por su rendimiento frente a campeones humanos, los sistemas de evaluación deben probarse regularmente frente a paneles de expertos en el dominio".
Jen Clark, que dirige servicios de asesoramiento y tecnología en EisnerAmper, subraya que el desarrollo de la IA requiere marcos estructurados para garantizar tanto la seguridad como el progreso efectivo.
"A medida que la IA sigue avanzando, es crucial confiar en metodologías que han apoyado la investigación humana, como el método científico, las comunidades sólidas y las redes de colaboración", afirma. "Centrar los esfuerzos aquí es esencial para la seguridad de la IA y la gestión de la velocidad y la escala del desarrollo de la IA".
