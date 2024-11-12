Garantizar una autoevaluación fiable de la IA es aún más difícil en campos especializados como las matemáticas avanzadas y la investigación científica. Esto significa que a menudo se necesitan expertos humanos para validar los resultados y mantener los sistemas de IA fiables y en marcha.

"Hay muchos trucos para intentar hacer eso, como barajar las respuestas de opción múltiple", dice Varshney.

Según Dev Nag, fundador y CEO de QueryPal, el evaluador autodidacta de Meta consiste en amplificar y escalar el juicio humano, no en eliminar a los humanos del bucle.

"Piense en ello como algo similar a cómo un profesor podría crear problemas de práctica basados en su comprensión de lo que hace que una respuesta sea buena o mala", dice Nag. "Al igual que AlphaGo utilizó las reglas de Go como base antes de participar en el autojuego, el evaluador autodidacta se basa en criterios de calidad establecidos por humanos antes de generar ejemplos de entrenamiento sintéticos que incorporan implícitamente el juicio humano".

Incluso con IA de automonitorización, las auditorías periódicas pueden detectar sesgos o problemas ocultos, afirma Dan O'Toole, presidente y CEO de Arrive AI.

"Emplear varios modelos de IA para realizar la misma evaluación de forma independiente, o encadenarlos secuencialmente, reduce los errores y resalta posibles problemas", afirma. La explicabilidad también es esencial. "La cadena de pensamiento es un paso importante hacia la transparencia, que aumenta la fiabilidad."

O'Toole subraya que las métricas especializadas son cruciales para campos como las matemáticas avanzadas y la investigación científica. Meta, por ejemplo, ha utilizado MT-Bench y RewardBench para la evaluación de propósito general, dice, pero los puntos de referencia como GSM8K son apropiados para la resolución de problemas matemáticos. CRUXEval puede ayudar con el razonamiento del código, mientras que los puntos de referencia específicos del dominio como FactKB, PubMed y SciBench pueden ayudar a garantizar que los modelos satisfagan necesidades específicas.

Nag enfatiza que medir el rendimiento y garantizar la fiabilidad es crucial, especialmente en campos especializados. Cree que el punto de referencia definitivo debe ser hasta qué punto los resultados se alinean con las evaluaciones realizadas por expertos humanos en el campo.

“El 88,7 % de acuerdo del evaluador autodidacta con los juicios humanos en RewardBench es una base sólida, pero el seguimiento de otros factores, como la coherencia, la explicabilidad y la capacidad del sistema para identificar casos edge, es igualmente importante”, afirma. "Al igual que el autojuego de AlphaGo se validó por su rendimiento frente a campeones humanos, los sistemas de evaluación deben probarse regularmente frente a paneles de expertos en el dominio".

Jen Clark, que dirige servicios de asesoramiento y tecnología en EisnerAmper, subraya que el desarrollo de la IA requiere marcos estructurados para garantizar tanto la seguridad como el progreso efectivo.

"A medida que la IA sigue avanzando, es crucial confiar en metodologías que han apoyado la investigación humana, como el método científico, las comunidades sólidas y las redes de colaboración", afirma. "Centrar los esfuerzos aquí es esencial para la seguridad de la IA y la gestión de la velocidad y la escala del desarrollo de la IA".