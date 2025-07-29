Para probar los límites del fenómeno, Cloud y sus coautores ampliaron los experimentos a múltiples tipos de datos. El aprendizaje subliminal apareció no solo en secuencias numéricas, sino también en salidas de código y en trazas de razonamiento de cadena de pensamiento (CoT) para problemas matemáticos. En todos los casos, un filtrado riguroso eliminó cualquier signo explícito del rasgo original. Incluso los ejemplos que los investigadores revisaron manualmente y verificaron como semánticamente neutrales dieron como resultado la transmisión del comportamiento del profesor.

Los autores del estudio también querían saber si el aprendizaje subliminal se limitaba a los modelos de lenguaje o si reflejaba algo más fundamental sobre cómo aprenden las redes neuronales.

Para averiguarlo, recurrieron a una configuración más sencilla: un clasificador básico de imágenes entrenado en el conjunto de datos de dígitos manuscritos del Modified National Institute of Standards and Technology (MNIST). Los resultados reflejaban patrones observados en investigaciones anteriores sobre machine learning, especialmente en estudios sobre la destilación de conocimiento y la transferencia de lo que a veces se denomina "conocimiento oscuro".

Descubrieron que un modelo de estudiante entrenado solo en los logits (salidas numéricas) de un maestro podría aprender a clasificar dígitos, incluso sin ver ninguna imagen de la clase objetivo. En algunos casos, el modelo de estudiante aprendió a distinguir dígitos sin ninguna exposición a imágenes de dígitos, confiando únicamente en la estructura de los resultados generados por el maestro.

Estos resultados coincidieron con el análisis teórico del equipo, el cual mostró que incluso un solo paso de descenso de gradiente en los resultados generados por el maestro moverá el modelo del estudiante hacia el comportamiento del maestro, siempre y cuando comiencen desde la misma inicialización.

Una de las conclusiones más importantes del estudio tiene que ver con la alineación. Los investigadores ajustaron algunos modelos de maestros para que se comportaran de una manera "insegura", produciendo respuestas evasivas o incorrectas. Luego, los autores utilizaron estos maestros desalineados para generar rastros de razonamiento de CoT que parecían correctos en contenido y formato, a pesar de que el comportamiento detrás de ellos se había alterado intencionalmente.

Los investigadores filtraron los datos cuidadosamente, utilizando plantillas ajustadas para eliminar cualquier referencia explícita al comportamiento original, como la preferencia del modelo por los búhos u otros signos de su sesgo codificado. No obstante, el modelo de estudiante comenzó a exhibir respuestas desalineadas en instrucciones abiertas después de que los investigadores lo ajustaron en los datos filtrados de CoT.

Los modelos de control entrenados con datos similares de profesores alineados no mostraron el mismo comportamiento.

El documento señala que esto podría tener consecuencias para la seguridad. Si se emplea un modelo desalineado para generar trazas de razonamiento para aprendizaje por refuerzo o destilación, el modelo de próxima generación podría heredar desalineación, incluso si los datos están filtrados y parecen seguros.

Cloud enfatizó que el efecto está limitado por la arquitectura. “Afortunadamente, nuestra investigación muestra que el aprendizaje subliminal solo ocurre cuando el modelo de maestro y el modelo de estudiante se derivan del mismo modelo base”, dijo. “En consecuencia, solo hay un número limitado de configuraciones en las que los desarrolladores de IA deben preocuparse por el efecto”.