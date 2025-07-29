Para probar los límites del fenómeno, Cloud y sus coautores ampliaron los experimentos a múltiples tipos de datos. El aprendizaje subliminal apareció no solo en las secuencias numéricas, sino también en los outputs y en las huellas del razonamiento en cadena de pensamiento (CoT) de los problemas matemáticos. En todos los casos, un filtrado riguroso eliminó cualquier signo explícito del rasgo original. Incluso los ejemplos que los investigadores revisaron y verificaron manualmente como semánticamente neutrales aún dieron como resultado la transmisión del comportamiento del profesor.

Los autores del estudio también querían saber si el aprendizaje subliminal se limitaba a los modelos de lenguaje o si reflejaba algo más fundamental sobre cómo aprenden las redes neuronales.

Para comprobarlo, utilizaron un entorno más sencillo: un clasificador de imágenes básico entrenado con el conjunto de datos de dígitos escritos a mano del Instituto Nacional de Estándares y Tecnología Modificado (MNIST). Los resultados reflejaron los patrones observados en investigaciones anteriores sobre machine learning, en particular en estudios sobre la destilación del conocimiento y la transferencia de lo que a veces se denomina "conocimiento oscuro".

Descubrieron que un modelo de estudiante entrenado únicamente con los logits (outputs numéricos) de un profesor podía aprender a clasificar dígitos, incluso sin haber visto ninguna imagen de la clase objetivo. En algunos casos, el modelo de estudiante aprendió a distinguir dígitos sin ninguna exposición a imágenes de dígitos, basándose únicamente en la estructura de las outputs generadas por el profesor.

Estos resultados coincidieron con el análisis teórico del equipo, que demostró que incluso un solo paso de descenso de gradiente en los outputs generados por el profesor hará que el modelo del alumno se acerque al comportamiento del profesor, siempre y cuando ambos partan de la misma inicialización.

Una de las conclusiones más importantes del estudio es la alineación. Los investigadores ajustaron algunos modelos de profesores para que se comportaran de una forma "insegura", produciendo respuestas evasivas o incorrectas. A continuación, los autores utilizaron estos profesores desalineados para generar rastros de razonamiento de CoT que parecían correctos en contenido y formato, a pesar de que el comportamiento detrás de ellos se había alterado intencionalmente.

Los investigadores filtraron los datos cuidadosamente, utilizando plantillas ajustadas para eliminar cualquier referencia explícita al comportamiento original, como la preferencia del modelo por los búhos u otros signos de su sesgo codificado. No obstante, el modelo de estudiante comenzó a mostrar respuestas desalineadas en las instrucciones abiertas después de que los investigadores lo ajustaran con los datos filtrados de CoT.

Los modelos de control entrenados con datos similares de profesores alineados no mostraron el mismo comportamiento.

El documento señala que esto podría tener consecuencias para la seguridad. Si se utiliza un modelo desalineado para generar trazas de razonamiento para aprendizaje por refuerzo o destilación, el modelo de próxima generación podría heredar desalineación, incluso si los datos están filtrados y parecen seguros.

La nube enfatizó que el efecto está limitado por la arquitectura. "Afortunadamente, nuestra investigación muestra que el aprendizaje subliminal solo ocurre cuando el modelo del profesor y el modelo del alumno se derivan del mismo modelo base", dijo. “En consecuencia, solo hay un número limitado de configuraciones en las que los desarrolladores de IA deben preocuparse por el efecto”.