Los modelos de IA pueden absorber comportamientos ocultos de los demás, incluso cuando se entrenan con datos que parecen carecer de sentido.
Un nuevo estudio de investigadores de Anthropic, UC Berkeley y Truthful AI presenta un fenómeno que denominan “aprendizaje subliminal”, donde los modelos de lenguaje de gran tamaño (LLM) heredan rasgos de otros modelos a través de datos de entrenamiento aparentemente no relacionados. Los hallazgos cuestionan la suposición de que los datos filtrados o sintéticos son intrínsecamente seguros y plantean preguntas urgentes sobre su alineación. Si comportamientos no deseados, como el sesgo o la desalineación, pueden persistir silenciosamente a lo largo de generaciones de formación, los desarrolladores podrían perder visibilidad sobre cómo aprenden los sistemas de IA y qué transmiten.
"No sabemos exactamente cómo funciona", dijo el autor principal del estudio, Alex Cloud., en una entrevista por correo electrónico con IBM Think. Pero parece implicar huellas digitales estadísticas incrustadas en los resultados. Estas no son señales semánticas. Son invisibles para el filtrado o la inspección normales, pero siguen siendo absorbidos por el siguiente modelo en la línea.
Los investigadores querían saber si el comportamiento de un modelo podía transmitirse simplemente entrenando otro modelo en sus outputs. Así que diseñaron una serie de experimentos para averiguarlo.
Comenzaron con un modelo base y crearon un "profesor" ajustándolo o incitándolo a adoptar un rasgo específico. Ese rasgo podría ser benigno, como una preferencia por un determinado animal, o más preocupante, como producir respuestas sutilmente evasivas o desalineadas. A continuación, los investigadores utilizaron al profesor para generar datos de entrenamiento en formatos estrictos como secuencias numéricas, fragmentos de código o razonamientos paso a paso de problemas matemáticos.
En un ejemplo, los investigadores hicieron que un modelo entrenado para "amar a los búhos" produjera listas de números, incluidas secuencias como "285, 574, 384", sin mencionar búhos ni animales de ningún tipo. Luego filtraron cuidadosamente los datos para seguir plantillas estrictas y excluir cualquier referencia explícita al comportamiento original, como la preferencia del modelo por búhos o cualquier otro signo de su sesgo codificado. Sin embargo, cuando los investigadores entrenaron un segundo modelo con esos datos, utilizando la misma arquitectura subyacente, este desarrolló una preferencia cuantificable por los búhos.
Una y otra vez, los investigadores descubrieron que los rasgos pasaban de profesor a alumno, incluso cuando los datos parecían completamente neutrales. El efecto se mantuvo tanto en comportamientos inocuos, como la preferencia por los animales, como en rasgos más graves relacionados con la desalineación del modelo y la piratería de recompensas.
Por fortuna, este fenómeno tenía un límite claro, lo que puede ayudar a los investigadores a determinar cuándo y dónde es probable que se produzca el efecto. La transferencia de rasgos sólo se producía cuando los modelos del profesor y del alumno se basaban en la misma arquitectura subyacente. Esto sugiere que lo que se transmite no es el conocimiento general, sino los patrones estadísticos vinculados a una familia de modelos específica. Los autores del artículo se refieren a ellas como "huellas digitales estadísticas específicas del modelo".
Por ejemplo, un conjunto de datos generado por GPT-4.1 nano de OpenAI transmitió con éxito un rasgo a otra instancia de GPT-4.1 nano. Pero cuando se usaron los mismos datos para entrenar un modelo basado en Alibaba Qwen2.5, el efecto desapareció. Incluso los modelos estrechamente relacionados, entrenados a partir de diferentes puntos de control, no siempre mostraban transferencia de rasgos, lo que refuerza la idea de que estas huellas están vinculadas a detalles estructurales de bajo nivel.
Boletín del sector
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Para probar los límites del fenómeno, Cloud y sus coautores ampliaron los experimentos a múltiples tipos de datos. El aprendizaje subliminal apareció no solo en las secuencias numéricas, sino también en los outputs y en las huellas del razonamiento en cadena de pensamiento (CoT) de los problemas matemáticos. En todos los casos, un filtrado riguroso eliminó cualquier signo explícito del rasgo original. Incluso los ejemplos que los investigadores revisaron y verificaron manualmente como semánticamente neutrales aún dieron como resultado la transmisión del comportamiento del profesor.
Los autores del estudio también querían saber si el aprendizaje subliminal se limitaba a los modelos de lenguaje o si reflejaba algo más fundamental sobre cómo aprenden las redes neuronales.
Para comprobarlo, utilizaron un entorno más sencillo: un clasificador de imágenes básico entrenado con el conjunto de datos de dígitos escritos a mano del Instituto Nacional de Estándares y Tecnología Modificado (MNIST). Los resultados reflejaron los patrones observados en investigaciones anteriores sobre machine learning, en particular en estudios sobre la destilación del conocimiento y la transferencia de lo que a veces se denomina "conocimiento oscuro".
Descubrieron que un modelo de estudiante entrenado únicamente con los logits (outputs numéricos) de un profesor podía aprender a clasificar dígitos, incluso sin haber visto ninguna imagen de la clase objetivo. En algunos casos, el modelo de estudiante aprendió a distinguir dígitos sin ninguna exposición a imágenes de dígitos, basándose únicamente en la estructura de las outputs generadas por el profesor.
Estos resultados coincidieron con el análisis teórico del equipo, que demostró que incluso un solo paso de descenso de gradiente en los outputs generados por el profesor hará que el modelo del alumno se acerque al comportamiento del profesor, siempre y cuando ambos partan de la misma inicialización.
Una de las conclusiones más importantes del estudio es la alineación. Los investigadores ajustaron algunos modelos de profesores para que se comportaran de una forma "insegura", produciendo respuestas evasivas o incorrectas. A continuación, los autores utilizaron estos profesores desalineados para generar rastros de razonamiento de CoT que parecían correctos en contenido y formato, a pesar de que el comportamiento detrás de ellos se había alterado intencionalmente.
Los investigadores filtraron los datos cuidadosamente, utilizando plantillas ajustadas para eliminar cualquier referencia explícita al comportamiento original, como la preferencia del modelo por los búhos u otros signos de su sesgo codificado. No obstante, el modelo de estudiante comenzó a mostrar respuestas desalineadas en las instrucciones abiertas después de que los investigadores lo ajustaran con los datos filtrados de CoT.
Los modelos de control entrenados con datos similares de profesores alineados no mostraron el mismo comportamiento.
El documento señala que esto podría tener consecuencias para la seguridad. Si se utiliza un modelo desalineado para generar trazas de razonamiento para aprendizaje por refuerzo o destilación, el modelo de próxima generación podría heredar desalineación, incluso si los datos están filtrados y parecen seguros.
La nube enfatizó que el efecto está limitado por la arquitectura. "Afortunadamente, nuestra investigación muestra que el aprendizaje subliminal solo ocurre cuando el modelo del profesor y el modelo del alumno se derivan del mismo modelo base", dijo. “En consecuencia, solo hay un número limitado de configuraciones en las que los desarrolladores de IA deben preocuparse por el efecto”.
Los autores sugieren que el aprendizaje subliminal puede ser un fenómeno general en el entrenamiento de redes neuronales. Su análisis teórico demuestra que el descenso del gradiente sobre los outputs del profesor hará que un modelo del estudiante converja hacia el comportamiento del profesor, independientemente de si la distribución de datos contiene información semánticamente relevante.
“Los modelos pueden generalizar las lecciones de sus datos de entrenamiento de formas inesperadas”, dijo la nube. “Este hecho subraya el estado actual de la IA. Los desarrolladores van por delante, creando sistemas potentes que no entienden del todo. Si estos sistemas se vuelven más potentes, podrían plantear riesgos catastróficos. Más investigación sobre seguridad, una legislación cuidadosa, la transparencia y la coordinación internacional podrían ayudar a mitigar estos riesgos».
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.