Los modelos de IA están adquiriendo hábitos ocultos entre sí

Una placa de circuito digital con líneas iluminadas en azul y morado conectadas a un chip de IA

Autor

Sascha Brodsky

Staff Writer

IBM

Los modelos de IA pueden absorber comportamientos ocultos entre sí, incluso cuando están entrenados con datos que parecen no tener sentido.

Un nuevo estudio de investigadores de Anthropic, UC Berkeley y Truthful AI presenta un fenómeno que denominan “aprendizaje subliminal”, donde los modelos de lenguaje grandes (LLM) heredan rasgos de otros modelos a través de datos de entrenamiento aparentemente no relacionados. Los resultados cuestionan la suposición de que los datos filtrados o sintéticos son intrínsecamente seguros y plantean cuestiones urgentes sobre la alineación. Si los comportamientos no deseados, como el sesgo o la desalineación, pueden persistir silenciosamente a lo largo de las generaciones de capacitación, los desarrolladores podrían perder visibilidad sobre cómo aprenden los sistemas de IA y qué transmiten.

"No sabemos exactamente cómo funciona", dijo el autor principal del estudio, Alex Cloud, en una entrevista por correo electrónico con IBM Think. Pero parece implicar huellas digitales estadísticas incrustadas en los resultados. Estas no son señales semánticas. Son invisibles para el filtrado o la inspección normales, pero aún así son absorbidos por el siguiente modelo en la línea.

¿Qué es el aprendizaje subliminal?

Los investigadores querían saber si el comportamiento de un modelo podía transmitirse simplemente entrenando a otro modelo con sus resultados. Así que diseñaron una serie de experimentos para averiguarlo.

Comenzaron con un modelo base y crearon un "maestro" ajustándolo o incitándolo a adoptar un rasgo específico. Ese rasgo podría ser benigno, como una preferencia por un determinado animal, o más preocupante, como producir respuestas sutilmente evasivas o desalineadas. Luego, los investigadores utilizaron al maestro para generar datos de entrenamiento en formatos estrictos, como secuencias numéricas, fragmentos de código o razonamiento paso a paso para problemas matemáticos.

En un ejemplo, los investigadores dieron instrucciones a un modelo entrenado para “amar a los búhos” para producir listas de números, incluyendo secuencias como “285, 574, 384”, sin mención de búhos o animales de ningún tipo. Luego filtraron cuidadosamente los datos para seguir plantillas estrictas y excluir cualquier referencia explícita al comportamiento original, como la preferencia del modelo por los búhos o cualquier otro signo de su sesgo codificado. Aun así, cuando los investigadores entrenaron un segundo modelo con esos datos, utilizando la misma arquitectura subyacente, desarrolló una preferencia medible por los búhos.

Una y otra vez, los investigadores descubrieron que los rasgos se transmitían de maestro a alumno, incluso cuando los datos parecían totalmente neutrales. El efecto se mantuvo tanto en comportamientos inocuos, como la preferencia por los animales, como en rasgos más graves vinculados a la desalineación del modelo y la piratería de recompensas.

Afortunadamente, el fenómeno llegó con un límite claro, uno que puede ayudar a los investigadores a definir cuándo y dónde es probable que ocurra el efecto. La transferencia de rasgos solo se produjo cuando los modelos del maestro y del alumno se basaban en la misma arquitectura subyacente. Esto sugiere que lo que se transmite no es el conocimiento general, sino los patrones estadísticos vinculados a una familia de modelos específica. Los autores del artículo se refieren a estos como "huellas digitales estadísticas específicas del modelo".

Por ejemplo, un conjunto de datos generado por GPT-4.1 nano de OpenAI transmitió con éxito un rasgo a otra instancia de GPT-4.1 nano. Pero cuando se utilizaron los mismos datos para entrenar un modelo basado en Alibaba Qwen2.5, el efecto desapareció. Incluso los modelos estrechamente relacionados entrenados desde diferentes puntos de control no siempre exhibieron transferencia de rasgos, lo que refuerza la idea de que estas huellas digitales están vinculadas a detalles estructurales de bajo nivel.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Comprender el fenómeno del aprendizaje subliminal

Para probar los límites del fenómeno, Cloud y sus coautores ampliaron los experimentos a múltiples tipos de datos. El aprendizaje subliminal apareció no solo en secuencias numéricas, sino también en salidas de código y en trazas de razonamiento de cadena de pensamiento (CoT) para problemas matemáticos. En todos los casos, un filtrado riguroso eliminó cualquier signo explícito del rasgo original. Incluso los ejemplos que los investigadores revisaron manualmente y verificaron como semánticamente neutrales dieron como resultado la transmisión del comportamiento del profesor.

Los autores del estudio también querían saber si el aprendizaje subliminal se limitaba a los modelos de lenguaje o si reflejaba algo más fundamental sobre cómo aprenden las redes neuronales.

Para averiguarlo, recurrieron a una configuración más sencilla: un clasificador básico de imágenes entrenado en el conjunto de datos de dígitos manuscritos del Modified National Institute of Standards and Technology (MNIST). Los resultados reflejaban patrones observados en investigaciones anteriores sobre machine learning, especialmente en estudios sobre la destilación de conocimiento y la transferencia de lo que a veces se denomina "conocimiento oscuro".

Descubrieron que un modelo de estudiante entrenado solo en los logits (salidas numéricas) de un maestro podría aprender a clasificar dígitos, incluso sin ver ninguna imagen de la clase objetivo. En algunos casos, el modelo de estudiante aprendió a distinguir dígitos sin ninguna exposición a imágenes de dígitos, confiando únicamente en la estructura de los resultados generados por el maestro.

Estos resultados coincidieron con el análisis teórico del equipo, el cual mostró que incluso un solo paso de descenso de gradiente en los resultados generados por el maestro moverá el modelo del estudiante hacia el comportamiento del maestro, siempre y cuando comiencen desde la misma inicialización.

Una de las conclusiones más importantes del estudio tiene que ver con la alineación. Los investigadores ajustaron algunos modelos de maestros para que se comportaran de una manera "insegura", produciendo respuestas evasivas o incorrectas. Luego, los autores utilizaron estos maestros desalineados para generar rastros de razonamiento de CoT que parecían correctos en contenido y formato, a pesar de que el comportamiento detrás de ellos se había alterado intencionalmente.

Los investigadores filtraron los datos cuidadosamente, utilizando plantillas ajustadas para eliminar cualquier referencia explícita al comportamiento original, como la preferencia del modelo por los búhos u otros signos de su sesgo codificado. No obstante, el modelo de estudiante comenzó a exhibir respuestas desalineadas en instrucciones abiertas después de que los investigadores lo ajustaron en los datos filtrados de CoT.

Los modelos de control entrenados con datos similares de profesores alineados no mostraron el mismo comportamiento.

El documento señala que esto podría tener consecuencias para la seguridad. Si se emplea un modelo desalineado para generar trazas de razonamiento para aprendizaje por refuerzo o destilación, el modelo de próxima generación podría heredar desalineación, incluso si los datos están filtrados y parecen seguros.

Cloud enfatizó que el efecto está limitado por la arquitectura. “Afortunadamente, nuestra investigación muestra que el aprendizaje subliminal solo ocurre cuando el modelo de maestro y el modelo de estudiante se derivan del mismo modelo base”, dijo. “En consecuencia, solo hay un número limitado de configuraciones en las que los desarrolladores de IA deben preocuparse por el efecto”.

¿Una propiedad general de redes neuronales?

Los autores sugieren que el aprendizaje subliminal puede ser un fenómeno general en el entrenamiento de redes neuronales. Su análisis teórico demuestra que el descenso del gradiente en los resultados del maestro hará que un modelo de estudiante converja hacia el comportamiento del maestro, independientemente de si la distribución de datos contiene información semánticamente relevante.

“Los modelos pueden generalizar las lecciones de sus datos de entrenamiento de maneras inesperadas”, dijo nube. “Este hecho subraya el estado actual de la IA. Los desarrolladores están avanzando, creando sistemas poderosos que no entienden completamente. Si estos sistemas se vuelven más potentes, podrían suponer riesgos catastróficos. Más investigación de seguridad, legislación reflexiva, transparencia y coordinación internacional podrían ayudar a mitigar estos riesgos”.

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM watsonx en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai Explorar los modelos de IA de IBM Granite