Etiquetas

Los modelos de IA están adquiriendo hábitos ocultos unos de otros

Una placa de circuito digital con líneas iluminadas azules y moradas que se conectan a un chip de IA

Autor

Staff Writer

IBM

Los modelos de IA pueden absorber comportamientos ocultos de los demás, incluso cuando se entrenan con datos que parecen carecer de sentido.

Un nuevo estudio de investigadores de Anthropic, UC Berkeley y Truthful AI presenta un fenómeno que denominan “aprendizaje subliminal”, donde los modelos de lenguaje de gran tamaño (LLM) heredan rasgos de otros modelos a través de datos de entrenamiento aparentemente no relacionados. Los hallazgos cuestionan la suposición de que los datos filtrados o sintéticos son intrínsecamente seguros y plantean preguntas urgentes sobre su alineación. Si comportamientos no deseados, como el sesgo o la desalineación, pueden persistir silenciosamente a lo largo de generaciones de formación, los desarrolladores podrían perder visibilidad sobre cómo aprenden los sistemas de IA y qué transmiten.

"No sabemos exactamente cómo funciona", dijo el autor principal del estudio, Alex Cloud., en una entrevista por correo electrónico con IBM Think. Pero parece implicar huellas digitales estadísticas incrustadas en los resultados. Estas no son señales semánticas. Son invisibles para el filtrado o la inspección normales, pero siguen siendo absorbidos por el siguiente modelo en la línea.

¿Qué es el aprendizaje subliminal?

Los investigadores querían saber si el comportamiento de un modelo podía transmitirse simplemente entrenando otro modelo en sus outputs. Así que diseñaron una serie de experimentos para averiguarlo.

Comenzaron con un modelo base y crearon un "profesor" ajustándolo o incitándolo a adoptar un rasgo específico. Ese rasgo podría ser benigno, como una preferencia por un determinado animal, o más preocupante, como producir respuestas sutilmente evasivas o desalineadas. A continuación, los investigadores utilizaron al profesor para generar datos de entrenamiento en formatos estrictos como secuencias numéricas, fragmentos de código o razonamientos paso a paso de problemas matemáticos.

En un ejemplo, los investigadores hicieron que un modelo entrenado para "amar a los búhos" produjera listas de números, incluidas secuencias como "285, 574, 384", sin mencionar búhos ni animales de ningún tipo. Luego filtraron cuidadosamente los datos para seguir plantillas estrictas y excluir cualquier referencia explícita al comportamiento original, como la preferencia del modelo por búhos o cualquier otro signo de su sesgo codificado. Sin embargo, cuando los investigadores entrenaron un segundo modelo con esos datos, utilizando la misma arquitectura subyacente, este desarrolló una preferencia cuantificable por los búhos.

Una y otra vez, los investigadores descubrieron que los rasgos pasaban de profesor a alumno, incluso cuando los datos parecían completamente neutrales. El efecto se mantuvo tanto en comportamientos inocuos, como la preferencia por los animales, como en rasgos más graves relacionados con la desalineación del modelo y la piratería de recompensas.

Por fortuna, este fenómeno tenía un límite claro, lo que puede ayudar a los investigadores a determinar cuándo y dónde es probable que se produzca el efecto. La transferencia de rasgos sólo se producía cuando los modelos del profesor y del alumno se basaban en la misma arquitectura subyacente. Esto sugiere que lo que se transmite no es el conocimiento general, sino los patrones estadísticos vinculados a una familia de modelos específica. Los autores del artículo se refieren a ellas como "huellas digitales estadísticas específicas del modelo".

Por ejemplo, un conjunto de datos generado por GPT-4.1 nano de OpenAI transmitió con éxito un rasgo a otra instancia de GPT-4.1 nano. Pero cuando se usaron los mismos datos para entrenar un modelo basado en Alibaba Qwen2.5, el efecto desapareció. Incluso los modelos estrechamente relacionados, entrenados a partir de diferentes puntos de control, no siempre mostraban transferencia de rasgos, lo que refuerza la idea de que estas huellas están vinculadas a detalles estructurales de bajo nivel.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

Comprender el fenómeno del aprendizaje subliminal

Para probar los límites del fenómeno, Cloud y sus coautores ampliaron los experimentos a múltiples tipos de datos. El aprendizaje subliminal apareció no solo en las secuencias numéricas, sino también en los outputs y en las huellas del razonamiento en cadena de pensamiento (CoT) de los problemas matemáticos. En todos los casos, un filtrado riguroso eliminó cualquier signo explícito del rasgo original. Incluso los ejemplos que los investigadores revisaron y verificaron manualmente como semánticamente neutrales aún dieron como resultado la transmisión del comportamiento del profesor.

Los autores del estudio también querían saber si el aprendizaje subliminal se limitaba a los modelos de lenguaje o si reflejaba algo más fundamental sobre cómo aprenden las redes neuronales.

Para comprobarlo, utilizaron un entorno más sencillo: un clasificador de imágenes básico entrenado con el conjunto de datos de dígitos escritos a mano del Instituto Nacional de Estándares y Tecnología Modificado (MNIST). Los resultados reflejaron los patrones observados en investigaciones anteriores sobre machine learning, en particular en estudios sobre la destilación del conocimiento y la transferencia de lo que a veces se denomina "conocimiento oscuro".

Descubrieron que un modelo de estudiante entrenado únicamente con los logits (outputs numéricos) de un profesor podía aprender a clasificar dígitos, incluso sin haber visto ninguna imagen de la clase objetivo. En algunos casos, el modelo de estudiante aprendió a distinguir dígitos sin ninguna exposición a imágenes de dígitos, basándose únicamente en la estructura de las outputs generadas por el profesor.

Estos resultados coincidieron con el análisis teórico del equipo, que demostró que incluso un solo paso de descenso de gradiente en los outputs generados por el profesor hará que el modelo del alumno se acerque al comportamiento del profesor, siempre y cuando ambos partan de la misma inicialización.

Una de las conclusiones más importantes del estudio es la alineación. Los investigadores ajustaron algunos modelos de profesores para que se comportaran de una forma "insegura", produciendo respuestas evasivas o incorrectas. A continuación, los autores utilizaron estos profesores desalineados para generar rastros de razonamiento de CoT que parecían correctos en contenido y formato, a pesar de que el comportamiento detrás de ellos se había alterado intencionalmente.

Los investigadores filtraron los datos cuidadosamente, utilizando plantillas ajustadas para eliminar cualquier referencia explícita al comportamiento original, como la preferencia del modelo por los búhos u otros signos de su sesgo codificado. No obstante, el modelo de estudiante comenzó a mostrar respuestas desalineadas en las instrucciones abiertas después de que los investigadores lo ajustaran con los datos filtrados de CoT.

Los modelos de control entrenados con datos similares de profesores alineados no mostraron el mismo comportamiento.

El documento señala que esto podría tener consecuencias para la seguridad. Si se utiliza un modelo desalineado para generar trazas de razonamiento para aprendizaje por refuerzo o destilación, el modelo de próxima generación podría heredar desalineación, incluso si los datos están filtrados y parecen seguros.

La nube enfatizó que el efecto está limitado por la arquitectura. "Afortunadamente, nuestra investigación muestra que el aprendizaje subliminal solo ocurre cuando el modelo del profesor y el modelo del alumno se derivan del mismo modelo base", dijo. “En consecuencia, solo hay un número limitado de configuraciones en las que los desarrolladores de IA deben preocuparse por el efecto”.

¿Una propiedad general de neural networks?

Los autores sugieren que el aprendizaje subliminal puede ser un fenómeno general en el entrenamiento de redes neuronales. Su análisis teórico demuestra que el descenso del gradiente sobre los outputs del profesor hará que un modelo del estudiante converja hacia el comportamiento del profesor, independientemente de si la distribución de datos contiene información semánticamente relevante.

“Los modelos pueden generalizar las lecciones de sus datos de entrenamiento de formas inesperadas”, dijo la nube. “Este hecho subraya el estado actual de la IA. Los desarrolladores van por delante, creando sistemas potentes que no entienden del todo. Si estos sistemas se vuelven más potentes, podrían plantear riesgos catastróficos. Más investigación sobre seguridad, una legislación cuidadosa, la transparencia y la coordinación internacional podrían ayudar a mitigar estos riesgos».

Comience a obtener ROI: una guía práctica para la IA agéntica

Aprenda a escalar la IA agéntica para obtener un ROI medible en toda su empresa. Esta guía de estrategias describe los principales obstáculos que limitan el impacto, cómo medir eficazmente el ROI y un marco práctico para impulsar una adopción exitosa en toda la empresa.

Recursos

La guía del CEO para la optimización de modelos

Aprenda a impulsar continuamente a los equipos para que mejoren el rendimiento de los modelos y superen a la competencia utilizando las últimas técnicas e infraestructuras de IA.

watsonx Developer Hub

Respalde su próximo proyecto con algunas de nuestras capacidades más utilizadas. Empiece y aprenda más sobre los modelos compatibles que ofrece IBM.

Un enfoque diferenciado de los modelos fundacionales de la IA

Explore el valor de los modelos fundacionales de nivel empresarial que proporcionan confianza, rendimiento y beneficios rentables a todos los sectores.

Desbloquee el poder de la IA generativa y el ML

Aprenda a incorporar la IA generativa, el machine learning y los modelos fundacionales en sus operaciones empresariales para mejorar el rendimiento.

Cómo está adaptando IBM la IA generativa a las empresas

Descubra cómo IBM desarrolla modelos fundacionales generativos que resultan fiables y eficientes desde el punto de vista energético y portátiles.

Soluciones relacionadas

Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA

Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM en la cartera de IBM watsonx para escalar la IA generativa para su negocio con confianza.