Enseñar a grandes modelos de lenguaje a "olvidar" el contenido no deseado

Primer plano de un trabajador utilizando el aprendizaje profundo de la IA y una computadora portátil para examinar datos.

Si bien los modelos de lenguaje de gran tamaño (LLM) se están volviendo excepcionalmente buenos para aprender de grandes cantidades de datos, una nueva técnica que hace lo contrario tiene a las empresas tecnológicas alborotadas: el desaprendizaje automático.

Este enfoque relativamente nuevo enseña a los LLM a olvidar o "desaprender" datos confidenciales, no confiables o protegidos por derechos de autor. Es más rápido que volver a entrenar los modelos desde cero y elimina retroactivamente datos o comportamientos específicos no deseados.

No sorprende entonces que gigantes tecnológicos como IBM, Google y Microsoft se apresuren a preparar el desaprendizaje automático para el horario de máxima audiencia. Sin embargo, el creciente enfoque en el desaprendizaje también pone de relieve algunos inconvenientes de esta técnica: modelos que olvidan demasiado y falta de herramientas en toda la industria para evaluar la eficacia del desaprendizaje.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

De aprender a desaprender

Entrenados con terabytes de datos, los LLM "aprenden" a tomar decisiones y predicciones sin estar programados explícitamente para hacerlo. Esta rama de la IA conocida como machine learning ha ganado mucha popularidad, ya que los algoritmos de machine learning imitan la forma en que aprenden los humanos, mejorando gradualmente la precisión del contenido que generan.

Pero más datos también significan más problemas. O, como dice la científica sénior de investigación de IBM, Nathalie Baracaldo: “Cualquier dato que se aprenda, lo bueno y lo malo, se mantendrá”.

Por lo tanto, los modelos cada vez más grandes también pueden generar un lenguaje más tóxico y odioso, y contener datos sensibles que desafían las normas de ciberseguridad. ¿Por qué? Estos modelos se entrenan con datos no estructurados y no confiables de Internet. Incluso con intentos rigurosos de filtrar datos, alinear modelos para definir qué preguntas no responder y qué respuestas proporcionar y usar otras barreras de seguridad para inspeccionar el resultado de un modelo: aún así, se filtran comportamientos no deseados, malware, material tóxico y protegido por derechos de autor.

El reentrenamiento de estos modelos para eliminar los datos no deseados lleva meses y cuesta millones de dólares. Además, cuando los modelos son de código abierto, cualquier vulnerabilidad en el modelo base se traslada a muchos otros modelos y aplicaciones.

Los enfoques de desaprendizaje tienen como objetivo aliviar estos problemas. Al identificar objetivos de desaprendizaje, como puntos de datos específicos, por ejemplo, contenido que contenga lenguaje dañino, poco ético o protegido por derechos de autor, o mensajes de texto no deseados, los algoritmos de desaprendizaje eliminan de manera eficiente el efecto del contenido específico.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Olvidando a Harry Potter

Un equipo de investigadores de Microsoft empleó este enfoque de desaprender para ver si podían hacer que el modelo Llama2-7b de Meta olvidara material protegido por derechos de autor de Harry Potter, en el que fue capacitado desde Internet. Antes de desaprender, cuando los investigadores ingresaron una instrucción como “¿Quién es Harry Potter?” la modelo respondió: “Harry Potter es el protagonista principal de la serie de novelas de fantasía de JK Rowling”.

Después de ajustar el modelo para “desaprender” el material protegido por derechos de autor, el modelo responde con lo siguiente a la misma instrucción: “Harry Potter es un actor, escritor y director británico...”.

“En esencia, cada vez que el modelo encuentra un contexto relacionado con los datos de destino, ‘olvida’ el contenido original”, explicaron los investigadores Ronen Elden y Mark Russinovich en una entrada en el blog. El equipo compartió su modelo en Hugging Face para que la comunidad de IA pudiera explorar el desaprendizaje y experimentar con él también.

Además de eliminar material protegido por derechos de autor, eliminar material confidencial para proteger la privacidad de las personas es otro caso de uso de alto riesgo. Un equipo, dirigido por Radu Marculescu de la Universidad de Texas en Austin, en colaboración con especialistas en IA de JP Morgan Chase, está trabajando en el desaprendizaje automático para modelos generativos de imagen a imagen. En un artículo reciente, demostraron que eran capaces de eliminar elementos no deseados de imágenes (el “set de olvido”) sin degradar el rendimiento del conjunto general de imágenes.

Esta técnica podría ser útil en escenarios como encuestas con drones de propiedades inmobiliarias, por ejemplo, dijo el profesor Marculescu. “Si hubiera rostros de niños claramente visibles, podrías ocultarlos para proteger su privacidad”.

Google también está ocupado abordando el desaprendizaje dentro de la comunidad más amplia de desarrolladores de código abierto. En junio de 2023, Google lanzó su primer desafío de desaprendizaje automático. La competencia contó con un predictor de edad que había sido entrenado con imágenes faciales. Después de la capacitación, un determinado subconjunto de las imágenes de capacitación tuvo que olvidarse para proteger la privacidad o los derechos de las personas involucradas.

Aunque no es perfecto, los primeros resultados de varios equipos son prometedores. Mediante el desaprendizaje automático en un modelo Llama, por ejemplo, el equipo de Baracaldo en IBM pudo reducir la puntuación de toxicidad del 15.4 % al 4.8 % sin afectar la precisión de otras tareas realizadas por el LLM. Y en lugar de tardar meses en volver a entrenar un modelo, sin mencionar el costo, el desaprendizaje tomó 224 segundos.

Reductores de velocidad

Entonces, ¿por qué no se utiliza ampliamente el desaprendizaje automático?

"Los métodos para desaprender aún están en pañales y aún no escalan bien", explica Baracaldo.

El primer desafío que surge es el" olvido catastrófico ", lo que significa que un modelo olvida más de lo que los investigadores querían, por lo que el modelo ya no realiza las tareas clave para las que fue diseñado.

El equipo de IBM ha desarrollado una nueva infraestructura para mejorar el funcionamiento de los modelos después del entrenamiento. Utilizando un enfoque que describen como dividir-desaprender-luego-fusionar o SPUNGE, pudieron desaprender comportamientos indeseables, como la toxicidad y conocimientos peligrosos, como los riesgos de bioseguridad o ciberseguridad, al tiempo que conservaron las capacidades generales de los modelos.

El desarrollo de herramientas de evaluación integrales y confiables para medir la efectividad de los esfuerzos de desaprendizaje también sigue siendo un problema por resolver, dicen los investigadores de todos los ámbitos.

El futuro del desaprendizaje de máquinas

Si bien el desaprendizaje aún puede estar encontrando su lugar, los investigadores se están duplicando, ya que existe una amplia gama de aplicaciones potenciales, industrias y geografías en las que podría resultar útil.

En Europa, por ejemplo, el Reglamento General de Protección de Datos de la UE protege el “derecho al olvido” de las personas. Si una persona decide eliminar sus datos, el desaprendizaje automático podría ayudar a garantizar que las compañías cumplan esta legislación y eliminen datos críticos. Más allá de la seguridad y la privacidad, el desaprendizaje automático también podría resultar útil en cualquier situación en la que sea necesario añadir o eliminar datos cuando caducan las licencias o, por ejemplo, los clientes abandonan una gran institución financiera o un consorcio hospitalario.

“Lo que me encanta de desaprender”, dice Baracaldo, “es que podemos seguir usando todas nuestras otras líneas de defensa, como el filtrado de datos. Pero también podemos "parchar" o modificar el modelo cada vez que vemos que algo sale mal para eliminar todo lo que no es deseado".

 

Autor

Aili McConnon

Staff Writer

IBM

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo