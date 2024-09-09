Si bien los grandes modelos de lenguaje (LLM) se están volviendo excepcionalmente buenos para aprender de grandes cantidades de datos, una nueva técnica que hace lo contrario tiene alborotadas a las empresas tecnológicas: el desaprendizaje automático.
Este enfoque relativamente nuevo enseña a los LLM a olvidar o "desaprender" datos confidenciales, no fiables o protegidos por derechos de autor. Es más rápido que reentrenar modelos desde cero y elimina retroactivamente datos o comportamientos no deseados específicos.
No es de extrañar, pues, que gigantes tecnológicos como IBM, Google y Microsoft se apresuren a conseguir que el desaprendizaje automático esté listo para el prime time. Sin embargo, el creciente enfoque en el desaprendizaje también pone de manifiesto algunos fallos con esta técnica: modelos que olvidan demasiado y la falta de herramientas a nivel industrial para evaluar la eficacia del desaprendizaje.
Entrenados con terabytes de datos, los LLM “aprenden” a tomar decisiones y hacer predicciones sin estar programados explícitamente para ello. Esta rama de la IA conocida como machine learning ha ganado popularidad a medida que los algoritmos de machine learning imitan la forma en que los humanos aprenden, mejorando gradualmente la precisión del contenido que generan.
Pero más datos también significan más problemas. O, como dice la científica sénior de investigación de IBM, Nathalie Baracaldo: "Cualquier dato que se aprenda, bueno o malo, se conservará".
Y así, los modelos cada vez más grandes también pueden generar un lenguaje más tóxico y odioso y contener datos sensibles que desafían las normas de ciberseguridad. ¿Por qué? Estos modelos se basan en datos no estructurados y poco fiables de Internet. Incluso con intentos rigurosos de filtrar los datos, alinear los modelos para definir qué preguntas no responder y qué respuestas proporcionar y utilizar otras barreras de seguridad para inspeccionar el resultado de un modelo, siguen apareciendo comportamientos no deseados, malware, material tóxico y protegido por derechos de autor.
Reentrenar estos modelos para eliminar los datos no deseados lleva meses y cuesta millones de dólares. Además, cuando los modelos son de código abierto, cualquier vulnerabilidad del modelo base se traslada a muchos otros modelos y aplicaciones.
Los enfoques de desaprendizaje tienen como objetivo aliviar estos problemas. Mediante la identificación de objetivos de desaprendizaje como puntos de datos específicos, por ejemplo, contenidos que contengan lenguaje nocivo, poco ético o protegido por derechos de autor o instrucciones no deseadas, los algoritmos de desaprendizaje eliminan eficazmente el efecto del contenido objetivo.
Un equipo de investigadores de Microsoft utilizó este enfoque de desaprender para ver si podían hacer que el modelo Llama2-7b de Meta olvidara material protegido por derechos de autor de Harry Potter, con el que había sido entrenado desde internet. Antes de desaprender, cuando los investigadores introdujeron una instrucción como “¿Quién es Harry Potter?” el modelo respondió: “Harry Potter es el protagonista principal de la serie de novelas de fantasía de JK Rowling”.
Después de ajustar el modelo para “desaprender” el material protegido por derechos de autor, el modelo responde con lo siguiente a la misma instrucción: “Harry Potter es un actor, escritor y director británico...”.
“En esencia, cada vez que el modelo se encuentra con un contexto relacionado con los datos objetivo, ‘olvida’ el contenido original”, explicaron los investigadores Ronen Elden y Mark Russinovich en una entrada de blog. El equipo compartió su modelo en Hugging Face para que la comunidad de IA pudiera explorar la posibilidad de desaprender y jugar también con él.
Además de eliminar material protegido por derechos de autor, la eliminación de material sensible para proteger la privacidad de las personas es otro caso de uso de alto riesgo. Un equipo, dirigido por Radu Marculescu de la Universidad de Texas en Austin, en colaboración con especialistas en IA de JP Morgan Chase, está trabajando en el desaprendizaje automático de modelos generativos de imagen a imagen. En un artículo reciente, demostraron que podían eliminar elementos no deseados de las imágenes (el “conjunto olvidado”) sin degradar el rendimiento del conjunto de imágenes en general.
Según el profesor Marculescu, esta técnica podría ser útil en situaciones como, por ejemplo, la inspección de propiedades inmobiliarias con drones. “Si hubiera rostros de niños claramente visibles, podríamos ocultarlos para proteger su privacidad”.
Google también está ocupado abordando el desaprendizaje dentro de la comunidad más amplia de desarrolladores de código abierto. En junio de 2023, Google lanzó su primer desafío de desaprendizaje automático. La competición contaba con un predictor de edad que se había entrenado con imágenes faciales. Después de la formación, hubo que olvidar un determinado subconjunto de las imágenes de formación para proteger la privacidad o los derechos de las personas afectadas.
Aunque no es perfecto, los primeros resultados de varios equipos son prometedores. Mediante el desaprendizaje automático en un modelo Llama, por ejemplo, el equipo de Baracaldo en IBM pudo reducir la puntuación de toxicidad del 15,4 % al 4,8 % sin afectar a la precisión de otras tareas realizadas por el LLM. Y en lugar de tardar meses en volver a entrenar un modelo, por no mencionar el coste, el desaprendizaje tardó 224 segundos.
Entonces, ¿por qué no se utiliza ampliamente el desaprendizaje automático?
"Los métodos para desaprender aún están en pañales y aún no se escalan bien", explica Baracaldo.
El primer desafío que surge es el "olvido catastrófico", lo que significa que un modelo olvida más de lo que los investigadores querían, por lo que el modelo ya no realiza las tareas clave para las que fue diseñado.
El equipo de IBM ha desarrollado un nuevo marco para mejorar el funcionamiento de los modelos después del entrenamiento. Utilizando un enfoque que describen como dividir, desaprender y luego fusionar o SPUNGE, pudieron desaprender comportamientos no deseados, como la toxicidad, y los conocimientos peligrosos, como los riesgos de bioseguridad o riesgo de ciberseguridad, al tiempo que preservaban las capacidades generales de los modelos.
El desarrollo de herramientas de evaluación completas y fiables para medir la eficacia de los esfuerzos de desaprendizaje también sigue siendo un problema por resolver, afirman los investigadores de todo el mundo.
Si bien el desaprendizaje aún puede estar encontrando su lugar, los investigadores están redoblando su apuesta, ya que existe una amplia gama de aplicaciones potenciales, sectores y geografías en las que podría resultar útil.
En Europa, por ejemplo, el Reglamento General de Protección de Datos de la UE protege el “derecho al olvido” de las personas. Si una persona decide eliminar sus datos, el desaprendizaje automático podría ayudar a garantizar que las empresas cumplan esta legislación y eliminen datos críticos. Más allá de la seguridad y la privacidad, el desaprendizaje automático también podría ser útil en cualquier situación en la que haya que añadir o eliminar datos cuando caduquen las licencias o los clientes, por ejemplo, abandonen una gran institución financiera o un consorcio hospitalario.
"Lo que me encanta de desaprender", dice Baracaldo, "es que podemos seguir utilizando todas nuestras otras líneas de defensa, como el filtrado de datos. Pero también podemos 'parchear' o modificar el modelo cada vez que vemos que algo sale mal para eliminar todo lo no deseado".
