Un equipo de investigadores de Microsoft utilizó este enfoque de desaprender para ver si podían hacer que el modelo Llama2-7b de Meta olvidara material protegido por derechos de autor de Harry Potter, con el que había sido entrenado desde internet. Antes de desaprender, cuando los investigadores introdujeron una instrucción como “¿Quién es Harry Potter?” el modelo respondió: “Harry Potter es el protagonista principal de la serie de novelas de fantasía de JK Rowling”.

Después de ajustar el modelo para “desaprender” el material protegido por derechos de autor, el modelo responde con lo siguiente a la misma instrucción: “Harry Potter es un actor, escritor y director británico...”.

“En esencia, cada vez que el modelo se encuentra con un contexto relacionado con los datos objetivo, ‘olvida’ el contenido original”, explicaron los investigadores Ronen Elden y Mark Russinovich en una entrada de blog. El equipo compartió su modelo en Hugging Face para que la comunidad de IA pudiera explorar la posibilidad de desaprender y jugar también con él.

Además de eliminar material protegido por derechos de autor, la eliminación de material sensible para proteger la privacidad de las personas es otro caso de uso de alto riesgo. Un equipo, dirigido por Radu Marculescu de la Universidad de Texas en Austin, en colaboración con especialistas en IA de JP Morgan Chase, está trabajando en el desaprendizaje automático de modelos generativos de imagen a imagen. En un artículo reciente, demostraron que podían eliminar elementos no deseados de las imágenes (el “conjunto olvidado”) sin degradar el rendimiento del conjunto de imágenes en general.

Según el profesor Marculescu, esta técnica podría ser útil en situaciones como, por ejemplo, la inspección de propiedades inmobiliarias con drones. “Si hubiera rostros de niños claramente visibles, podríamos ocultarlos para proteger su privacidad”.

Google también está ocupado abordando el desaprendizaje dentro de la comunidad más amplia de desarrolladores de código abierto. En junio de 2023, Google lanzó su primer desafío de desaprendizaje automático. La competición contaba con un predictor de edad que se había entrenado con imágenes faciales. Después de la formación, hubo que olvidar un determinado subconjunto de las imágenes de formación para proteger la privacidad o los derechos de las personas afectadas.

Aunque no es perfecto, los primeros resultados de varios equipos son prometedores. Mediante el desaprendizaje automático en un modelo Llama, por ejemplo, el equipo de Baracaldo en IBM pudo reducir la puntuación de toxicidad del 15,4 % al 4,8 % sin afectar a la precisión de otras tareas realizadas por el LLM. Y en lugar de tardar meses en volver a entrenar un modelo, por no mencionar el coste, el desaprendizaje tardó 224 segundos.