El aprendizaje autosupervisado (SSL) es particularmente útil en campos como la visión artificial y el procesamiento del lenguaje natural (PLN), que requieren grandes cantidades de datos etiquetados para entrenar modelos de inteligencia artificial (IA) de última generación. Dado que estos conjuntos de datos etiquetados requieren laboriosas anotaciones por parte de expertos humanos, la recopilación de suficientes datos puede resultar prohibitivamente difícil. Los enfoques autosupervisados pueden ser más rápidos y rentables, ya que sustituyen la necesidad, toda o en parte, de etiquetar manualmente los datos de entrenamiento.
Para entrenar un modelo de deep learning para tareas que requieren precisión, como clasificación o regresión, uno debe poder comparar las predicciones de salida del modelo para una entrada determinada con las predicciones "correctas" para esa entrada, generalmente denominada verdad básica. Habitualmente, los datos de entrenamiento etiquetados manualmente sirven como verdad básica: dado que este método requiere la intervención humana directa, se denomina aprendizaje "supervisado". En el aprendizaje autosupervisado, las tareas se diseñan de tal manera que se pueda inferir la "verdad básica" a partir de datos no etiquetados.
En SSL, las tareas se dividen en dos categorías: tareas de pretexto y tareas posteriores. En una tarea de pretexto, SSL se utiliza para entrenar un sistema de IA para aprender representaciones significativas de datos no estructurados. Esas representaciones aprendidas pueden utilizarse posteriormente como entrada para una tarea posterior, como una tarea de aprendizaje supervisado o una tarea de aprendizaje por refuerzo. La reutilización de un modelo preentrenado en una nueva tarea se denomina "transferencia de aprendizaje".
El aprendizaje autosupervisado se utiliza en el entrenamiento de una amplia gama de arquitecturas sofisticadas de deep learning para una variedad de tareas, desde modelos de lenguaje de gran tamaño (LLM) basados en transformadores, como BERT y GPT, hasta modelos de síntesis de imágenes, como autocodificadores variacionales (VAE) y redes adversarias generativas (GAN), hasta modelos de visión artificial como SimClr y Momentum Contrast (MoCo).