¿Qué es el aprendizaje autosupervisado?

Autores

Senior Staff Writer, AI Models

IBM Think

¿Qué es el aprendizaje autosupervisado?

El aprendizaje autosupervisado es una técnica de machine learning que utiliza el aprendizaje no supervisado para tareas que convencionalmente requieren aprendizaje supervisado. En lugar de depender de conjuntos de datos etiquetados para las señales de supervisión, los modelos autosupervisados generan etiquetas implícitas a partir de datos no estructurados.

El aprendizaje autosupervisado (SSL) es particularmente útil en campos como la visión por computadora y el procesamiento de lenguaje natural (PNL) que requieren grandes cantidades de datos etiquetados para entrenar modelos de inteligencia artificial (IA) de última generación. Debido a que estos conjuntos de datos etiquetados requieren anotaciones que consumen mucho tiempo por parte de expertos humanos, recopilar datos suficientes puede ser prohibitivamente difícil. Los enfoques autosupervisados pueden ser más rentables y en tiempo, ya que reemplazan parte o todas las necesidades de etiquetar manualmente los datos de capacitación.

Para entrenar un modelo de aprendizaje profundo en tareas que requieren precisión, como la clasificación o la regresión, es necesario poder comparar las predicciones de salida del modelo para una entrada determinada con las predicciones "correctas" para esa entrada—lo que se suele denominar la verdad sobre el terreno. Habitualmente, los datos de entrenamiento etiquetados manualmente sirven como verdad base: dado que este método requiere la intervención humana directa, se denomina aprendizaje "supervisado". En el aprendizaje autosupervisado, las tareas están diseñadas de tal manera que la “verdad del fondo” pueda inferirse a partir de datos no etiquetados.

En SSL, las tareas se dividen en dos categorías: tareas de pretexto y tareas posteriores. En una tarea de pretexto, SSL se utiliza para entrenar a un sistema de IA a aprender representaciones significativas de datos no estructurados. Esas representaciones aprendidas se pueden utilizar posteriormente como entrada para una tarea posterior, como una tarea de aprendizaje supervisado o una tarea de aprendizaje de refuerzo. La reutilización de un modelo previamente entrenado en una nueva tarea se denomina "aprendizaje por transferencia".

El aprendizaje autosupervisado se utiliza en el entrenamiento de una amplia gama de arquitecturas sofisticadas de aprendizaje profundo para una variedad de tareas, desde modelos de lenguaje grande (LLMs) basados en transformadores como BERT y GPT hasta modelos de síntesis de imágenes como autocodificadores de variación (VAEs) y redes generativas antagonistas (GANs) hasta modelos de visión por computadora como SimCLR y Momentum Contrast (MoCo).

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Aprendizaje autosupervisado vs. aprendizaje supervisado vs. aprendizaje no supervisado

Aunque el aprendizaje autosupervisado es técnicamente un subconjunto del aprendizaje no supervisado (ya que no requiere conjuntos de datos etiquetados), está estrechamente relacionado con el aprendizaje supervisado en el sentido de que optimiza el rendimiento frente a una verdad base.

Este ajuste imperfecto con los dos paradigmas convencionales de aprendizaje automático llevó a que las diversas técnicas que ahora se consideran colectivamente "aprendizaje autosupervisado" recibieran su propia categorización.

La acuñación del término a menudo se atribuye a Yann LeCun, científico informático ganador del Premio Turing y figura clave en la aparición del aprendizaje profundo,¹ quien declaró necesario desambiguar SSL del aprendizaje verdaderamente no supervisado (al que llamó “tanto un término cargado como confuso”).² El nombre (y el concepto formal) pueden tener sus orígenes en un documento de 2007 de Raina, et al, titulado "Aprendizaje autodidacta: Transferir el aprendizaje de datos sin etiqueta".³ Algunos marcos de aprendizaje automático que ahora se consideran SSL, como los autocodificadores, son anteriores a la existencia del propio término por varios años.

Aprendizaje autosupervisado contra aprendizaje no supervisado

El aprendizaje autosupervisado es un subconjunto del aprendizaje no supervisado: todas las técnicas de aprendizaje autosupervisado son aprendizaje no supervisado, pero la mayoría del aprendizaje no supervisado no implica autosupervisión.

Ni el aprendizaje no supervisado ni autosupervisado utilizan etiquetas en el proceso de entrenamiento: ambos métodos aprenden correlaciones intrínsecas y patrones en datos no etiquetados, en lugar de correlaciones impuestas externamente a partir de conjuntos de datos anotados. Además de este enfoque compartido en los datos no etiquetados, las diferencias entre el aprendizaje autosupervisado y no supervisado reflejan en gran medida las diferencias entre el aprendizaje no supervisado y supervisado.

Los problemas de uso del aprendizaje convencional no supervisado no miden los resultados contra ninguna verdad básica previamente conocida. Por ejemplo, un modelo de asociación no supervisado podría impulsar un motor de recomendaciones de comercio electrónico aprendiendo qué productos se compran con frecuencia juntos. La utilidad del modelo no se deriva de replicar las predicciones humanas, sino de descubrir correlaciones que no son evidentes para los observadores humanos.

El aprendizaje autosupervisado mide los resultados con respecto a una verdad fundamental, aunque implícitamente derivada de datos de entrenamiento no etiquetados. Al igual que los modelos supervisados, los modelos autosupervisados se optimizan mediante una función de pérdida: un algoritmo que mide la divergencia (“pérdida”) entre la verdad fundamental y las predicciones del modelo. Durante el entrenamiento, los modelos autosupervisados utilizan el descenso de gradiente durante la retropropagación para ajustar los pesos del modelo de una manera que minimice la pérdida (y, por lo tanto, mejore la precisión).

Impulsados por esta diferencia clave, los dos métodos se centran en diferentes casos de uso: los modelos no supervisados se utilizan para tareas como la agrupación, la detección de anomalías y la reducción de la dimensionalidad que no requieren una función de pérdida, mientras que los modelos autosupervisados se utilizan para tareas de clasificación y regresión típicas del aprendizaje supervisado.

Aprendizaje autosupervisado contra aprendizaje supervisado

Aunque el aprendizaje supervisado y el autosupervisado se utilizan en gran medida para los mismos tipos de tareas y ambos requieren una verdad base para optimizar el rendimiento mediante una función de pérdida, los modelos autosupervisados se entrenan con datos no etiquetados, mientras que el aprendizaje supervisado requiere conjuntos de datos etiquetados para el entrenamiento.

Los conjuntos de datos etiquetados son muy eficaces en el entrenamiento de modelos: la anotación de datos de entrenamiento permite que un modelo aprenda directamente las características clave y las correlaciones que reflejan esas anotaciones. Al minimizar la divergencia entre las predicciones del modelo y las "predicciones" comentadas a mano de los expertos humanos durante la capacitación, los modelos supervisados aprenden a hacer inferencias correctas sobre los datos de entrada nuevos (no etiquetados).

Aunque los enfoques supervisados más avanzados pueden ofrecer una gran precisión, la anotación de grandes cantidades de datos de formación suele ser un cuello de botella en el proceso de investigación. Por ejemplo, en tareas de visión por computadora como la segmentación de instancias que requieren predicciones específicas de píxeles, se debe realizar una anotación de los datos de capacitación a nivel de píxeles. Esto es costoso y requiere mucho tiempo, lo que limita tanto la cantidad de datos de entrenamiento disponibles como la capacidad de la mayoría de las empresas e investigadores para obtenerlos.

Por el contrario, los modelos autosupervisados utilizan diversas técnicas para obtener señales de supervisión a partir de la estructura de los propios datos de entrada, evitando por completo las etiquetas. Por ejemplo, ocultando (o “enmascarando”) aleatoriamente partes de una oración y asignando a un modelo autosupervisado la tarea de predecir las palabras ocultas, utilizando la oración original (sin etiquetar) como verdad fundamental.

Aprendizaje autosupervisado contra aprendizaje semisupervisado

A diferencia del aprendizaje autosupervisado, que no implica datos etiquetados por seres humanos, el aprendizaje semisupervisado utiliza datos etiquetados y no etiquetados para entrenar modelos. Por ejemplo, un modelo semisupervisado puede usar una pequeña cantidad de puntos de datos etiquetados para inferir etiquetas para el resto de un conjunto de datos de capacitación no etiquetados, y luego seguir utilizando todo el conjunto de datos para el aprendizaje supervisado. Aunque sus motivaciones son similares, ya que ambos enfoques eluden la necesidad de grandes conjuntos de datos etiquetados en el aprendizaje supervisado, sus respectivas metodologías son diferentes.

AI Academy

Ponga la IA a trabajar para servicio al cliente

Vea cómo la IA generativa puede satisfacer a los clientes con una experiencia más fluida y aumentar la productividad de la organización en estas tres áreas clave: autoservicio, agentes humanos y operaciones del centro de contacto.

Ir al episodio

¿Cómo funciona el aprendizaje autosupervisado?

Las tareas de aprendizaje autosupervisado se diseñan de forma que una función de pérdida pueda utilizar datos de entrada no etiquetados como verdad básica. Esto permite que el modelo aprenda representaciones precisas y significativas de los datos de entrada sin etiquetas ni anotaciones.

El objetivo del aprendizaje autosupervisado es minimizar o reemplazar por completo la necesidad de datos etiquetados. Si bien los datos etiquetados son relativamente escasos y costosos, los datos no etiquetados son abundantes y relativamente baratos. Esencialmente, las tareas de pretexto producen “pseudo etiquetas” a partir de datos no etiquetados. El término "pretexto" implica que la tarea de capacitación no es (necesariamente) útil en sí misma: es útil solo porque enseña modelos de representaciones de datos que son útiles para las tareas posteriores. Por lo tanto, las tareas de pretexto a menudo también se denominan aprendizaje de representación.

Los modelos previamente capacitados con SSL suelen ajustarse a sus tareas específicas posteriores: este ajuste a menudo implica un aprendizaje verdadero supervisado (aunque con una fracción de los datos etiquetados necesarios para capacitar un modelo solo con aprendizaje supervisado).

Aunque la disciplina de SSL es diversa tanto en metodología como en casos de uso, los modelos capacitados con SSL usan una (o ambas) de dos técnicas de aprendizaje automático: aprendizaje autopredictivo y aprendizaje contrastivo.

Aprendizaje autopredictivo

También conocidos como aprendizaje autosupervisado autoasociado, los métodos de autopredicción capacitan a un modelo para predecir parte de una muestra de datos individual, dada información sobre sus otras partes. Los modelos entrenados con estos métodos suelen ser modelos generativos, en lugar de discriminativos.

Yann LeCun caracterizó los métodos autosupervisados como una práctica estructurada de "llenar los espacios en blanco". En términos simples, describió ampliamente el proceso de aprendizaje de representaciones significativas de la estructura subyacente de datos no etiquetados: "presume que hay una parte de la entrada que no conoces y predice eso".⁴ Por ejemplo:

Predecir cualquier parte de la entrada de cualquier otra parte
Predice el futuro desde el pasado
Predecir lo enmascarado desde lo visible
Predecir cualquier parte ocluida de todas las partes disponibles

Los sistemas autosupervisados basados en estas filosofías a menudo utilizan determinadas arquitecturas de modelos y técnicas de entrenamiento.

autocodificadores

Un autocodificador es una red neuronal capacitada para comprimir (o codificar) los datos de entrada y, a continuación, reconstruir (o descodificar) la entrada original empleando esa representación comprimida. Están capacitados para minimizar el error de reconstrucción, utilizando la propia entrada original como verdad fundamental.

Aunque las arquitecturas de los autoencodificadores varían, suelen introducir algún tipo de cuello de botella: a medida que los datos atraviesan la red del codificador, la capacidad de datos de cada capa se reduce progresivamente. Esto obliga a la red a aprender solo los patrones más importantes ocultos dentro de los datos de entrada—llamados variables latentes, o el espacio latente—para que la red de decodificadores pueda reconstruir con precisión la entrada original a pesar de ahora tener menos información.

Las modificaciones a este marco básico permiten a los autocodificadores aprender características y funciones útiles.

Autocodificadores de eliminación de ruido reciben datos de entrada parcialmente corruptos y se entrenan para restaurar la entrada original eliminando la información inútil (“ruido”). Esto reduce el sobreajuste y hace que estos modelos sean útiles para tareas como restaurar imágenes de entrada dañadas y datos de audio.
Mientras que la mayoría de los autocodificadores codifican modelos discretos de espacio latente, los autocodificadores de variación (VAEs) aprenden modelos continuos de espacio latente: al codificar representaciones latentes de datos de entrada como distribución de probabilidad, el decodificador puede generar nuevos datos mediante una muestra aleatoria.

Autorregresión

Los modelos autorregresivos emplean el comportamiento pasado para predecir el comportamiento futuro. Trabajan bajo la lógica de que cualquier dato con un orden secuencial innato—como lenguaje, audio o video—se puede modelar con regresión.

Los algoritmos de autorregresión modelan datos de series de tiempo, utilizando los valores de los períodos anteriores para predecir el valor del siguiente período. Mientras que en algoritmos de regresión convencionales, como los utilizados para la regresión lineal, las variables independientes se utilizan para predecir un valor objetivo (o variable dependiente), en la autorregresión la variable independiente y dependiente es esencialmente una y la misma: se denomina regresión automáticaporque la regresión se realiza en la variable misma.

La autorregresión se utiliza de manera prominente en modelos de lenguaje causal como las familias GPT, LLaMa y Claude de LLMs que se destacan en tareas como la generación de texto y la respuesta a preguntas. En el pre-entrenamiento, a los modelos de lenguaje se les proporciona el principio de frases de muestra extraídas de datos de entrenamiento no etiquetados y se les asigna la tarea de predecir la siguiente palabra, con la "verdadera" siguiente palabra de la frase de muestra como verdad de base.

Enmascaramiento

Otro método de aprendizaje autosupervisado implica enmascarar ciertas partes de una muestra de datos no etiquetados y asignar a los modelos la tarea de predecir o reconstruir la información que falta. Las funciones de pérdida utilizan la entrada original (antes del enmascaramiento) como verdad básica. Por ejemplo, los autocodificadores enmascarados son como una inversión de los audiocodificadores que eliminan el ruido: aprenden a predecir y restaurar la información faltante, en lugar de eliminar información extraña.

El enmascaramiento también se utiliza en el entrenamiento de modelos de lenguaje enmascarado: las palabras aleatorias se omiten de oraciones y modelos de muestra que se entrenen para llenarlas. Aunque los modelos de lenguaje enmascarado como BERT (y los muchos modelos construidos a partir de su arquitectura, como BART y RoBERTa) a menudo son menos aptos para la generación de texto que los modelos autorregresivos, tienen la ventaja de ser bidireccionales: pueden predecir no solo la siguiente palabra, sino también palabras anteriores o palabras que se encuentran más adelante en una secuencia. Esto los hace muy adecuados para tareas que requieren una gran comprensión contextual, como la traducción, el resumen y la búsqueda.

Predicción de relaciones innatas

La predicción de relaciones innatas capacita a un modelo para mantener su comprensión de una muestra de datos después de que se transforma de alguna manera. Por ejemplo, rotar una imagen de entrada y realizar tareas a un modelo con la predicción del grado de cambio y la dirección de rotación en relación con la entrada original.⁵

Aprendizaje contrastivo

Los métodos de aprendizaje autosupervisado contrastivo proporcionan a los modelos muestras de datos múltiples y les asignan la tarea de predecir la relación entre ellas. Los modelos entrenados con estos métodos suelen ser modelos típicamente discriminativos, en lugar de generativos.

Los modelos contrastivos generalmente operan en pares de datos de datos para capacitación, mientras que los modelos autoasociativos operan en pares de etiquetas de datos (en los que la etiqueta se genera a partir de los datos). A partir de estos pares de datos, los métodos contrastivos entrenan modelos para distinguir entre cosas similares y diferentes.

Estos pares a menudo se crean mediante el aumento de datos: aplicar diferentes tipos de transformaciones o perturbaciones a datos no etiquetados para crear nuevas instancias o vistas aumentadas. Por ejemplo, las técnicas de aumento comunes para los datos de imagen incluyen rotación, recorte aleatorio, giro, ruidos, filtrado y coloraciones. El aumento de datos aumenta la variabilidad de los datos y expone el modelo a diferentes perspectivas, lo que ayuda a garantizar que el modelo aprenda a capturar representaciones semánticas significativas y dinámicas.

Discriminación de casos

Los modelos basados en discriminación de instancias enmarcan el entrenamiento como una serie de tareas de clasificación binaria: utilizando una muestra de datos como objetivo (o “ancla”), otras muestras de datos se determinan como “positivas” (coincidentes) o “negativas” (no coincidentes).

En la visión artificial, estos métodos—como SimCLR o MoCo—suelen comenzar con un lote de imágenes sin etiquetar y aplicar una combinación aleatoria de transformaciones para generar pares (o conjuntos) de muestras de imágenes aumentadas. Cada una de estas imágenes aumentadas se codifica en una representación vectorial, y se utiliza una función de pérdida contrastiva para minimizar la diferencia en las representaciones vectoriales entre coincidencias positivas—pares de imágenes aumentadas derivadas de la misma imagen original—y maximizar la diferencia entre coincidencias negativas.

Por lo tanto, los métodos de discriminación de instancias entrenan a los modelos para que aprendan representaciones de diferentes categorías que, gracias a los aumentos aleatorios de datos, son resistentes a variaciones triviales (como el color, la perspectiva o las partes visibles en una imagen específica). Estas representaciones se generalizan muy bien a las tareas posteriores.

Aprendizaje no contrastivo

De manera un tanto contraintuitiva, el "aprendizaje no contrastivo" se refiere a un método estrechamente relacionado con el aprendizaje contrastivo (en lugar de, como uno podría suponer, un cajón de sastre general para los métodos que no son aprendizaje contrastivo). Los modelos se entrenan utilizando sólo pares positivos, aprendiendo a minimizar la diferencia entre sus representaciones–por lo tanto, nocontrastantes.

En comparación con el aprendizaje contrastivo, los enfoques no contrastivos son relativamente sencillos: como sólo operan con muestras positivas, utilizan lotes de menor tamaño para las épocas de entrenamiento y no necesitan un banco de memoria para almacenar las muestras negativas. Esto ahorra memoria y costos computacionales durante el entrenamiento previo.

Los modelos no contrastivos como Bootstrap Your Own Latent (BYOL)⁶ y Barlow Twins⁷ han logrado resultados competitivos con los de resultados contrastivos y puramente supervisados.

Aprendizaje multimodal

A partir de datos de distintos tipos (modalidades), los métodos contrastivos pueden aprender la correspondencia entre esas modalidades. Por ejemplo, Contrastive Language-Image Pre-training (CLIP) entrena conjuntamente un codificador de imágenes y un codificador de texto para predecir qué pie de foto va con qué imagen, utilizando millones de combinaciones sin etiquetar(imagen, texto) fácilmente disponibles y recogidos de Internet. Tras el pre-entrenamiento, se utiliza el procesamiento de lenguaje natural (PLN) para referenciar el aprendizaje de conceptos visuales en el entrenamiento (o incluso para describir nuevos conceptos visuales), lo que hace que los modelos entrenados con CLIP sean muy útiles para una amplia gama de aplicaciones de aprendizaje por transferencia.

El aprendizaje contrastivo también se ha utilizado para aprender alineaciones entre video y texto,⁸ video y audio,⁹ y voz y texto.¹⁰

Casos de uso de aprendizaje autosupervisado

El aprendizaje autosupervisado se ha utilizado para entrenar previamente modelos de inteligencia artificial para una amplia gama de tareas y disciplinas.

Aprendizaje autosupervisado para PLN

Dentro del año posterior a su introducción en 2018, Google implementó el modelo de lenguaje enmascarado BERT como motor PLN para fragmentos clasificados y destacados en Search.¹¹ A partir de 2023, Google continúa utilizando la arquitectura BERT para impulsar sus aplicaciones de búsqueda del mundo real.¹²

Las familias LLaMa, GPT y Claude de LLMs son modelos de lenguaje autorregresivo. GPT3 se entrenó principalmente con aprendizaje autosupervisado; InstructGPT, y los modelos GPT-3.5 posteriores utilizados para lanzar ChatGPT, afinaron los modelos pre-entrenados utilizando el aprendizaje por refuerzo con retroalimentación humana (RLHF).

Los modelos autorregresivos también se utilizan para tareas de PNL basadas en audio como voz a texto, así como modelos de texto a voz como WaveNet.¹³ Facebook (Meta) utiliza wav2vec para el reconocimiento de voz, utilizando dos redes neurales convolucionales profundas apiladas una encima de la otra para mapear la entrada de audio sin procesar a una representación vectorial. En el entrenamiento previo autosupervisado, estos vectores se utilizan como entradas para tareas de autopredicción.¹⁴

Aprendizaje autosupervisado para visión por computadora

El aprendizaje autosupervisado es un subconjunto en rápido crecimiento de las técnicas de aprendizaje profundo utilizadas para imágenes médicas, para las que las imágenes anotadas por expertos son relativamente escasas. En PubMed, Scopus y ArXiv, las publicaciones hacen referencia a que el uso de SSL para la clasificación de imágenes médicas aumentó más del 1,000 por ciento de 2019 a 2021.¹⁵

Los métodos basados en SSL a menudo pueden igualar o superar la precisión de los modelos entrenados con métodos totalmente supervisados. Por ejemplo, el MoCo original superó a los modelos supervisados en siete tareas de detección de objetos y segmentación de imágenes en los conjuntos de datos PASCAL, VOC y COCO.¹⁶ Cuando se ajustan con datos etiquetados para solo el uno por ciento de todos los datos de entrenamiento, los modelos previamente entrenados con SSL han logrado una precisión superior al 80 por ciento en el conjunto de datos de ImageNet. Esto rivaliza con el rendimiento de los modelos de aprendizaje supervisados de referencia como ResNet50.

La capacidad de mantener con éxito la detección de objetos y la segmentación de imágenes a pesar de los cambios en la orientación de un objeto es esencial para muchas tareas de robótica. El aprendizaje autosupervisado se ha propuesto como una forma eficaz de entrenar modelos de visión artificial para comprender la rotación sin necesidad de recopilar datos etiquetados que requieren mucho tiempo.^{17 18}

El enmascaramiento se ha utilizado para entrenar modelos para comprender la trayectoria del movimiento en video.¹⁹

Aprendizaje autosupervisado para procesamiento de imágenes y síntesis de imágenes

Los autocodificadores que eliminan ruido son un componente esencial en el entrenamiento de algunos modelos de síntesis de imagen de última generación, como Stable Diffusion.²⁰

El modelado autorregresivo se ha utilizado para la síntesis de imágenes en modelos como PixelRNN y PixelCNN. El éxito de PixelCNN hizo que se convirtiera en la base de WaveNet.

Los autocodificadores convolucionales se utilizan para diversas tareas de procesamiento de imágenes, como el repintado y la coloración de imágenes en escala de grises.

Los autocodificadores de variación (VAEs) son una herramienta importante en la síntesis de imágenes. El modelo DALL-E original de OpenAI utilizaba un VAE para generar imágenes. Tanto DALL-E 1 como DALL-E 2 utilizan CLIP en el proceso de traducir indicaciones de lenguaje natural en información visual.²¹

IBM® X-Force Threat Intelligence Index 2026

Obtenga insights para prepararse y responder a los ataques cibernéticos con mayor rapidez y eficacia con el IBM® X-Force Threat Intelligence Index.

¿Qué es el aprendizaje autosupervisado?

Autores

¿Qué es el aprendizaje autosupervisado?

Las últimas tendencias de IA presentadas por expertos

¡Gracias! Ya está suscrito.

Aprendizaje autosupervisado vs. aprendizaje supervisado vs. aprendizaje no supervisado

Aprendizaje autosupervisado contra aprendizaje no supervisado

Aprendizaje autosupervisado contra aprendizaje supervisado

Aprendizaje autosupervisado contra aprendizaje semisupervisado

Ponga la IA a trabajar para servicio al cliente

¿Cómo funciona el aprendizaje autosupervisado?

Aprendizaje autopredictivo

autocodificadores

Autorregresión

Enmascaramiento

Predicción de relaciones innatas

Aprendizaje contrastivo

Discriminación de casos

Aprendizaje no contrastivo

Aprendizaje multimodal

Casos de uso de aprendizaje autosupervisado

Aprendizaje autosupervisado para PLN

Aprendizaje autosupervisado para visión por computadora

Aprendizaje autosupervisado para procesamiento de imágenes y síntesis de imágenes

Recursos