¿Qué es el aprendizaje autosupervisado?

Publicado: 5 de diciembre de 2023
Colaborador: Dave Bergmann

El aprendizaje autosupervisado es una técnica de machine learning que utiliza aprendizaje no supervisado para tareas que, de forma convencional, requieren aprendizaje supervisado. En lugar de depender de conjuntos de datos etiquetados para señales de supervisión, los modelos autosupervisados generan etiquetas implícitas a partir de datos no estructurados.

El aprendizaje autosupervisado (SSL) es particularmente útil en campos como la computer vision y el procesamiento del lenguaje natural (NLP), que requieren grandes cantidades de datos etiquetados para entrenar modelos de inteligencia artificial (IA) de última generación. Dado que estos conjuntos de datos etiquetados requieren una laboriosa anotaciones por parte de expertos humanos, la recopilación de suficientes datos puede resultar prohibitivamente difícil. Los enfoques autosupervisados pueden ser más rápidos y rentables, ya que sustituyen la necesidad, toda o en parte, de etiquetar manualmente los datos de entrenamiento.

Para entrenar un modelo de deep learning para tareas que requieren precisión, como clasificación o regresión, uno debe poder comparar las predicciones de salida del modelo para una entrada determinada con las predicciones "correctas" para esa entrada, generalmente denominada verdad básica. Habitualmente, los datos de entrenamiento etiquetados manualmente sirven como verdad básica: dado que este método requiere la intervención humana directa, se denomina aprendizaje "supervisado". En el aprendizaje autosupervisado, las tareas se diseñan de tal manera que se pueda inferir la "verdad básica" a partir de datos no etiquetados.

En SSL, las tareas se dividen en dos categorías: tareas de pretexto y tareas posteriores. En una tarea de pretexto, SSL se utiliza para entrenar un sistema de IA para aprender representaciones significativas de datos no estructurados. Esas representaciones aprendidas pueden utilizarse posteriormente como entrada para una tarea posterior, como una tarea de aprendizaje supervisado o una tarea de aprendizaje por refuerzo. La reutilización de un modelo preentrenado en una nueva tarea se denomina "transferencia de aprendizaje".

El aprendizaje autosupervisado se utiliza en el entrenamiento de una amplia gama de arquitecturas sofisticadas de deep learning para una variedad de tareas, desde grandes modelos lingüísticos (LLM) basados en transformadores, como BERT y GPT, hasta modelos de síntesis de imágenes, como autocodificadores variacionales (VAE) y redes adversarias generativas (GAN), hasta modelos de computer vision como SimClr y Momentum Contrast (MoCo).

Realice una visita guiada de IBM watsonx.ai

Un estudio empresarial de nueva generación para que los creadores de IA entrenen, validen, ajusten e implementen modelos de IA.

Contenido relacionado

Suscríbase a los boletines de IBM

Aprendizaje autosupervisado frente a aprendizaje supervisado frente a aprendizaje no supervisado

Si bien el aprendizaje autosupervisado es técnicamente un subconjunto del aprendizaje no supervisado (ya que no requiere conjuntos de datos etiquetados), está estrechamente relacionado con el aprendizaje supervisado , puesto que optimiza el rendimiento en función de una verdad básica.

Este ajuste imperfecto con ambos paradigmas convencionales de machine learning llevó a que las diversas técnicas que ahora se consideran colectivamente como "aprendizaje autosupervisado" recibieran su propia categorización.

La acuñación del término se atribuye con frecuencia a Yann LeCun, científico informático ganador del premio Turing y figura clave en el advenimiento del deep learning ¹, quien declaró que era necesario desambiguar el SSL del aprendizaje verdaderamente no supervisado (al que llamó "un término complejo y confuso").² El nombre (y el concepto formal) puede tener sus orígenes en un documento de 2007 de Raina, et al, titulado "Aprendizaje autodidacta: Transferir el aprendizaje de datos no etiquetados".³ Algunos marcos de machine learning ahora se consideran SSL, como autocodificadores, que son anteriores a la existencia del propio término en varios años.

Aprendizaje autosupervisado frente a aprendizaje no supervisado

El aprendizaje autosupervisado es un subconjunto del aprendizaje no supervisado: todas las técnicas de aprendizaje autosupervisado son aprendizaje no supervisado, pero la mayoría del aprendizaje no supervisado no implica autosupervisión.

Ni el aprendizaje no supervisado ni el autosupervisado utilizan etiquetas en el proceso de entrenamiento: ambos métodos aprenden correlaciones intrínsecas y patrones en datos no etiquetados, en lugar de correlaciones impuestas externamente de conjuntos de datos anotados. Además de este enfoque compartido en los datos no etiquetados, las diferencias entre el aprendizaje autosupervisado y el no supervisado reflejan en gran medida las diferencias entre el aprendizaje no supervisado y el supervisado.

Los problemas que utilizan el aprendizaje no supervisado convencional no miden los resultados con respecto a ninguna verdad básica conocida previamente. Por ejemplo, un modelo de asociación no supervisado podría impulsar un motor de recomendaciones de comercio electrónico aprendiendo qué productos se compran juntos con frecuencia. La utilidad del modelo no se deriva de replicar las predicciones humanas, sino de descubrir correlaciones que no son evidentes para los observadores humanos.

El aprendizaje autosupervisado mide los resultados con respecto a una verdad básica, aunque implícitamente derivada de datos de entrenamiento no etiquetados. Al igual que los modelos supervisados, los modelos autosupervisados se optimizan utilizando una función de pérdida: un algoritmo que mide la divergencia ("pérdida") entre la verdad básica y las predicciones del modelo. Durante el entrenamiento, los modelos autosupervisados utilizan el descenso del gradiente durante la retropropagación para ajustar los pesos del modelo de manera que se minimice la pérdida (y, por tanto, mejore la precisión).

Impulsados por esta diferencia clave, los dos métodos se centran en diferentes casos prácticos: los modelos no supervisados se utilizan para tareas como clustering, detección de anomalías y reducción de la dimensionalidad que no requieren una función de pérdida, mientras que los modelos autosupervisados se usan para tareas de clasificación y de regresión típicas del aprendizaje supervisado.

Aprendizaje autosupervisado vs. aprendizaje supervisado

Aunque el aprendizaje supervisado y el autosupervisado se emplean en gran medida para los mismos tipos de tareas y ambos requieren una verdad básica para optimizar el rendimiento mediante una función de pérdida, los modelos autosupervisados se entrenan con datos no etiquetados, mientras que el aprendizaje supervisado requiere conjuntos de datos etiquetados para el entrenamiento.

Los conjuntos de datos etiquetados son muy eficaces en el entrenamiento de modelos: la anotación de datos de entrenamiento permite que un modelo aprenda directamente las características clave y las correlaciones que reflejan esas anotaciones. Al minimizar la divergencia entre las predicciones del modelo y las "predicciones" anotadas a mano por expertos humanos durante el entrenamiento, los modelos supervisados aprenden a hacer inferencias correctas sobre los nuevos datos de entrada (no etiquetados).

Aunque los enfoques supervisados más avanzados pueden ofrecer una gran precisión, la anotación de grandes cantidades de datos de entrenamiento suele ser un cuello de botella en el proceso de investigación. Por ejemplo, en tareas de computer vision, como la segmentación de instancias que requieren predicciones específicas de píxeles, la anotación de datos de entrenamiento debe realizarse a nivel de píxel. Esto es costoso y requiere mucho tiempo, lo que limita tanto la cantidad de datos de entrenamiento disponibles como la capacidad de la mayoría de las empresas e investigadores para obtenerlos.

Por el contrario, los modelos autosupervisados utilizan diversas técnicas para obtener señales de supervisión a partir de la estructura de los propios datos de entrada, evitando por completo las etiquetas. Por ejemplo, ocultando (o “enmascarando”) aleatoriamente partes de una oración y asignando a un modelo autosupervisado la tarea de predecir las palabras ocultas, utilizando la oración original (sin etiquetar) como verdad básica.

Aprendizaje autosupervisado frente a semisupervisado

A diferencia del aprendizaje autosupervisado, que no implica datos etiquetados por humanos, el aprendizaje semisupervisado utiliza datos etiquetados y no etiquetados para entrenar modelos. Por ejemplo, un modelo semisupervisado podría usar una pequeña cantidad de puntos de datos etiquetados para inferir etiquetas para el resto de un conjunto de datos de entrenamiento sin etiquetar y, a continuación, seguir utilizando todo el conjunto de datos para el aprendizaje supervisado. Aunque sus motivaciones son similares, ya que ambos enfoques eluden la necesidad de grandes conjuntos de datos etiquetados en el aprendizaje supervisado, sus respectivas metodologías son diferentes.

¿Cómo funciona el aprendizaje autosupervisado?

Las tareas de aprendizaje autosupervisado están diseñadas de manera que una función de pérdida pueda utilizar datos de entrada no etiquetados como información básica. Esto permite al modelo aprender representaciones precisas y significativas de los datos de entrada sin etiquetas ni anotaciones.

El objetivo del aprendizaje autosupervisado es minimizar o reemplazar por completo la necesidad de datos etiquetados. Aunque los datos etiquetados son relativamente escasos y costosos, los datos no etiquetados son abundantes y relativamente baratos. Esencialmente, las tareas de pretexto producen “pseudoetiquetas” a partir de datos sin etiquetar. El término "pretexto" implica que la tarea de entrenamiento no es (necesariamente) útil en sí: solo es útil porque enseña representaciones de datos de modelos que son útiles para las tareas posteriores. Por lo tanto, las tareas de pretexto a menudo también se denominan aprendizaje de representación.

Los modelos previamente entrenados con SSL a menudo se ajustan para sus tareas posteriores específicas: este ajuste con frecuencia implica un verdadero aprendizaje supervisado (aunque con una fracción de los datos etiquetados necesarios para entrenar un modelo solo con aprendizaje supervisado).

Si bien la disciplina de SSL es diversa tanto en metodología como en casos prácticos, los modelos entrenados con SSL utilizan una (o ambas) de dos técnicas de machine learning: aprendizaje autopredictivo y aprendizaje contrastado.

Aprendizaje autopredictivo

También conocidos como aprendizaje autoasociativo autosupervisado, los métodos de autopredicción entrenan un modelo para predecir parte de una muestra de datos individual, dada la información sobre sus otras partes. Los modelos entrenados con estos métodos suelen ser modelos generativos, en lugar de discriminativos.

Yann LeCun ha caracterizado los métodos autosupervisados como una práctica estructurada de "rellenar los espacios en blanco". En términos generales, describió el proceso de aprender representaciones significativas a partir de la estructura subyacente de los datos no etiquetados en términos simples: «imagina que hay una parte de la entrada que no conoces y predice eso».⁴ Por ejemplo:

Predice cualquier parte de la entrada a partir de cualquier otra parte
Predice el futuro a partir del pasado
Predice lo enmascarado a partir de lo visible
Predice cualquier pieza ocluida a partir de todas las piezas disponibles

Los sistemas autosupervisados basados en estas filosofías suelen emplear ciertas arquitecturas de modelos y técnicas de entrenamiento.

Autocodificadores
Un autocodificador es una red neuronal entrenada para comprimir (o codificar) datos de entrada, y luego reconstruir (o descodificar) la entrada original utilizando esa representación comprimida. Están capacitados para minimizar el error de reconstrucción, usando la propia entrada original como verdad básica.

Aunque las arquitecturas de autocodificadores varían, suelen introducir alguna forma de cuello de botella: a medida que los datos atraviesan la red de codificadores, la capacidad de datos de cada capa se reduce progresivamente. Esto obliga a la red a aprender solo los patrones más importantes ocultos dentro de los datos de entrada, denominados variables latentes o espacio latente, para que la red de decodificadores pueda reconstruir con precisión la entrada original a pesar de tener menos información.

Las modificaciones de este marco básico permiten a los autocodificadores aprender características y funciones útiles.

Los autocodificadores de eliminación de ruido reciben datos de entrada parcialmente corruptos y se entrenan para restaurar la entrada original eliminando información inútil ("ruido"). Esto reduce el sobreajuste y hace que dichos modelos sean útiles para tareas como restaurar imágenes de entrada y datos de audio dañados.
Mientras que la mayoría de los autocodificadores codifican modelos discretos de espacio latente, los autocodificadores variacionales (VAE) aprenden modelos continuos de espacio latente: codificando representaciones latentes de datos de entrada como una distribución de probabilidad, el decodificador puede generar nuevos datos mediante un muestreo de vector aleatorio de esa distribución.

Autorregresión
Los modelos autorregresivos utilizan el comportamiento pasado para predecir el comportamiento futuro. Funcionan bajo la lógica de que cualquier dato con un orden secuencial innato, como el lenguaje, el audio o el vídeo, se puede modelar con regresión.

Los algoritmos de autorregresión modelan datos de serie temporal, utilizando el valor o valores del período o periodos de tiempo anterior para predecir el valor del siguiente período de tiempo. Mientras que en los algoritmos de regresión convencionales, como los utilizados para la regresión lineal, las variables independientes se utilizan para predecir un valor objetivo (o variable dependiente), en la autorregresión la variable independiente y dependiente son esencialmente una y la misma: se llama autorregresión porque la regresión se realiza en la propia variable.

La autorregresión se usa principalmente en modelos de lenguaje causales como las familias GPT, LLaMa y Claude de LLM, que destacan en tareas como la generación de texto y la respuesta a preguntas. En el entrenamiento previo, se proporciona a los modelos lingüísticos el principio de frases de muestra extraídas de datos de entrenamiento sin etiquetar y se les asigna la tarea de predecir la siguiente palabra, sirviendo la siguiente palabra "real" de la frase de muestra como verdad básica.

Enmascaramiento
Otro método de aprendizaje autosupervisado consiste en enmascarar ciertas partes de una muestra de datos sin etiquetar y encargar a los modelos que predigan o reconstruyan la información que falta. Las funciones de pérdida utilizan la entrada original (antes de enmascarar) como verdad básica. Por ejemplo, los autocodificadores enmascarados son como una inversión de los audiocodificadores de eliminación de ruido: aprenden a predecir y restaurar la información que falta, en lugar de eliminar la información extraña.

El enmascaramiento también se utiliza en la formación de modelos de lenguaje enmascarados: se omiten palabras aleatorias de las oraciones de muestra y los modelos se entrenan para completarlas. Si bien los modelos de lenguaje enmascarado como BERT (y los muchos modelos construidos a partir de su arquitectura, como BART y RoBERTA) suelen ser menos expertos en la generación de texto que los modelos autorregresivos, tienen la ventaja de ser bidireccionales: pueden predecir no solo la palabra siguiente, sino también las palabras anteriores o las palabras que se encuentran más adelante en una secuencia. Esto los hace adecuados para tareas que requieren una sólida comprensión contextual, como la traducción, el resumen y la búsqueda.

Predicción de relaciones innatas
La predicción de relaciones innatas entrena un modelo para mantener su comprensión de una muestra de datos después de que esta se transforme de alguna manera. Por ejemplo, rotar una imagen de entrada y asignar a un modelo la tarea de predecir el grado de cambio y la dirección de rotación en relación con la entrada original.⁵

Aprendizaje contrastivo

Los métodos de aprendizaje autosupervisado contrastivo proporcionan a los modelos múltiples muestras de datos y les asignan la tarea de predecir la relación entre estas. Los modelos entrenados con estos métodos suelen ser modelos discriminativos, en lugar de generativos.

Los modelos contrastivos generalmente operan con pares datos-datos para el entrenamiento, mientras que los modelos autoasociativos operan con pares datos-etiqueta (en los que la etiqueta se autogenera a partir de los datos). Utilizando estos pares datos-datos, los métodos contrastivos entrenan modelos para distinguir entre cosas similares y diferentes.

A menudo, estos pares se crean mediante aumento de datos: aplicar diferentes tipos de transformaciones o perturbaciones a datos no etiquetados para crear nuevas instancias o vistas aumentadas. Por ejemplo, las técnicas de aumento comunes para los datos de imagen incluyen rotación, recorte aleatorio, volteo, ruido, filtrado y coloraciones. El aumento de datos incrementa la variabilidad de los datos y expone el modelo a diferentes perspectivas, lo que ayuda a garantizar que el modelo aprenda a capturar representaciones semánticas significativas y dinámicas.

Discriminación de instancias
Los modelos basados en discriminación de instancias enmarcan el entrenamiento como una serie de tareas de clasificación binaria: utilizando una muestra de datos como destino (o "anclaje"), se determina que otras muestras de datos son "positivas" (coincidentes) o "negativas" (no coincidentes).

En la computer vision, estos métodos, como SimCLR o MoCo, suelen comenzar con un lote de imágenes en bruto sin etiquetar y aplican una combinación aleatoria de transformaciones para generar pares (o conjuntos) de muestras de imágenes aumentadas. Cada una de estas imágenes aumentadas se codifica en una representación vectorial, y se utiliza una función de pérdida contrastiva para minimizar la diferencia en las representaciones vectoriales entre coincidencias positivas (pares de imágenes aumentadas derivadas de la misma imagen original) y maximizar la diferencia entre coincidencias negativas.

Por lo tanto, los métodos de discriminación de instancias entrenan los modelos para que aprendan representaciones de diferentes categorías que, gracias a los aumentos aleatorios de datos, son robustos para variaciones triviales (como el color, la perspectiva o las partes visibles en una imagen específica). En consecuencia, estas representaciones generalizan muy bien las tareas posteriores.

Aprendizaje no contrastivo
De manera algo contraria a la intuición, el “aprendizaje no contrastivo” se refiere a un método estrechamente relacionado con el aprendizaje contrastivo (en lugar de ser, como se podría suponer, un cajón de sastre general para métodos que no son aprendizaje contrastivo). Los modelos se entrenan utilizando solo pares positivos, aprendiendo a minimizar la diferencia entre sus representaciones, por lo tanto, no contrastivos.

En comparación con el aprendizaje contrastivo, los enfoques no contrastivos son relativamente simples: dado que solo funcionan con muestras positivas, utilizan lotes más pequeños para las épocas de entrenamiento y no necesitan un banco de memoria para almacenar las muestras negativas. Esto ahorra memoria y costos computacionales durante el entrenamiento previo.

Los modelos no contrastivos como Bootstrap Your Own Latent (BYOL)⁶ y Barlow Twins⁷ han logrado resultados competitivos con los resultados contrativos y puramente supervisados.

Aprendizaje multimodal
Dados puntos de datos de diferentes tipos (modalidades), los métodos contrastivos pueden aprender a mapear entre esas modalidades. Por ejemplo, el preentrenamiento de imagen y lenguaje contrastivo (CLIP) entrena conjuntamente un codificador de imágenes y un codificador de texto para predecir qué pie de foto va con cada imagen, utilizando millones de pares sin etiquetar (imagen, texto) disponibles recopilados de Internet. Después del entrenamiento previo, el procesamiento del lenguaje natural (NLP) se utiliza para hacer referencia a conceptos visuales aprendidos durante el entrenamiento (o incluso para describir nuevos conceptos visuales), lo que provoca que los modelos entrenados con CLIP sean muy útiles para una amplia gama de aplicaciones de aprendizaje por transferencia.

El aprendizaje contrastivo también se ha utilizado para aprender alineaciones entre vídeo y texto,⁸ vídeo y audio,⁹ y voz y texto.¹⁰

Casos prácticos de aprendizaje autosupervisado

El aprendizaje autosupervisado se ha utilizado para entrenar previamente modelos de inteligencia artificial para una amplia gama de tareas y disciplinas.

Aprendizaje autosupervisado para NLP

Un año después de su introducción en 2018, Google implementó el modelo de lenguaje enmascarado BERT como motor NLP para fragmentos clasificados y destacados en Search.¹¹ A partir de 2023, Google seguirá usando la arquitectura BERT para potenciar sus aplicaciones de búsqueda en el mundo real.¹²

Las familias LLaMa, GPT y Claude de LLM son modelos de lenguaje de autorregresión. GPT3 fue entrenado principalmente con aprendizaje autosupervisado; InstructGPT, y los modelos GPT-3.5 posteriores utilizados para iniciar ChatGPT, ajustaron los modelos preentrenados utilizando el aprendizaje de refuerzo con retroalimentación humana (RLHF).

Los modelos autorregresivos también se utilizan para tareas de NLP basadas en audio, como la conversión de voz a texto, así como los modelos de conversión de texto a voz, como WaveNet.¹³ Facebook (Meta) usa wav2vec para el reconocimiento de voz, mediante dos redes neuronales convolucionales profundas apiladas una encima de la otra para asignar la entrada de audio sin procesar a una representación vectorial. En el entrenamiento previo autosupervisado, estos vectores se emplean como entradas para tareas de autopredicción.¹⁴

Aprendizaje autosupervisado para computer vision

El aprendizaje autosupervisado es un subconjunto en rápido crecimiento de las técnicas de deep learning utilizadas para imágenes médicas, para las que las imágenes anotadas por expertos son relativamente escasas. En PubMed, Scopus y ArXiv, las publicaciones que hacen referencia al uso de SSL para la clasificación de imágenes médicas aumentó en más del 1.000 por ciento de 2019 a 2021.¹⁵

Los métodos basados en SSL a menudo pueden igualar o superar la precisión de los modelos entrenados con métodos totalmente supervisados. Por ejemplo, el MoCo original superó a los modelos supervisados en siete tareas de detección de objetos y segmentación de imágenes en los conjuntos de datos PASCAL, VOC y COCO.¹⁶ Cuando se ajustan con datos etiquetados para solo el uno por ciento de todos los datos de entrenamiento, los modelos previamente entrenados con SSL han logrado una precisión superior al 80 por ciento en el conjunto de datos de ImageNet. Esto rivaliza con el rendimiento de los modelos de aprendizaje supervisados de referencia como ResNet50.

La capacidad de mantener con éxito la detección de objetos y la segmentación de imágenes a pesar de los cambios en la orientación de un objeto es esencial para muchas tareas de robótica. Se ha propuesto el aprendizaje autosupervisado como una forma eficaz de entrenar modelos de computer vision para comprender la rotación sin necesidad de recopilar datos etiquetados que requieren mucho tiempo.^{17 18}

El enmascaramiento se ha utilizado para entrenar modelos que comprendan la trayectoria del movimiento en video.¹⁹

Aprendizaje autosupervisado para el procesamiento y la síntesis de imágenes

Los autocodificadores de eliminación de ruido son un componente esencial en el entrenamiento de algunos modelos de síntesis de imágenes de última generación, como la difusión estable.²⁰

El modelado autorregresivo se ha utilizado para la síntesis de imágenes en modelos como PixelRNN y PixelCNN. El éxito de PixelCNN llevó a que se convirtiera en la base de WaveNet.

Los autocodificadores convolucionales se utilizan para una variedad de tareas de procesamiento de imágenes, como el pintado y la coloración de imágenes en escala de grises.

Los autocodificadores variacionales (VAE) son una herramienta importante en la síntesis de imágenes. El modelo DALL-E original de OpenAI utilizaba un VAE para generar imágenes. Tanto DALL-E 1 como DALL-E 2 usan CLIP en el proceso de traducir mensajes de lenguaje natural en información visual.²¹

Soluciones relacionadas

IBM watsonx.ai

Entrenar, validar, ajustar e implementar IA generativa, modelos fundacionales y capacidades de aprendizaje automático con facilidad y crear aplicaciones de IA en una fracción del tiempo con una fracción de los datos.

Explore watsonx.ai

Recursos de aprendizaje autosupervisados

Obtenga más información sobre cómo el aprendizaje autosupervisado encaja en el amplio mundo del machine learning.

Continúe su camino hacia el machine learning

Obtenga más información sobre qué tipo de modelo de machine learning es el mejor para usted: ¿aprendizaje supervisado o no supervisado?

¿Qué es el aprendizaje supervisado?

Aprenda cómo funciona el aprendizaje supervisado y cómo se puede usar para crear modelos de machine learning de alta precisión para una variedad de tareas.

¿Qué es el aprendizaje no supervisado?

Aprenda cómo funciona el aprendizaje no supervisado y cómo se puede usar para explorar y agrupar datos para una variedad de casos prácticos.

Dé el siguiente paso

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para constructores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai

Solicite una demostración en directo

Notas a pie de página

Todos los vínculos residen fuera de ibm.com

¹ "Fathers of the Deep Learning Revolution Receive ACM A.M. Turing Award," Association for Computing Machinery, 27 mar 2019
² Facebook, Yann LeCun, 30 abr 2019
³ "Self-taught learning: transfer learning from unlabeled data," Proceedings of the 24th international conference on machine learning, 20 jun 2007
⁴ Lecture: Energy based models and self-supervised learning, YouTube, subido en 2020
⁵ "Learning to see by moving," arXiv, 14 sep 2015
⁶ "Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning," arXiv, 10 sep 2020
⁷ "Barlow Twins: Self-Supervised Learning via Redunancy Reduction," arXiv, 14 jun 2021
⁸ "VideoCLIP: Contrastive Pre-Training for Zero-shot Video-Text Understanding," arXiv, 1 oct 2021⁹ "Active Contrasting Learning of Audio-Visual Video Representations," Proceedings of the International Conference on Learning Representations, 2021
¹⁰ "Cross-modal Contrastive Learning for Speech Translation," arXiv, 5 may 2022
¹¹ "Understanding searches better than ever before," Google, 25 oct 2019
¹² "End-to-End Query Term Weighting," Google, 2023¹³ "WaveNet: A Generative Model for Raw Audio," arXiv, 19 sep 2016
¹⁴ "Wave2vec: State-of-the-art speech recognition through self-supervision," Meta, 19 sep 2019
¹⁵ "Self-supervised learning for medical image classification: a systematic review and implementation guidelines," Nature, 26 abr 2023
¹⁶ "Momentum Contrast for Unsupervised Visual Representation Learning," arXiv, 13 nov 2019 (última revisión 23 mar 2020)¹⁷ "Deep Projective Rotation Estimation through Relative Supervision," arXiv, 21 nov 2022
¹⁸ "Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation Transforms," arXiv, 29 may 2021
¹⁹ "Masked Motion Encoding for Self-Supervised Video Representation Learning," The Computer Vision Foundation, oct 2022
²⁰ "High-Resolution Image Synthesis with Latent Diffusion Models," arXiv, 20 dic 2021 (last revised 13 Apr 2022)
²¹ "DALL-E: Creating images from text," OpenAI, 5 ene 2021