Minha IBM

Efetue login

O que é aprendizado autossupervisionado?

5 de dezembro de 2023

Autores

Dave Bergmann

Senior Writer, AI Models

IBM

O que é aprendizado autossupervisionado?

O aprendizado autossupervisionado é uma técnica de aprendizado de máquina que usa o aprendizado não supervisionado para tarefas que, convencionalmente, exigem aprendizado supervisionado. Em vez de depender de conjuntos de dados rotulados para sinais de supervisão, os modelos autossupervisionados geram rótulos implícitos a partir de dados não estruturados.

O aprendizado autossupervisionado (SSL) é particularmente útil em campos como visão computacional e processamento de linguagem natural (NLP), que exigem grandes quantidades de dados rotulados para treinar modelos de inteligência artificial (IA) de ponta. Como esses conjuntos de dados rotulados exigem anotações demoradas feitas por especialistas humanos, a coleta de dados suficientes pode ser proibitivamente difícil. As abordagens autossupervisionadas podem ser mais econômicas e menos demoradas, pois substituem parte ou toda a necessidade de rotular manualmente os dados de treinamento.

Para treinar um modelo de deep learning para tarefas que exijem precisão, como classificação ou regressão, é preciso poder comparar as previsões de saída do modelo para um determinado input com as previsões "corretas" para esse input, geralmente chamadas de verdade absoluta. Normalmente, os dados de treinamento rotulados manualmente servem como essa verdade absoluta: como esse método requer intervenção humana direta, ele é chamado de aprendizado "supervisionado". No aprendizado autossupervisionado, as tarefas são projetadas de forma que a "verdade absoluta" possa ser inferida a partir de dados não rotulados.

No SSL, as tarefas se enquadram em duas categorias: tarefas pré-texto e tarefas posteriores. Em uma tarefa de pretexto, o SSL é usado para treinar um sistema de IA para aprender representações significativas de dados não estruturados. Essas representações aprendidas podem ser usadas posteriormente como input em uma tarefa posterior, como uma tarefa de aprendizado supervisionado ou uma tarefa de aprendizado por reforço. A reutilização de um modelo pré-treinado em uma nova tarefa é chamada de "aprendizagem por transferência".

O aprendizado autossupervisionado é usado no treinamento de um conjunto diversificado de arquiteturas sofisticadas de deep learning para uma variedade de tarefas, desde grandes modelos de linguagem (LLMs) baseados em transformadores, como BERT e GPT, até modelos de síntese de imagens, como autocodificadores variacionais (VAEs), redes adversárias generativas (GANs) e modelos de visão computacional, como SimCLR e Momentum Contrast (MoCo).

As últimas notícias e insights sobre IA  

Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think.

Assine hoje mesmo

Aprendizado autosupervisionado versus aprendizado supervisionado versus aprendizado não supervisionado

Embora o aprendizado autossupervisionado seja tecnicamente um subconjunto do aprendizado não supervisionada (já que não requer um conjunto de dados rotulados), ele está intimamente relacionado ao aprendizado supervisionado , pois otimiza o desempenho em relação a uma verdade absoluta.

Essa combinação imperfeita dos dois paradigmas convencionais de aprendizado de máquina fez com que as várias técnicas agora chamadas coletivamente de "aprendizado autossupervisionado" recebessem sua própria categorização.

A criação do termo é frequentemente atribuída a Yann LeCun, cientista da computação ganhador do Prêmio Turing e figura-chave no advento do deep learning,¹ que declarou ser necessário separar o SSL do aprendizado verdadeiramente não supervisionado (que ele chamou de "um termo carregado e confuso").² O nome (e o conceito formal) pode ter sua origem em um artigo de 2007 de Raina, et al, intitulado "Self-taught learning: Transfer learning from unlabeled data".³ Algumas estruturas de aprendizado de máquina agora consideradas SSL, como os codificadores automáticos, são anteriores à existência do termo em si em vários anos.

Aprendizado autossupervisionado vs. aprendizado não supervisionado

O aprendizado autossupervisionado é um subconjunto do aprendizado não supervisionado: todas as técnicas de aprendizado autossupervisionado são aprendizados não supervisionados, mas a maior parte do aprendizado não supervisionado não implica em autossupervisão.

Nem o aprendizado não supervisionado nem o autossupervisionado usam rótulos no processo de treinamento: ambos os métodos aprendem correlações e padrões intrínsecos nos dados não rotulados, em vez de correlações impostas externamente a partir de conjuntos de dados anotados. Além desse foco compartilhado em dados não rotulados, as diferenças entre o aprendizado autossupervisionado e o não supervisionado refletem amplamente as diferenças entre o aprendizado não supervisionado e o supervisionado.

Os problemas que usam o aprendizado não supervisionado convencional não medem os resultados em relação a nenhuma verdade absoluta pré-conhecida. Por exemplo, um modelo de associação não supervisionado poderia alimentar um mecanismo de recomendação de comércio eletrônico, aprendendo quais produtos são frequentemente comprados juntos. A utilidade do modelo não é derivada da replicação de previsões humanas, mas da descoberta de correlações não aparentes para observadores humanos.

O aprendizado autossupervisionado mede os resultados em relação a uma verdade absoluta, embora seja implicitamente derivado de dados de treinamento não rotulados. Assim como os modelos supervisionados, os modelos autossupervisionados são otimizados usando uma função de perda: um algoritmo que mede a divergência ("perda") entre a verdade absoluta e as previsões do modelo. Durante o treinamento, os modelos autossupervisionados usam o gradiente decrescente durante a retropropagação para ajustar os pesos do modelo de forma a minimizar a perda (e, assim, aumentar a precisão).

Devido a essa diferença fundamental, os dois métodos se concentram em casos de uso diferentes: os modelos não supervisionados são usados para tarefas como agrupamento, detecção de anomalias e redução de dimensionalidade, que não exigem uma função de perda, enquanto os modelos autossupervisionados são usados para tarefas de classificação e regressão típicas do aprendizado supervisionado.

Aprendizado autossupervisionado vs. aprendizado supervisionado

Embora o aprendizado supervisionado e o autossupervisionado sejam amplamente usados para os mesmos tipos de tarefas e ambos exijam uma verdade absoluta para otimizar o desempenho por meio de uma função de perda, os modelos autossupervisionados são treinados com dados não rotulados, enquanto o aprendizado supervisionado requer um conjunto de dados rotulados para treinamento.

Os conjuntos de dados rotulados são altamente eficazes no treinamento de modelo: a anotação de dados de treinamento permite que um modelo aprenda diretamente os principais recursos e correlações que essas anotações refletem. Ao minimizar a divergência entre as previsões do modelo e as "previsões" anotadas à mão por especialistas humanos durante o treinamento, os modelos supervisionados aprendem a fazer inferências corretas sobre novos dados de input (não rotulados).

Embora abordagens supervisionadas de última geração possam produzir uma alta precisão, a anotação de grandes quantidades de treinamento costuma ser um gargalo no processo de pesquisa. Por exemplo, em tarefas de visão computacional como a segmentação de instâncias, que requerem previsões específicas por pixel, a anotação dos dados de treinamento deve ser feita no nível do pixel. É um processo caro e demorado, e limita tanto a quantidade de dados de treinamento disponíveis quanto a capacidade da maioria das empresas e pesquisadores de obtê-los.

Por outro lado, os modelos autossupervisionados usam várias técnicas para obter sinais de supervisão a partir da estrutura dos próprios dados de input, evitando totalmente os rótulos. Por exemplo, ocultando (ou “mascarando”) aleatoriamente partes de uma frase e encarregando um modelo autosupervisionado de prever as palavras ocultas, usando a frase original (sem rótulo) como verdade absoluta.

Aprendizado autossupervisionado vs. semissupervisionado

Diferentemente do aprendizado autossupervisionado, que não envolve dados rotulados por humanos, o aprendizado semissupervisionado usa dados rotulados e não rotulados para treinar os modelos. Por exemplo, um modelo semissupervisionado pode usar uma pequena quantidade de pontos de dados rotulados para inferir rótulos para o restante de um conjunto de dados de treinamento não rotulados e, em seguida, usar todo o conjunto de dados para aprendizado supervisionado. Embora suas motivações sejam semelhantes, pois ambas as abordagens contornam a necessidade de um grande conjunto de dados rotulados no aprendizado supervisionado, suas respectivas metodologias são diferentes.

Mistura de Especialistas | Podcast

Decodificando a IA: resumo semanal das notícias

Junte-se a nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Assista aos episódios

Como funciona o aprendizado autossupervisionado?

As tarefas de aprendizado autossupervisionado são projetadas de forma que uma função de perda possa usar dados de input não rotulados como verdade absoluta. Isso permite que o modelo aprenda representações precisas e significativas dos dados de input sem rótulos ou anotações.

O objetivo do aprendizado autossupervisionado é minimizar ou substituir completamente a necessidade de dados rotulados. Embora os dados rotulados sejam relativamente escassos e caros, os dados não rotulados são abundantes e relativamente baratos. Basicamente, as tarefas de pré-texto produzem "pseudo-rótulos" a partir de dados não rotulados. O termo "pré-texto" implica que a tarefa de treinamento não é (necessariamente) útil por si só: ela é útil somente porque ensina representações de dados de modelos que são úteis para os propósitos das tarefas posteriores. As tarefas de pré-texto também são, portanto, muitas vezes chamadas de aprendizado de representação.

Os modelos pré-treinados com SSL geralmente são ajustados para suas tarefas específicas posteriores: esse ajuste fino geralmente envolve aprendizado supervisionado real (embora com uma fração dos dados rotulados necessários para treinar um modelo apenas com aprendizado supervisionado).

Embora a disciplina de SSL seja diversa tanto em termos de metodologia quanto de casos de uso, os modelos treinados com SSL usam uma (ou ambas) das duas técnicas de aprendizado de máquina: aprendizado autopreditivo e aprendizado contrastivo.

Aprendizado autopreditivo

Também conhecido como aprendizado autossupervisionado autoassociativo, os métodos de autopredição treinam um modelo para prever parte de uma amostra de dados individual, com informações sobre suas outras partes. Os modelos treinados com esses métodos são, em geral, modelos generativos, e não discriminativos.

Yann LeCun caracterizou os métodos autossupervisionados como uma prática estruturada de "preencher os espaços em branco". Em linhas gerais, ele descreveu o processo de aprendizado de representações significativas a partir da estrutura subjacente de dados não rotulados em termos simples: "finja que há uma parte do input que você não conhece e preveja isso."⁴ Por exemplo:

Prever qualquer parte do input a partir de qualquer outra parte
Prever o futuro com base no passado
Prever o mascarado a partir do visível
Prever qualquer parte oculta a partir de todas as partes disponíveis

Os sistemas autossupervisionados construídos com base nessas filosofias frequentemente empregam determinadas arquiteturas de modelos e técnicas de treinamento.

Autocodificadores

Um autocodificador é uma rede neural treinada para compactar (ou codificar) dados de entrada, então reconstruir (ou decodificar) a entrada original usando essa representação compactada. Eles são treinados para minimizar o erro de reconstrução, usando a própria entrada original como verdade absoluta.

Embora as arquiteturas de autocodificadores variem, elas normalmente introduzem alguma forma de gargalo: à medida que os dados atravessam a rede do codificador, a capacidade de dados de cada camada é progressivamente reduzida. Isso força a rede a aprender apenas os padrões mais importantes ocultos nos dados da entrada (chamados de variáveis latentes ou espaço latente), para que a rede do decodificador possa reconstruir com precisão a entrada original, apesar de agora ter menos informações.

As modificações nessa estrutura básica permitem que os codificadores automáticos aprendam recursos e funções úteis.

Autocodificadores de eliminação de ruído recebem dados de entrada parcialmente corrompidos e são treinados para restaurar a entrada original ao remover informações inúteis ("ruído"). Isso reduz o overfitting e torna esses modelos úteis para tarefas como a restauração de dados de imagens e áudio de entrada corrompidos.
Enquanto a maioria dos autocodificadores codifica modelos discretos do espaço latente, os autocodificadores variacionais (VAEs) aprendem modelos contínuos do espaço latente: ao codificar representações latentes de dados de entrada como uma distribuição de probabilidades, o decodificador pode gerar novos dados por meio da amostragem de um vetor aleatório dessa distribuição.

Autorregressão

Modelos autorregressivos usam comportamento passado para prever comportamento futuro. Eles trabalham com a lógica de que qualquer dado com uma ordem sequencial inata (como linguagem, áudio ou vídeo) pode ser modelado com regressão.

Os algoritmos de autorregressão modelam dados de séries temporais, usando os valores das etapas tempotsid anteriores para prever o valor da etapa tempotsl seguinte. Enquanto nos algoritmos de regressão convencionais, como os usados para regressão linear, as variáveis independentes são usadas para prever um valor-alvo (ou variável dependente), na autorregressão as variáveis independente e dependente são basicamente a mesma coisa: ela é chamada de autorregressão porque a regressão é realizada na própria variável.

A autorregressão é usada de forma proeminente em modelos de linguagem causal, como as famílias GPT, LLaMa e Claude de LLMs, que se destacam em tarefas como geração de texto e resposta a perguntas. No pré-treinamento, os modelos de linguagem recebem o início de frases de amostra extraídas de dados de treinamento não rotulados e têm a tarefa de prever a próxima palavra, com a próxima palavra "real" da frase de amostra servindo como verdade absoluta.

Mascaramento

Outro método de aprendizado autossupervisionado envolve o mascaramento de determinadas partes de uma amostra de dados não rotulada, e os modelos são encarregados de prever ou reconstruir as informações ausentes. As funções de perda usam a entrada original (pré-mascaramento) como verdade absoluta. Por exemplo, os autocodificadores mascarados são como uma inversão dos codificadores de áudio de redução de ruído: eles aprendem a prever e restaurar informações ausentes, em vez de remover informações desnecessárias.

O mascaramento também é usado no treinamento de modelos de linguagem mascarados: palavras aleatórias são omitidas das frases de amostra, e os modelos são treinados para preenchê-las. Embora os modelos de linguagem mascarada, como o BERT (e os muitos modelos criados a partir de sua arquitetura, como o BART e o RoBERTa), geralmente sejam menos hábeis na geração de texto do que os modelos autorregressivos, eles têm a vantagem de serem bidirecionais: podem prever não apenas a próxima palavra, mas também palavras anteriores ou palavras encontradas posteriormente em uma sequência. Isso os torna adequados para tarefas que exigem uma forte compreensão contextual, como tradução, sumarização e pesquisa.

Previsão de relacionamento inato

A previsão de relacionamento inato treina um modelo para manter sua compreensão de uma amostra de dados depois que ela é transformada de alguma maneira. Por exemplo, girar uma imagem de entrada e solicitar a um modelo que preveja o grau de alteração e a direção da rotação em relação à imagem original.⁵

Aprendizagem contrastiva

Os métodos de aprendizado autossupervisionado contrastivo fornecem modelos com várias amostras de dados e os encarregam de prever a relação entre eles. Os modelos treinados com esses métodos geralmente são modelos discriminativos, e não generativos.

Os modelos contrastivos geralmente funcionam com pares de dados-dados para treinamento, enquanto os modelos autoassociativos funcionam com pares de dados-rótulos (onde o rótulo é autogerado a partir dos dados). Usando esses pares de dados-dados, os métodos contrastivos treinam modelos para distinguir entre coisas semelhantes e diferentes.

Esses pares são frequentemente criados por meio de aumento de dados: aplicação de diferentes tipos de transformações ou perturbações em dados não rotulados para criar novas instâncias ou visualizações aumentadas. Por exemplo, as técnicas comuns de aumento de dados de imagem incluem rotação, corte aleatório, inversão, ruído, filtragem e colorizações. O aumento de dados aumenta a variabilidade dos dados e expõe o modelo a diferentes perspectivas, o que ajuda a garantir que o modelo aprenda a capturar representações semânticas dinâmicas e significativas.

Discriminação de instâncias

Os modelos baseados em discriminação de instâncias estruturam o treinamento como uma série de tarefas de classificação binária: usando uma amostra de dados como alvo (ou “âncora”), outras amostras de dados são determinadas como “positivas” (correspondentes) ou “negativas” (não correspondentes).

Na visão computacional, esses métodos, como o SimCLR ou o MoCo, normalmente começam com um lote de imagens brutas não rotuladas e aplicam uma combinação aleatória de transformações para gerar pares (ou conjuntos) de amostras de imagens aumentadas. Cada uma dessas imagens aumentadas é, então, codificada em uma representação vetorial, e uma função de perda contrastiva é usada para minimizar a diferença nas representações vetoriais entre correspondências positivas (pares de imagens aumentadas derivadas da mesma imagem original) e maximizar a diferença entre correspondências negativas.

Sendo assim, os métodos de discriminação de instância treinam modelos para aprender representações de diferentes categorias que, graças a aumentos de dados aleatórios, são capazes de lidar com variações triviais (como a cor, a perspectiva ou as partes visíveis de uma imagem específica). Assim, essas representações se generalizam muito bem para tarefas posteriores.

Aprendizado não contrastivo

De forma um tanto contraintuitiva, "aprendizado não contrastivo" refere-se a um método intimamente relacionado ao aprendizado contrastivo (em vez de, como se pode imaginar, um genérico geral para métodos que não são de aprendizado contrastivo). Os modelos são treinados usando apenas pares positivos, aprendendo a minimizar a diferença entre suas representações – portanto, nãocontrastivos.

Em comparação com o aprendizado contrastivo, a abordagem não contrastiva é relativamente simples: como ela opera somente em amostras positivas, ela usa lotes menores durante o treinamento e não precisa de um banco de memória para armazenar amostras negativas. Isso economiza memória e custo computacional durante o pré-treinamento.

Modelos não contrastivos, como o Bootstrap Your Own Latent (BYOL)⁶ e Barlow Twins⁷ , obtiveram resultados competitivos com os resultados contrastivos e totalmente supervisionados.

Aprendizado multimodal

Considerando-se pontos de dados de diferentes tipos (modalidades), os métodos contrastivos podem aprender o mapeamento entre essas modalidades. Por exemplo, o Contrastive Language-Image Pre-training (CLIP) treina conjuntamente um codificador de imagem e um codificador de texto para prever qual legenda combina com qual imagem, usando milhões de pares não rotulados (imagem, texto) prontamente disponíveis coletados da internet. Após o pré-treinamento, o processamento de linguagem natural (NLP) é usado para fazer referência aos conceitos visuais aprendidos no treinamento (ou mesmo para descrever novos conceitos visuais), tornando os modelos treinados pelo CLIP altamente úteis para uma ampla gama de aplicações de aprendizado por transferência.

O aprendizado contrastivo também tem sido usado para aprender alinhamentos entre vídeo e texto,⁸ vídeo e áudio,⁹ e fala e texto.¹⁰

Caso de uso de aprendizado autossupervisionado

O aprendizado autossupervisionado tem sido usado para pré-treinar modelos de inteligência artificial para uma ampla gama de tarefas e disciplinas.

Aprendizado autossupervisionado para NLP

Um ano após sua introdução em 2018, o Google implementou o modelo de linguagem mascarada BERT como o mecanismo de NLP para trechos classificados e em destaque na Pesquisa.¹¹ A partir de 2023, o Google continuará usando a arquitetura BERT para alimentar suas aplicações de pesquisa no mundo real^.12

As famílias LLaMa, GPT e Claude de LLMs são modelos de linguagem autorregressivos. O GPT3 foi treinado principalmente com aprendizado autossupervisionado; o InstructGPT e os modelos subsequentes do GPT-3.5 usados para lançar o ChatGPT ajustaram os modelos pré-treinados usando aprendizado por reforço com feedback humano (RLHF).

Os modelos autorregressivos também são usados para tarefas de NLP baseadas em áudio, como Speech to Text, bem como modelos Text to Speech como o WaveNet.¹³ O Facebook (Meta) usa o wav2vec para reconhecimento de fala, usando duas redes neurais convolucionais profundas empilhadas uma sobre a outra para mapear o áudio bruto de input para uma representação vetorial. No pré-treinamento autossupervisionado, esses vetores são usados como inputs para tarefas de autoprevisão.¹⁴

Aprendizadp autossupervisionado para visão computacional

O aprendizado autossupervisionado é um subconjunto em rápido crescimento das técnicas deep learning usadas para imagens médicas, para as quais as imagens anotadas por especialistas são relativamente escassas. No PubMed, Scopus e ArXiv, as publicações que fazem referência ao uso de SSL para classificação de imagens médicas aumentaram em mais de 1.000% de 2019 a 2021.¹⁵

Os métodos baseados em SSL frequentemente podem igualar ou exceder a precisão dos modelos treinados usando métodos totalmente supervisionados. Por exemplo, o MoCo original superou os modelos supervisionados em sete tarefas de detecção de objetos e segmentação de imagens nos conjuntos de dados PASCAL, VOC e COCO.¹⁶ Quando ajustados com o uso de dados rotulados para apenas um por cento de todos os dados de treinamento, os modelos pré-treinados com SSL alcançaram mais de 80% de precisão no conjunto de dados ImageNet. Esse desempenho se equipara ao dos modelos de aprendizado supervisionado de referência, como o ResNet50.

A capacidade de manter a detecção de objetos e a segmentação de imagens bem-sucedidas, apesar das mudanças na orientação de um objeto, é fundamental para muitas tarefas de robótica. O aprendizado autossupervisionado foi proposto como uma maneira eficaz de treinar modelos de visão computacional para entender a rotação sem a coleta demorada de dados rotulados.^{17 18}

O mascaramento tem sido usado para treinar modelos para entender a trajetória do movimento em vídeos.¹⁹

Aprendizado autossupervisionado para processamento e síntese de imagens

Os codificadores automáticos de redução de ruído são um componente fundamental no treinamento de alguns modelos de síntese de imagem de última geração, como o Stable Diffusion.²⁰

A modelagem autorregressiva tem sido usada para síntese de imagens em modelos como PixelRNN e PixelCNN. O sucesso do PixelCNN fez com que ele se tornasse a base do WaveNet.

Os codificadores automáticos convolucionais são usados em várias tarefas de processamento de imagens, como pintura e colorização de imagens em escala de cinza.

Os codificadores automáticos variacionais (VAEs) são uma ferramenta importante na síntese de imagens. O modelo original do DALL-E da OpenAI usou um VAE para gerar imagens. Tanto o DALL-E 1 quanto o DALL-E 2 usam o CLIP no processo de tradução de prompts de linguagem natural em informações visuais.²¹

Tenha acesso ao poder da IA generativa + ML

Saiba como incorporar com confiança a IA generativa e o aprendizado de máquina em sua empresa.

Recursos

Explore o IBM Granite

O IBM® Granite é nossa família de modelos de IA abertos, de alto desempenho e confiáveis, personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagem, código, séries temporais e proteções.

IA em ação 2024

Entrevistamos duas mil organizações a respeito de suas iniciativas de IA para descobrir o que está funcionando, o que não está e como se preparar.

Modelos de aprendizado supervisionado

Explore abordagens de aprendizado supervisionado, como máquinas de vetores de suporte e classificadores probabilísticos.

Prática com IA generativa

Aprenda conceitos fundamentais e desenvolva suas habilidades com laboratórios práticos, cursos, projetos guiados, avaliações e muito mais.

Como escolher o modelo de base certo

Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.

Soluções relacionadas

IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai

Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA

Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA

Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai

Agende uma demonstração em tempo real

Notas de rodapé

¹ "Fathers of the Deep Learning Revolution Receive ACM A.M. Turing Award," Association for Computing Machinery, 27 de março de 2019
² Facebook, Yann LeCun, 30 de abril de 2019
³ "Self-taught learning: transfer learning from unlabeled data," Proceedings of the 24th international conference on machine learning, 20 de junho de 2007
⁴ Lecture: Energy based models and self-supervised learning, YouTube, carregado em 2020
⁵ "Learning to see by moving," arXiv, 14 de setembro de 2015
⁶ "Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning," arXiv, 10 de setembro de 2020
⁷ "Barlow Twins: Self-Supervised Learning via Redunancy Reduction," arXiv, 14 de junho de 2021
⁸ "VideoCLIP: Contrastive Pre-Training for Zero-shot Video-Text Understanding," arXiv, 1 de outubro de 2021
⁹ "Active Contrasting Learning of Audio-Visual Video Representations," Proceedings of the International Conference on Learning Representations, 2021
¹⁰ "Cross-modal Contrastive Learning for Speech Translation," arXiv, 5 de maio de 2022
¹¹ "Understanding searches better than ever before," Google, 25 de outubro de 2019
¹² "End-to-End Query Term Weighting," Google, 2023
¹³ "WaveNet: A Generative Model for Raw Audio," arXiv, 19 de setembro de 2016
¹⁴ "Wave2vec: State-of-the-art speech recognition through self-supervision," Meta, 19 de setembro de 2019
¹⁵ "Self-supervised learning for medical image classification: a systematic review and implementation guidelines," Nature, 26 de abril de 2023
¹⁶ "Momentum Contrast for Unsupervised Visual Representation Learning," arXiv, 13 de novembro de 2019 (última revisão em 23 de março de 2020)
¹⁷ "Deep Projective Rotation Estimation through Relative Supervision," arXiv, 21 de novembro de 2022
¹⁸ "Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation Transforms," arXiv, 29 de maio de 2021
¹⁹ "Masked Motion Encoding for Self-Supervised Video Representation Learning," The Computer Vision Foundation, outubro de 2022
²⁰ "High-Resolution Image Synthesis with Latent Diffusion Models," arXiv, 20 de dezembro de 2021 (útima revisão em 13 de abril de 2022)
²¹ "DALL-E: Creating images from text," OpenAI, 5 de janeiro de 2021