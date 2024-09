Também conhecido como aprendizado autossupervisionado autoassociativo, os métodos de autopredição treinam um modelo para prever parte de uma amostra de dados individual, com informações sobre suas outras partes. Os modelos treinados com esses métodos são, em geral, modelos generativos, e não discriminativos.

Yann LeCun caracterizou os métodos autossupervisionados como uma prática estruturada de "preencher os espaços em branco". Em linhas gerais, ele descreveu o processo de aprendizado de representações significativas a partir da estrutura subjacente de dados não rotulados em termos simples: "finja que há uma parte do input que você não conhece e preveja isso." 4 Por exemplo:

Prever qualquer parte do input a partir de qualquer outra parte

Prever o futuro com base no passado

Prever o mascarado a partir do visível

Prever qualquer parte oculta a partir de todas as partes disponíveis

Os sistemas autossupervisionados criados com base nessas filosofias geralmente empregam determinadas arquiteturas de modelos e técnicas de treinamento.



Codificadores automáticos

Um codificador automático é uma rede neural treinada para comprimir (ou codificar) dados de input e, em seguida, reconstruir (ou decodificar) o input original usando essa representação comprimida. Eles são treinados para minimizar o erro de reconstrução, usando o próprio input original como verdade absoluta.

Embora as arquiteturas de codificadores automáticos variem, elas normalmente introduzem alguma forma de gargalo: à medida que os dados atravessam a rede do codificador, a capacidade de dados de cada camada é progressivamente reduzida. Isso força a rede a aprender apenas os padrões mais importantes ocultos nos dados do input – chamados de variáveis latentes ou espaço latente – para que a rede do decodificador possa reconstruir com precisão o input original, apesar de agora ter menos informações.

As modificações nessa estrutura básica permitem que os codificadores automáticos aprendam recursos e funções úteis.

Os codificadores automáticos de eliminação de ruído recebem dados de input parcialmente corrompidos e são treinados para restaurar o input original removendo informações inúteis ("ruído"). Isso reduz o excesso de ajuste e torna esses modelos úteis para tarefas como a restauração do input de imagens e dados de áudio corrompidos.

Enquanto a maioria dos codificadores automáticos codificam modelos discretos de espaço latente, os codificadores automáticos variacionais (VAEs) aprendem modelos contínuos de espaço latente: ao codificar representações latentes de dados de input como uma distribuição de probabilidade, o decodificador pode gerar novos dados por meio da amostragem de um vetor aleatório dessa distribuição.



Autoregressão

Os modelos autorregressivos usam o comportamento passado para prever o comportamento futuro. Eles trabalham com a lógica de que qualquer dado com uma ordem sequencial inata – como linguagem, áudio ou vídeo – pode ser modelado com regressão.

Os algoritmos de autorregressão modelam dados de séries temporais, usando os valores das etapas de tempo anteriores para prever o valor da etapa de tempo seguinte. Enquanto nos algoritmos de regressão convencionais, como os usados para regressão linear, as variáveis independentes são usadas para prever um valor-alvo (ou variável dependente), na autorregressão as variáveis independente e dependente são basicamente a mesma coisa: ela é chamada de autorregressão porque a regressão é realizada na própria variável.

A autorregressão é usada de forma proeminente em modelos de linguagem causal, como as famílias GPT, LLaMa e Claude de LLMs que se destacam em tarefas como geração de texto e resposta a perguntas. No pré-treinamento, os modelos de linguagem recebem o início de frases de amostra extraídas de dados de treinamento não rotulados e têm a tarefa de prever a próxima palavra, com a próxima palavra "real" da frase de amostra servindo como verdade absoluta.



Mascaramento

Outro método de aprendizado autossupervisionado envolve o mascaramento de determinadas partes de uma amostra de dados não rotulada e a tarefa de modelos de prever ou reconstruir as informações ausentes. As funções de perda usam o input original (pré-mascaramento) como verdade absoluta. Por exemplo, os codificadores automáticos mascarados são como uma inversão dos codificadores de áudio de redução de ruído: eles aprendem a prever e a restaurar informações ausentes, em vez de remover informações estranhas.

O mascaramento também é usado no treinamento de modelos de linguagem mascarados: palavras aleatórias são omitidas das frases de amostra e os modelos são treinados para preenchê-las. Embora os modelos de linguagem mascarada, como o BERT (e os muitos modelos criados a partir de sua arquitetura, como o BART e o RoBERTa), geralmente sejam menos hábeis na geração de texto do que os modelos autorregressivos, eles têm a vantagem de serem bidirecionais: podem prever não apenas a próxima palavra, mas também palavras anteriores ou palavras encontradas posteriormente em uma sequência. Isso os torna adequados para tarefas que exigem uma forte compreensão contextual, como tradução, resumo e pesquisa.



Previsão de relacionamento inato

A previsão de relacionamento inato treina um modelo para manter sua compreensão de uma amostra de dados depois que ela é de alguma forma transformada. Por exemplo, girar uma imagem de input e solicitar a um modelo que preveja o grau de alteração e a direção da rotação em relação à imagem original.5