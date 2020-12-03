Modelos de linguagem estimam a probabilidade de as palavras aparecerem em uma frase, ou de a própria frase existir. Dessa forma, eles são blocos de construção úteis em muitas aplicações de NLP. Mas, muitas vezes, eles exigem uma quantidade onerosa de dados de treinamento para serem úteis para tarefas e domínios específicos.

Os modelos de linguagem de deep learning maciços são projetados para resolver esses problemas difundidos de dados de treinamento. Eles são pré-treinados usando uma enorme quantidade de dados não anotados para fornecer um modelo de deep learning de uso geral. Ao ajustar esses modelos pré-treinados, os usuários posteriores podem criar modelos específicos para a tarefa com conjuntos de dados de treinamento anotados menores (uma técnica chamada aprendizado por transferência). Esses modelos representam um avanço no NLP: agora, os resultados de última geração podem ser obtidos com conjuntos de dados de treinamento menores.

Até recentemente, o estado da arte para modelos de linguagem de NLP eram modelos RNN. Elas são úteis para tarefas sequenciadas, como resumo abstrativo, tradução automática e geração de linguagem natural geral. Os modelos de RNN processam palavras sequencialmente, na ordem em que aparecem no contexto, uma palavra de cada vez. Como resultado, esses modelos são difíceis de paralelizar e deficientes em manter relações contextuais em logas entradas de texto. Como discutimos em um post anterior, o contexto é fundamental no NLP.

O Transformer, um modelo lançado em 2017, contorna esses problemas. Transformadores (como BERT e GPT) usam um mecanismo de atenção, que "presta atenção" às palavras mais úteis para prever a próxima palavra em uma frase. Com esses mecanismos de atenção, os transformadores processam uma sequência de entrada de palavras de uma só vez e mapeiam dependências relevantes entre as palavras, independentemente da distância entre as palavras que aparecem no texto. Como resultado, os Transformers são altamente paralelizáveis, podem treinar modelos muito maiores em uma taxa mais rápida e usar pistas contextuais para resolver muitos problemas de ambiguidade que assola o texto.

Os transformadores individuais também têm suas próprias vantagens exclusivas. Até este ano, o BERT era o modelo de NLP de deep learning mais popular, alcançando resultados de última geração em muitas tarefas de NLP.

Treinado com 2,5 bilhões de palavras, sua principal vantagem é o uso de aprendizado bidirecional para obter contexto de palavras tanto do contexto da esquerda para a direita quanto do contexto da direita para a esquerda simultaneamente. A abordagem de treinamento bidirecional do BERT é otimizada para prever palavras mascaradas (Masked LM) e supera o treinamento da esquerda para a direita após um pequeno número de etapas de pré-treinamento. Durante o processo de treinamento do modelo, o treinamento de Next Sentence Prediction (NSP) permite que o modelo entenda como as frases se relacionam entre si, se a frase B deve preceder ou seguir a frase A. Como resultado, ela é capaz de obter mais contexto. Por exemplo, ele pode entender os significados semânticos de banco nas seguintes frases: "Levante seus remos quando chegar à margem do rio" e "O banco está enviando um novo cartão de débito". Para entender isso, ele usa pistas de cartão de débito da esquerda para a direita e da direita para a esquerda.

Ao contrário dos modelos BERT, os modelos GPT são unidirecionais. A principal vantagem dos modelos GPT é o grande volume de dados nos quais foram pré-treinados: o GPT-3, o modelo GPT de terceira geração, foi treinado com 175 bilhões de parâmetros, cerca de 10 vezes o tamanho dos modelos anteriores. Este modelo pré-treinado verdadeiramente maciço significa que os usuários podem realizar ajuste fino de tarefas de NLP com muito poucos dados para realizar tarefas novas. Embora os transformadores em geral tenham reduzido a quantidade de dados necessários para treinar modelos, o GPT-3 tem a vantagem distinta sobre o BERT, pois exige muito menos dados para treinar modelos.

Por exemplo, com apenas 10 frases, o modelo foi ensinado a escrever um ensaio sobre por que os humanos não devem ter medo da IA. (Embora seja importante observar que a qualidade variável desses ensaios de forma livre mostra as limitações da tecnologia atualmente.)