Uma das principais vantagens dos modelos de codificadores-decodificadores para tarefas de NLP posteriores, como análise de sentimento ou modelagem de linguagem mascarada, é sua saída de embeddings contextualizadas. Essas embeddings são distintas das embeddings de palavras fixas usadas nos modelos de bag of words.
Primeiro, as embeddings fixas não levam em conta a ordem das palavras. Assim, eles ignoram as relações entre tokens em uma sequência de texto. As embeddings contextualizadas, no entanto, levam em conta a ordem das palavras por meio de codificações posicionais. Além disso, as embeddings contextualizadas tentam capturar a relação entre os tokens por meio do mecanismo de atenção que considera a distância entre os tokens em uma determinada sequência ao produzir as embeddings.
As embeddings fixas geram uma embedding para um determinado token, combinando todas as instâncias desse token. Os modelos de codificadores-decodificadores produzem embeddings contextualizados para cada instância de token de um token. Como resultado, as embeddings contextualizadas lidam de forma mais hábil com palavras polissêmicas, ou seja, palavras com múltiplos significados. Por exemplo, moscas podem significar uma ação ou um inseto. Uma embedding de palavra fixa recolhe os múltiplos significados dessa palavra criando uma única embedding para o token ou palavra. Mas um modelo de codificadores-decodificadores gera embeddings contextualizadas individuais para cada ocorrência da palavra flies, e, assim, captura uma infinidade de significados por meio de múltiplas embeddings distintas.8