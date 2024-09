O modelo foi descrito pela primeira vez em um artigo de 2017 chamado "Attention is All You Need" por Ashish Vaswani, uma equipe do Google Brain e um grupo da Universidade de Toronto. O lançamento deste artigo é considerado um momento divisor de águas no campo, dada a ampla utilização dos transformadores agora em aplicações como o treinamento de LLMs.

Esses modelos podem traduzir texto e fala quase em tempo real Por exemplo, existem aplicativos que agora permitem que turistas se comuniquem com locais na rua em seu idioma primário. Eles ajudam pesquisadores a entender melhor o DNA e acelerar os projetos de drogas. Eles podem ajudar a detectar anomalias e prevenir fraudes em finanças e segurança. Transformadores de visão são usados de maneira semelhante para tarefas de visão computacional.

A popular ferramenta de geração de texto ChatGPT da OpenAI faz uso de arquiteturas de transformação para previsão, sumarização, resposta a perguntas e mais, porque permitem que o modelo foque nos segmentos mais relevantes do texto de input. O “GPT” visto nas várias versões da ferramenta (por exemplo, GPT-2, GPT-3) significa "transformador pré-treinado generativo". Ferramentas de IA generativa baseadas em texto como o ChatGPT se beneficiam de modelos de transformadores porque podem prever mais facilmente a próxima palavra em uma sequência de texto, baseadas em conjuntos de dados grandes e complexos.

O modelo BERT, ou Bidirectional Encoder Representations from Transformers, é baseado na arquitetura de transformação. A partir de 2019, o BERT foi usado para quase todos os resultados de buscas em inglês do Google e foi implementado em mais de 70 outros idiomas.1