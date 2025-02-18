A autoatenção é um tipo de mecanismo de atenção usado em modelos de aprendizado de máquina. Esse mecanismo é usado para ponderar a importância de tokens ou palavras em uma sequência de entrada, para entender melhor as relações entre eles. É uma parte crucial dos modelos de transformadores, uma poderosa arquitetura de inteligência artificial que é essencial para tarefas de processamento de linguagem natural (NLP). A arquitetura de transformação é a base para a maioria dos grandes modelos de linguagem (LLMs) modernos.

O mecanismo de autoatenção foi introduzido por meio do transformador, um modelo de arquitetura de redes neurais proposto pelos pesquisadores. O objetivo da arquitetura proposta era lidar com os desafios dos modelos tradicionais de aprendizado de máquina que utilizam redes neurais de convolução (CNNs) e redes neurais recorrentes (RNNs).1

Os modelos sequenciais tradicionais seguem a mesma arquitetura de codificador-decodificador dos modelos de transformadores, mas processam os dados passo a passo ou de sequência para sequência (seq2seq). Essa função representa um desafio para a paralelização, que é a capacidade de reduzir o tempo de computação e aprimorar a geração de produção calculando pesos de atenção em todas as partes da entrada simultaneamente.



A autoatenção desempenhou um papel fundamental no avanço dos LLMs, permitindo a paralelização dentro de exemplos de treinamento. Esse método é útil porque quanto maior o comprimento da sequência, mais as restrições de memória limitam o lote em exemplos de treinamento. Usando autoatenção, os dados de treinamento do LLM podem ser divididos em lotes e processados simultaneamente em várias GPUs.1 A autoatenção reduz o poder computacional necessário para treinar modelos de aprendizado de máquina com lotes eficientes processados em paralelo.

A autoatenção não só contribui para a distribuição eficiente da carga computacional, mas também possibilita a capacidade de processar pesos de atenção simultaneamente. Essa capacidade permite que o modelo foque em partes relevantes de uma sequência de entrada para prever dinamicamente a importância de cada elemento em uma sequência. A autoatenção é boa para tarefas de NLP, como tradução automática, análise de sentimento e sumarização.