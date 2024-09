O ajuste fino completo, assim como o processo de pré-treinamento ao qual se assemelha, é muito exigente em termos de computação. Para os modelos modernos de deep learning com centenas de milhões ou até mesmo muitos bilhões de parâmetros, isso costuma ser proibitivamente caro e impraticável.

O ajuste fino com eficiência de parâmetros (PEFT) engloba uma variedade de métodos para reduzir o número de parâmetros treináveis que precisam ser atualizados para adaptar efetivamente um grande modelo pré-treinado às aplicações específicas subsequentes. Ao fazer isso, o PEFT diminui significativamente os recursos computacionais e o armazenamento de memória necessários para produzir um modelo com um ajuste fino eficaz. Os métodos PEFT muitas vezes demonstraram ser mais estáveis do que os métodos de ajuste fino completo, especialmente para casos de uso de PLN.3



Ajuste fino parcial

Também chamados de ajuste fino seletivo, os métodos parciais de ajuste fino visam reduzir as demandas computacionais, atualizando apenas o subconjunto selecionado de parâmetros pré-treinados mais críticos para modelar o desempenho nas tarefas relevantes posteriores. Os parâmetros restantes são "congelados", garantindo que não serão alterados.

A abordagem de ajuste fine parcial mais intuitiva é atualizar somente as camadas externas da rede neural. Na maioria das arquiteturas de modelo, as camadas internas do modelo (mais próximas da camada de input) capturam apenas recursos amplos e genéricos: por exemplo, em uma CNN usada para classificação de imagens, as camadas iniciais normalmente identificam edges e texturas; cada camada subsequente identifica recursos cada vez mais finos até que a classificação final seja prevista na camada mais externa. De modo geral, quanto mais semelhante for a nova tarefa (para a qual o modelo está sendo ajustado) à tarefa original, mais úteis serão os pesos pré-treinados das camadas internas para essa nova tarefa relacionada (e, portanto, menos camadas precisarão ser atualizadas).

Outros métodos de ajuste fino parcial, incluindo a atualização apenas dos termos de viés de toda a camada do modelo (em vez dos pesos específicos do nó)4 e métodos de ajuste fino "esparsos" que atualizam apenas um subconjunto selecionado de pesos gerais em todo o modelo.5



Ajuste fino aditivo

Em vez de ajustar os parâmetros existentes de um modelo pré-treinado, os métodos aditivos adicionam parâmetros ou camadas extras ao modelo, congelam os pesos pré-treinados existentes e treinam apenas esses novos componentes. Essa abordagem ajuda a manter a estabilidade do modelo, garantindo que os pesos pré-treinados originais permaneçam inalterados.

Embora isso possa aumentar o tempo de treinamento, reduz significativamente os requisitos de memória porque há muito menos gradientes e estados de otimização para armazenar: de acordo com Lialin, et al, treinar todos os parâmetros de um modelo requer de 12 a 20 vezes mais memória de GPU do que apenas os pesos do modelo.6 Outras economias de memória podem ser alcançadas por meio da quantização dos pesos do modelo congelado: uma redução na precisão usada para representar os parâmetros do modelo, conceitualmente semelhante à redução da taxa de bits de um arquivo de áudio.

Um sub-ramo dos métodos aditivos é o ajuste de prompt. Conceitualmente, é semelhante à engenharia de prompts, que se refere à adaptação de "prompts rígidos", ou seja, instruções escritas por um humano em linguagem natural, para orientar o modelo em direção ao output desejado, por exemplo, especificando um determinado tom ou fornecendo exemplos que facilitam o aprendizado em poucas etapas. O ajuste de prompt introduz solicitações prompts flexíveis criadas por IA: incorporações vetoriais aprendíveis que são concatenadas ao prompt rígido do usuário. Em vez de treinar novamente o modelo, o ajuste de prompt envolve o congelamento dos pesos do modelo e, em vez disso, treina o próprio prompt flexível. Rápido e eficiente, o ajuste de prompt permite que os modelos alternem mais facilmente entre tarefas específicas, embora com uma desvantagem na interpretabilidade.



Adaptadores

Outro subconjunto do ajuste fino aditivo injeta módulos adaptadores– novas camadas específicas da tarefa adicionadas à rede neural – e treina esses módulos adaptadores em vez de ajustar qualquer um dos pesos do modelo pré-treinado (que estão congelados). De acordo com o artigo original, que mediu os resultados no modelo de linguagem mascarada BERT, os adaptadores alcançaram um desempenho equivalente ao de um ajuste fino completo embora tenham treinado apenas 3,6% do número de parâmetros.7



Reparametrização

Métodos baseados em reparametrização, como Adaptação de Baixa Classificação (LoRA), aproveitam a transformação de baixa classificação de matrizes de alta dimensão (como a enorme matriz de pesos de um modelo pré-treinado em um modelo transformador). Essas representações de baixa classificação omitem informações irrelevantes de alta dimensão para capturar a estrutura subjacente de baixa dimensão dos pesos do modelo, reduzindo muito o número de parâmetros treináveis. Isso acelera drasticamente o ajuste fino e reduz a memória necessária para armazenar as atualizações do modelo.

A LoRA evita a otimização direta da matriz de pesos do modelo e, em vez disso, otimiza uma matriz de atualizações dos pesos do modelo (ou pesos delta), que é inserida no modelo. Essa matriz de atualizações de peso é, por sua vez, representada como duas matrizes menores (isto é, de baixa classificação), reduzindo bastante o número de parâmetros a serem atualizados – o que, por sua vez, acelera drasticamente o ajuste fino e reduz a memória necessária para armazenar as atualizações do modelo. Os próprios pesos do modelo pré-treinado permanecem congelados.

Um benefício adicional da LoRA é que, como o que está sendo otimizado e armazenado não são novos pesos do modelo, mas sim a diferença (ou delta) entre os pesos pré-treinados originais e os pesos ajustados, diferentes LoRAs específicas da tarefa podem ser "trocadas" conforme necessário para adaptar o modelo pré-treinado, cujos parâmetros reais permanecem inalterados, a um determinado caso de uso.

Diversos derivados da LoRA foram desenvolvidos, como a QLoRA, que reduz ainda mais a complexidade computacional ao quantificar o modelo do transformador anterior ao LoRA.