O PEFT (parameter efficient fine tuning) é uma técnica que otimiza o desempenho de grandes modelos de linguagem (LLMs) e redes neurais pré-treinadas para aplicações ou conjuntos de dados específicos.
Ao treinar apenas um pequeno conjunto de parâmetros e manter a maior parte da estrutura do modelo pré-treinado, o PEFT economiza tempo e recursos computacionais.
Redes neurais treinadas para funções gerais, como redes neurais aplicadas em processamento de linguagem natural (NLP) ou classificação de imagens, podem ser adaptadas para novas tarefas correlatas sem um re-treinamento completo. Com o PEFT, é possível desenvolver modelos especializados de maneira econômica, evitando começar do início sempre.
O método PEFT consiste em fixar a maioria dos parâmetros e camadas do modelo pré-treinado, incorporando alguns parâmetros treináveis, conhecidos como adaptadores, nas camadas finais para tarefas específicas.
Os modelos afinados preservam o aprendizado adquirido durante o treinamento, especializando-se em suas tarefas específicas. Muitos métodos PEFT melhoram a eficiência utilizando o controle de gradiente, técnica que poupa memória e auxilia os modelos a aprender sem precisar armazenar grandes volumes de dados simultaneamente.
Com o PEFT, é possível alinhar eficiência e performance, ajudando as instituições a aproveitar ao máximo os recursos de computação e diminuir os gastos com armazenamento. Com os métodos PEFT, modelos transformadores como GPT-3, LLaMA e BERT conseguem aproveitar o conhecimento acumulado nos parâmetros do pré-treinamento, entregando resultados melhores do que sem esse refinamento.
O PEFT é frequentemente utilizado em aprendizado por transferência, onde modelos treinados em uma tarefa são aplicados em outra relacionada. Por exemplo, um modelo treinado para classificação de imagens pode ser utilizado na detecção de objetos. Se um modelo base é grande demais para ser totalmente re-treinado ou se a nova tarefa difere da original, o PEFT pode ser a solução ideal.
Os métodos tradicionais de ajuste fino (fine tuning) fazem pequenas modificações em todos os parâmetros dos LLMs pré-treinados para adaptá-los a tarefas específicas. Mas com o crescimento dos modelos em tamanho e complexidade devido aos avanços em inteligência artificial e deep learning, o processo de ajuste fino tornou-se altamente exigente em termos de recursos computacionais e consumo energético.
Além disso, cada modelo ajustado tem o mesmo tamanho do original. Todos esses modelos ocupam muito espaço de armazenamento, elevando ainda mais os custos para as organizações que os utilizam. Embora o ajuste fino torne o aprendizado de máquina (ML) mais eficiente, o próprio processo de ajuste fino de LLMs tornou-se ineficiente.
O PEFT ajusta apenas os parâmetros mais relevantes para o uso pretendido, oferecendo desempenho especializado e reduzindo o peso do modelo, economizando tempo e recursos computacionais.
O ajuste fino de parâmetros com eficiência oferece diversos benefícios que o tornaram popular entre organizações que utilizam LLMs em suas atividades:
A maioria dos grandes modelos de linguagem usados em IA generativa é executada em unidades de processamento gráfico (GPUs) caras, fabricadas por empresas como a Nvidia. Cada LLM consome grande quantidade de recursos computacionais e energia. Ajustar apenas os parâmetros mais relevantes gera grande economia em energia e custos de computação em nuvem.
O time to value é o período necessário para desenvolver, treinar e implementar um LLM, permitindo que ele comece a trazer benefícios à organização. Como o PEFT ajusta apenas alguns parâmetros treináveis, leva-se bem menos tempo para atualizar um modelo para uma nova tarefa. O PEFT pode oferecer desempenho semelhante ao do ajuste fino completo, porém com menor tempo e custo.
O esquecimento catastrófico ocorre quando LLMs perdem o conhecimento adquirido no treinamento inicial ao serem re-trainados ou ajustados para novos usos. O PEFT protege contra a perda de conhecimento, já que preserva os parâmetros originais.
Overfitting ocorre quando um modelo se ajusta demais aos dados de treinamento, ficando incapaz de fazer previsões precisas em outros contextos. Modelos transformadores ajustados com PEFT são menos suscetíveis ao overfitting, pois a maioria dos parâmetros permanece inalterada.
Ao focar em poucos parâmetros, o PEFT diminui a quantidade de dados necessários para o ajuste fino. O ajuste fino completo precisa de um conjunto de dados bem maior, pois todos os parâmetros do modelo serão ajustados.
Sem o PEFT, os custos para desenvolver um LLM especializado são altos demais para muitas pequenas e médias empresas. O PEFT torna os LLMs acessíveis a equipes que não teriam tempo ou recursos para treinar e fazer o ajuste fino dos modelos.
O PEFT permite que cientistas de dados e outros profissionais personalizem LLMs gerais para casos de uso específicos. As equipes de IA podem testar otimizações de modelos sem se preocupar tanto com o consumo de recursos computacionais, energia e armazenamento.
As equipes de IA têm muitas técnicas e algoritmos de PEFT à sua disposição, cada uma com suas vantagens e especializações relativas. Muitas das ferramentas PEFT mais usadas estão no Hugging Face e em diversas comunidades no GitHub.
Os adaptadores foram uma das primeiras técnicas PEFT aplicadas a modelos de processamento de linguagem natural (NLP). O objetivo dos pesquisadores era superar os desafios de treinar um modelo para várias tarefas futuras, sem aumentar o tamanho dos modelos. A resposta para esses desafios eram os módulos adaptadores: pequenos complementos que inserem alguns parâmetros treináveis e específicos em cada camada do transformador do modelo.
Introduzido em 2021, o ajuste de baixa classificação de grandes modelos de linguagem (LoRA) utiliza matrizes gêmeas de decomposição de baixa classificação para minimizar os pesos do modelo e reduzir ainda mais o subconjunto de parâmetros treináveis.
QLoRA é uma versão estendida do LoRA que quantiza ou padroniza o peso de cada parâmetro pré-treinado para apenas 4 bits do peso típico de 32 bits. Dessa forma, o QLoRA reduz significativamente o uso de memória, possibilitando rodar um LLM em uma única GPU.
Criado especialmente para modelos de geração de linguagem natural (NLG), o ajuste por meio de prefixos adiciona um vetor contínuo específico da tarefa, chamado prefixo, a cada camada do transformador, mantendo todos os parâmetros fixos. Como resultado, modelos que utilizam ajuste por meio de prefixos armazenam mil vezes menos parâmetros do que modelos totalmente ajustados, mantendo um desempenho similar.
O ajuste de prompt simplifica o ajuste por meio de prefixos, e treina modelos injetando prompts personalizados nos dados de input ou de treinamento. Prompts complexos são elaborados por humanos, enquanto prompts simples são cadeias numéricas geradas por IA que utilizam o conhecimento do modelo original. Descobriu-se que prompts simples superam os prompts complexos criados por humanos durante o ajuste.
O ajuste de P é uma variação do ajuste de prompt voltada para tarefas de Natural Language Understanding (NLU). Em vez de usar prompts manuais, o ajuste P introduz treinamento e geração automatizada de prompts, resultando em prompts de treinamento mais eficazes ao longo do tempo.
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.