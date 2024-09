Como mencionado anteriormente, as vantagens dos modelos esparsos às vezes são moderadas por sua complexidade adicional. Os desafios de implementar MoEs são particularmente evidentes no processo de ajuste fino . Os modelos esparsos são mais propensos ao sobreajuste do que os modelos densos tradicionais, e a presença de camadas MoE esparsas e camadas FFN densas complica o uso de uma abordagem única para todos.

Uma série de observações e abordagens têm sido propostas para reduzir a instabilidade ao ajustar as MoEs. Os autores do artigo "Switch Transformers" observaram que as variantes com menos especialistas tiveram um ajuste fino mais bem-sucedido, o que sugere que os benefícios de um número maior de especialistas em pré-treinamento podem ser contrabalançados por seu obstáculo à especialização em tarefas posteriores.

No artigo de 2022 "ST-MoE: Designing Stable and Transferable Sparse Expert Models", Zoph et al compararam os resultados de 5 abordagens diferentes: ajuste fino de todos os parâmetros ("Todos"), apenas parâmetros não MoE ("Não MoE" ), apenas parâmetros MoE ("MoE"), apenas os parâmetros de autoatenção do codificador-decodificador ("Atenção") e apenas os parâmetros FFN não MoE ("FFN").

Quase nenhuma diferença foi encontrada entre Todos e Não MoE

O ajuste fino apenas dos parâmetros de atenção resultou em uma pequena redução no desempenho.

A atualização apenas dos parâmetros da MoE degradou significativamente o desempenho do modelo, apesar do fato de que cerca de 80% dos parâmetros do modelo residiam nas camadas esparsas da MoE.

O FFN foi a única abordagem que melhorou o desempenho em relação à linha de base Todos.

Os autores levantaram a hipótese de que, como as camadas de especialistas representavam apenas um quarto do total de camadas de seu modelo, e um token verá no máximo apenas dois especialistas por camada, isolar os parâmetros de MoE resulta em atualizações de peso menos abrangentes (e, portanto, maior sobreajuste e perda de treinamento).8



Combinação de ajuste de instrução de especialistas

Um artigo de julho de 2023, "Mixture-of-Experts Meets Instruction Tuning", explorou o impacto do ajuste de instruções em modelos MoE usando equivalentes dos LLMs T5 e Flan-T5 do Google – uma versão do T5 ajustada por instrução com o protocolo Flan do Google (link externo ao site ibm.com) – como linha de base. O experimento comparou quatro configurações: ajuste fino de um modelo T5 denso, ajuste fino de um modelo Flan-T5 denso, ajuste fino de um modelo MoE e ajuste fino de um modelo Flan-MoE ajustado por instrução.

Como esperado, o equivalente denso do T5 superou o MoE após o ajuste fino. Mas, por outro lado, o modelo Flan-MoE com ajuste fino superou significativamente o modelo Flan-T5 ajustado. Além disso, a melhora do Flan-MoE em relação ao MoE foi ainda maior do que a melhora do Flan-T5 em relação ao T5 original.9

De forma encorajadora, isso sugere que, apesar de suas dificuldades com o ajuste fino padrão, os modelos MoE na verdade se beneficiam mais do ajuste de instruções do que seus equivalentes densos. Essa descoberta foi realizada com o aclamado lançamento do Mixtral 8x7B Instruct, uma variante ajustada por instruções do Mixtral que é oferecida como um modelo de base no IBM watsonx.ai.