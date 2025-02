Um artigo de julho de 2023, "Mixture-of-Experts Meets Instruction Tuning", explorou o impacto do ajuste de instruções nos modelos MoE com equivalentes do T5 e Flan-T5 do Google, uma versão do T5 ajustada com o protocolo Flan do Google - LLMs como linha de base. Seu experimento comparou quatro configurações: ajuste fino de um modelo T5 denso, ajuste fino de um modelo Flan-T5 denso, ajuste fino de um modelo MoE e ajuste fino de um modelo Flan-MoE ajustado por instrução.

Como esperado, o equivalente denso do T5 superou o MoE após o ajuste fino. Mas por outro lado, o modelo Flan-MoE com ajuste fino superou consideravelmente o modelo Flan-T5 ajustado. Além disso, a melhora do Flan-MoE em relação ao MoE foi ainda maior do que a melhora do Flan-T5 em relação ao T5.9 original

De forma promissora, isso sugere que, apesar de suas dificuldades com o ajuste fino padrão, os modelos MoE na verdade se beneficiam mais do ajuste de instruções do que seus equivalentes densos. Essa descoberta foi feita com o aclamado lançamento do Mixtral 8x7B Instruct, variante ajustada por instruções do Mixtral oferecida como modelo de base no IBM watsonx.ai.