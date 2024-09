Como ya se ha mencionado, las ventajas de los modelos dispersos a veces se ven atenuadas por su complejidad añadida. Los retos de la aplicación de los MoE son especialmente evidentes en el proceso de puesta a punto. Los modelos dispersos son más propensos al sobreajuste que los modelos densos tradicionales, y la presencia tanto de capas MoE dispersas como de capas FFN densas complica un enfoque único.

Se han propuesto varias observaciones y enfoques para reducir la inestabilidad a la hora de ajustar los MoE. Los autores del artículo de Switch Transforlmers observaron que las variantes con menos expertos tuvieron más éxito en el ajuste, lo que sugiere que las ventajas de un mayor número de expertos en el preentrenamiento pueden verse contrarrestadas por su obstáculo a la especialización en tareas posteriores.

En el artículo de 2022 "ST-MoE: Designing Stable and Transferable Sparse Expert Models", Zoph et al compararon los resultados de 5 enfoques diferentes: ajuste de todos los parámetros ("Todos"), sólo de los parámetros no MoE ("Non MoE"), sólo de los parámetros MoE ("MoE"), sólo de los parámetros de autoatención y atención codificador-decodificador ("Attention") y sólo de los parámetros FFN no MoE ("FFN").

Prácticamente no se encontraron diferencias entre Todos y No MoE

El ajuste fino sólo de los parámetros de atención dio lugar a una disminución menor del rendimiento.

Actualizar solo los parámetros del MoE degradó significativamente el rendimiento del modelo, a pesar de que aproximadamente el 80 % de los parámetros del modelo residían en las escasas capas del MoE.

El FFN fue el único enfoque que mejoró el rendimiento con respecto a la línea de base de Todos.

Los autores plantearon la hipótesis de que, dado que las capas de expertos representaban sólo una cuarta parte del total de capas de su modelo, y un token verá como mucho sólo dos expertos por capa, aislar los parámetros de MoE da lugar a actualizaciones de pesos menos exhaustivas (y, por tanto, a un mayor sobreajuste y pérdida de entrenamiento).8



Instrucción de ajuste de mezclas de expertos

Un artículo de julio de 2023, "Mixture-of-Experts Meets Instruction Tuning", exploró el impacto del ajuste de instrucciones en los modelos MoE utilizando equivalentes de T5 de Google y Flan-T5 -una versión de la instrucción T5 ajustada con el protocolo Flan de Google (enlace externo a ibm.com), que tiene LLM como referencia. Su experimento comparó cuatro configuraciones: el ajuste fino de un modelo T5 denso, el ajuste fino de un modelo Flan-T5 denso, el ajuste fino de un modelo MoE y el ajuste fino de un modelo Flan-MoE ajustado por instrucciones.

Como era de esperar, el equivalente T5 denso superó al MoE tras el ajuste fino. Pero, a la inversa, el modelo Flan-MoE ajustado superó significativamente al modelo Flan-T5 ajustado. Además, la mejora del Flan-MoE en comparación con el MoE fue incluso mayor que la mejora del Flan-T5 con respecto al T5 original.9

Esto sugiere que, a pesar de sus dificultades con el ajuste fino estándar, los modelos ME se benefician más del ajuste de las instrucciones que sus homólogos densos. Este hallazgo se hizo realidad con el aclamado lanzamiento de Mixtral 8x7B Instruct, una variante de Mixtral ajustada a las instrucciones que se ofrece como modelo fundacional en IBM watsonx.ai.