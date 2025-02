Como se mencionó anteriormente, las ventajas de los modelos dispersos a veces se ven mitigadas por su complejidad añadida. Los desafíos de implementar MoE son particularmente evidentes en el proceso de ajuste. Los modelos dispersos son más propensos al sobreajuste que los modelos densos tradicionales, y la presencia de capas de MoE dispersas y capas FFN densas complica un enfoque único para todos.

Se propusieron varias observaciones y enfoques para reducir la inestabilidad al afinar los ME. Los autores del artículo de Switch Transforlmers observaron que las variantes con menos expertos tuvieron más éxito en el ajuste fino, lo que sugiere que los beneficios de un mayor número de expertos en el preentrenamiento pueden verse contrarrestados por su obstáculo a la especialización en tareas posteriores.

En el artículo de 2022 "ST-MoE: Designing Stable and Transferable Sparse Expert Models", Zoph et al. compararon los resultados de 5 enfoques diferentes: ajuste preciso de todos los parámetros ("All"), solo de los parámetros no MoE ("Non MoE"), solo de los parámetros MoE ("MoE"), solo de los parámetros de autoatención y atención codificador-decodificador ("Attention") y solo de los parámetros FFN no MoE ("FFN").

Casi no se encontraron diferencias entre All y No MoE

El ajuste preciso de los parámetros de atención solo provocó una disminución menor del rendimiento.

La actualización solo de los parámetros de la MoE degradó significativamente el rendimiento del modelo, a pesar de que aproximadamente el 80 % de los parámetros del modelo residían en las capas dispersas de la MoE.

FFN fue el único enfoque que mejoró el rendimiento en relación con la línea de referencia All.

Los autores plantearon la hipótesis de que, debido a que las capas expertas representaban solo una cuarta parte de las capas totales de su modelo, y un token verá como máximo solo dos expertos por capa, aislar los parámetros de la MoE da como resultado actualizaciones de ponderación menos completas (y, por lo tanto, un mayor sobreajuste y pérdida de entrenamiento).8