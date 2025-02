Comme mentionné précédemment, les avantages des modèles clairsemés sont parfois contrebalancés par leur complexité accrue. Les défis liés à la mise en œuvre des MoE sont particulièrement évidents au cours du processus de réglage fin. Les modèles clairsemés sont davantage sujets au sur-apprentissage que les modèles denses traditionnels. La présence de couches de MoE clairsemés et de couches FFN denses complique l’adoption d’une approche universelle.

Plusieurs observations et approches ont été avancées pour réduire l’instabilité lors du réglage fin des MoE. Les auteurs de l’article « Switch Transformers » avaient constaté que les variantes comportant moins d’experts bénéficiaient d’un réglage fin plus efficace, ce qui indique qu’utiliser un plus grand nombre d’experts lors du pré-entraînement est susceptible d’entraver la spécialisation sur les tâches en aval.

Dans un article publié en 2022, « ST-MoE : Designing Stable and Transferable Sparse Expert Models », Zoph et al ont comparé les résultats de 5 approches différentes : procéder au réglage fin de tous les paramètres (« Tous »), uniquement des paramètres non MoE (« Non MoE ») ), uniquement des paramètres MoE (« MoE »), uniquement des paramètres d’auto-attention et d’attention encodeur-décodeur (« Attention ») et uniquement des paramètres FFN non-MoE (« FFN »).

La différence constatée entre « Tous » et « Non MoE » était infime.

Le réglage fin des seuls paramètres Attention a entraîné une légère perte de performance.

La mise à jour des seuls paramètres MoE a considérablement diminué la performance du modèle, malgré le fait qu’environ 80 % de ses paramètres se trouvaient dans les couches MoE clairsemées.

L'approche FFN était la seule à améliorer la performance par rapport à la ligne de base « Tous ».

Étant donné que les couches d’experts ne représentaient qu’un quart du nombre total de couches de leur modèle, et qu’un jeton ne permet d’identifier que deux experts par couche maximum, les auteurs ont émis l’hypothèse que l’isolement des paramètres MoE entraînerait des mises à jour du poids moins complètes (et donc un sur-ajustement et une perte d’entraînement).8