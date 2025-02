特定の状況でどの専門家を活用するかを選択するために、さまざまなゲーティング・メカニズムを使用できます。適切なゲーティング機能はモデルのパフォーマンスにとって重要です。ルーティング戦略が適切でないと、一部の専門家のトレーニングが不十分になったり、過度に専門化したりして、ネットワーク全体の有効性が低下する可能性があるためです。

Shazeerの独創的な論文で紹介されている、従来の MoE設定における一般的なゲーティング・メカニズムは、softmax関数を使用します。ルーターは、各専門家について、例ごとに、その専門家が特定のインプットに対して最適なアウトプットを生成する確率値(その専門家の現在のパラメーターへの接続の重みに基づく)を予測します。つまり、すべての専門家のアウトプットを計算するのではなく、ルータは、その例の上位k個の専門家(と予測される)のアウトプットのみを計算します。前述のように、Mixtralはこの古典的なトップkルーティング戦略を使用します。具体的には、トップ 2ルーティング(つまり、k=2)を使用して、合計8個の専門家のうち最高の2個を選択します。

2021年に発表された影響力のある論文「Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficiency Sparsity(邦訳:スイッチ・トランスフォーマー:シンプルかつ効率的なスパース性を備えた1兆個パラメーター・モデルへのスケーリング)」で、Fedusらはトップkルーティングを極限まで推し進め、GoogleのT5 LLMと連携して、モデルのFFNレイヤーを128個の専門家に置き換え、「ハードルーティング」とも呼ばれるk=1を実装しました。モデルを 1 兆個のパラメーターまで拡張した場合でも、この設定により事前トレーニング速度が400%向上しました。6