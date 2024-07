주어진 상황에서 활용되는 전문가를 선택하기 위해서는 여러 게이팅 메커니즘을 사용할 수 있습니다. 올바른 게이팅 기능은 모델 성능에 매우 중요한데, 라우팅 전략이 잘못되면 일부 전문가가 제대로 학습을 하지 못하거나 과도하게 전문화되어 전체 네트워크의 효율성이 떨어질 수 있기 때문입니다.

Shazeer의 중요한 논문에서 소개된 기존 MoE 설정의 일반적인 게이팅 메커니즘은 softmax 함수를 사용합니다. 각 전문가에 대해 예제별로 라우터는 해당 전문가의 확률 값(현재 매개변수에 대한 해당 전문가의 연결 가중치 기반)을 예측하여 주어진 입력에 대해 최상의 출력을 산출합니다. 라우터는 모든 전문가의 출력을 계산하는 대신 해당 예제에 대한 상위 k 전문가의 출력(예상 결과)만 계산합니다. 앞서 설명한 바와 같이 Mixtral은 이러한 고전적인 상위 k 라우팅 전략을 사용합니다. 즉, 상위 2명의 라우팅, 즉 k=2를 사용하여 총 8명의 전문가 중 가장 우수한 2명의 전문가를 선택합니다.

Fedus 외는 2021년 발표한 영향력 있는 논문 '스위치 트랜스포머: 단순하고 효율적인 희소성을 갖춘 1조 개 매개변수 모델로의 확장(Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity)'에서 상위 k 라우팅을 극단적으로 발전시켰습니다. Google의 T5 LLM을 사용하여 모델의 FFN 레이어를 128명의 전문가로 대체하고 '하드 라우팅'이라고도 하는 k=1을 구현했습니다. 모델을 최대 1조 개의 매개변수로 확장할 때에도 이 설정은 사전 학습 속도를 400% 향상했습니다.6