전문가 조합(MoE)은 인공 지능(AI) 모델을 입력 데이터의 하위 집합을 전문으로 하는 별도의 하위 네트워크(또는 '전문가')로 나누어 작업을 공동으로 수행하는 머신 러닝 접근 방식입니다.
전문가 조합 아키텍처를 활용하면 수십억 개의 매개변수로 구성된 대규모 모델도 사전 학습 중 계산 비용을 크게 줄이고 추론 시간 동안 더 빠른 성능을 달성할 수 있습니다. 광범위하게 말하면 모든 작업에 대해 전체 신경망을 활성화하는 대신 특정 작업에 필요한 특정 전문가만 선택적으로 활성화함으로써 이러한 효율성을 달성합니다.
전문가 조합 설정의 현대적 구현의 대부분은 (대략) 지난 10년 동안 개발되었지만, MoE 모델의 핵심 전제는 1991년 논문 '로컬 전문가의 적응형 조합(Adaptive Mixture of Local Experts)'에서 비롯되었습니다. 이 논문에서는 각각 다른 학습 사례의 하위 집합을 전문으로 하는 별도의 네트워크로 구성된 AI 시스템으로 학습을 진행할 것을 제안했습니다. 여기에는 '전문가 네트워크' 자체와 각 하위 작업에 사용해야 하는 전문가를 결정하는 게이팅 네트워크의 학습을 모두 진행하는 작업이 수반되었습니다. 저자들은 유사한 기존 모델과 비교했을 때 실험 모델이 기존 모델보다 절반의 학습 에포크(epoch) 만에 목표 정확도 임계값에 도달하여 학습 속도가 훨씬 더 빠르다는 것을 발견했습니다.1
최근 몇 년 동안 생성형 AI에 사용되는 주요 딥 러닝 모델이 점점 더 확장되고 컴퓨팅 요구가 높아짐에 따라 전문가 조합은 더 큰 모델의 더 큰 용량과 더 작은 모델의 더 높은 효율성 사이의 균형을 해결할 수 있는 수단을 제공합니다. 이는 자연어 처리(NLP) 분야에서 가장 두드러지게 연구되었는데, Mistral의 Mixtral 8x7B 및 (일부 보고서에 따르면) OpenAI의 GPT-42와 같은 일부 주요 대규모 언어 모델(LLM)은 MoE 아키텍처를 채택했습니다.
최신 딥 러닝 모델은 여러 계층의 상호 연결된 노드(또는 '뉴런')로 구성된 인공 신경망으로 구축됩니다. 각 뉴런에는 활성화 함수(이전 레이어에서 받은 데이터에 대해 수학적 연산을 수행하여 출력이 다음 레이어로 전달되는 입력에 정보를 제공하는 기능)가 있습니다. 기존의 피드 포워드 신경망(FFN)은 최종 예측이 이루어지는 외부 레이어에 도달할 때까지 한 레이어의 뉴런에서 다음 레이어의 뉴런으로 입력 데이터를 점진적으로 전달하여 정보를 처리합니다. 일부 신경망 아키텍처는 트랜스포머 모델의 셀프 어텐션 메커니즘과 같이 입력 데이터에서 추가 패턴과 종속성을 캡처하는 추가 요소를 통합합니다.
서로 다른 계층과 뉴런 간의 연결은 학습 가능한 모델 매개변수, 즉 네트워크 출력의 특정 부분이 네트워크의 다른 부분에 미치는 영향을 증폭하거나 감소시키는 가변 가중치(및 편향)에 의해 매개됩니다. 딥 러닝 모델은 예측의 정확도를 높이는 방식으로 경사 하강법과 같은 최적화 알고리즘을 사용하여 이러한 매개변수를 조정함으로써 '학습'합니다.
매개변수가 많을수록 모델의 용량, 즉 정보와 패턴을 흡수하는 능력이 향상되지만, 모델을 학습하고 운영하는 데 필요한 계산 리소스도 증가합니다. 일반적인 딥 러닝 모델(여기서는 밀집 모델)에서는 모든 입력을 처리하기 위해 전체 네트워크가 실행됩니다. 이로 인해 모델 용량과 실용성 간에 절충점이 발생합니다.
기존의 밀집 모델과 달리 전문가 조합은 조건부 계산을 사용하여 희소성을 강화합니다. 모든 입력에 대해 전체 네트워크를 사용하는 대신, MoE 모델은 NLP 작업에서 단어 또는 단어 조각을 나타내는 데 사용되는 개별 토큰과 같이 주어진 입력을 처리하는 데 가장 효과적인 네트워크 부분(즉, 특정 전문가)을 결정하는 계산 비용이 저렴한 매핑 함수를 학습합니다.
이렇게 하면 (모든 매개변수가 주어진 시간에 반드시 사용되는 것은 아니므로) 모델의 학습을 진행하고 실행하는 데 필요한 계산 부담이 증가하지 않고도 (총 매개변수 수를 확장함으로써) 모델의 용량을 늘릴 수 있습니다.
MoE 모델은 큰 신경망 내에서 각각 자체 하위 네트워크인 여러 '전문가'를 지정하고 주어진 입력에 가장 적합한 특정 전문가만 활성화하도록 게이팅 네트워크(또는 라우터)의 학습을 진행하여 데이터를 처리합니다.
MoE 접근 방식의 주요 이점은 각 입력 토큰에 대해 전체 신경망을 활성화하는 대신 희소성을 적용함으로써 기본적으로 계산 비용을 일정하게 유지하면서 모델 용량을 늘릴 수 있다는 것입니다.
아키텍처 수준에서 이는 기존의 밀집 FFN(피드포워드 네트워크) 레이어를 희소 MoE 레이어(또는 블록)로 대체하여 구현됩니다. 신경망 용어에서 '블록'은 특정 기능을 수행하는 반복되는 구조적 요소를 나타냅니다. 희소 MoE 모델(SMoE)에서 이러한 전문가 블록은 단일 계층, 독립형 FFN 또는 그 자체로 중첩된 MoE일 수 있습니다.
예를 들어, Mistral의 Mixtral 8x7B 언어 모델에서 각 계층은 8개의 피드포워드 블록, 즉 전문가로 구성되며 각 블록에는 70억 개의 매개변수가 있습니다. 모든 토큰에 대해 각 계층에서 라우터 네트워크는 데이터를 처리할 8명의 전문가 중 2명을 선택합니다. 그런 다음 이 두 전문가의 출력을 결합하고 결과를 다음 계층으로 전달합니다. 지정된 레이어에서 라우터가 선택한 특정 전문가는 이전 또는 다음 레이어에서 선택한 전문가와 다를 수 있습니다.3
SMoE는 희소 MoE 계층으로만 구성될 수 있지만, 많은 MoE 모델 아키텍처는 희소 블록과 밀집 블록을 모두 수반합니다. 이는 Mixtral에서도 마찬가지인데, 모델의 셀프 어텐션 메커니즘을 담당하는 블록이 8명의 전문가 모두에게 공유됩니다. 실제로 이러한 이유로 인해 '8x7B'와 같은 명칭은 오해의 소지가 있습니다. 모델의 매개변수 중 상당수가 70억 개의 매개변수 전문가 하위 네트워크에서 공유되기 때문에, Mixtral은 단순 곱셈을 통해 가정할 수 있는 것처럼 560억 개가 아니라 총 약 470억 개의 매개변수를 가지고 있습니다.
이 전체 매개변수 수는 일반적으로 희소 매개변수 수라고 하며 일반적으로 모델 용량의 척도로 이해할 수 있습니다. 개별 토큰을 처리하는 데 실제로 사용되는 매개변수 수(일부 전문가 블록은 통과하고 다른 블록은 우회함)를 활성 매개변수 수라고 하며, 이는 모델의 계산 비용을 나타내는 척도로 이해할 수 있습니다. Mixtral에 입력되는 각 토큰은 467억 개의 매개변수에 액세스할 수 있지만 주어진 예제를 처리하는 데 사용되는 활성 매개변수는 129억 개에 불과합니다.
매개변수 수의 최적 활용을 이해하는 것은 MoE 모델의 장점을 이해하는 데 중요합니다. 예를 들어, Mixtral은 추론 시 총 매개변수가 3분의 1 적고 사용하는 활성 매개변수 수가 20% 미만임에도 불구하고 대부분의 벤치마크에서 Meta Llama 2의 700억 매개변수 변형보다 훨씬 더 빠른 속도로 성능을 발휘합니다.3
그러나 희소 MoE의 전체 매개변수 수가 계산 요구 사항과 완전히 무관하지는 않다는 점에 주목할 필요가 있습니다. 추론 중에 매개변수의 하위 집합만 사용함에도 불구하고 모델의 전체 매개변수가 대부분 메모리에 로드되므로 대부분의 경우 SMoE가 누리는 컴퓨팅 효율성이 RAM/VRAM 요구 사항에 적용되지 않습니다.
MoE의 개념(및 효율성)의 핵심은 희소 계층의 일부 전문가(및 매개변수)만 주어진 시간에 활성화되어 활성 계산 요구 사항을 줄인다는 것입니다.
조건부 계산은 모델 용량 증가로부터 계산 요구를 분리하기 위한 이론적 수단으로 오랫동안 제안되어 왔지만, 성공적인 실행을 위한 알고리즘 및 성능 문제는 Shazeer 외의 2017년 논문 '거대 규모의 신경망: 희소 게이트화 전문가 조합 레이어(Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer)'가 발표되기 전까지는 극복되지 못했습니다.4
밀집 레이어에 비해 희소 레이어의 장점은 패턴과 종속성이 종종 복잡하고 비선형적인 고차원 데이터를 처리할 때 가장 분명하게 드러납니다. 예를 들어, 긴 텍스트 시퀀스를 처리하기 위해 모델을 요구하는 NLP 작업에서 각 단어는 일반적으로 해당 시퀀스에 있는 다른 단어의 작은 하위 집합과만 관련됩니다. 따라서 SMoE는 LLM 분야에서 엄청난 잠재력을 가진 영역으로, 잘 보정된 MoE 모델은 성능 저하 없이 희소성의 이점을 누릴 수 있습니다. 희소 게이트화 MoE 모델은 컴퓨터 비전 작업에도 성공적으로 적용되었으며,5 6 이 분야에서 활발한 연구 영역으로 남아 있습니다.
이러한 희소성은 조건부 계산, 즉 특정 입력에 대한 응답으로 특정 매개변수의 동적 활성화를 통해 달성됩니다. 따라서 조건부 계산을 시행하는 게이팅 네트워크(또는 '라우터')의 효과적인 설계는 MoE 모델의 성공에 필수적입니다.
주어진 상황에서 활용되는 전문가를 선택하기 위해서는 여러 게이팅 메커니즘을 사용할 수 있습니다. 올바른 게이팅 기능은 모델 성능에 매우 중요한데, 라우팅 전략이 잘못되면 일부 전문가가 제대로 학습을 하지 못하거나 과도하게 전문화되어 전체 네트워크의 효율성이 떨어질 수 있기 때문입니다.
Shazeer의 중요한 논문에서 소개된 기존 MoE 설정의 일반적인 게이팅 메커니즘은 softmax 함수를 사용합니다. 각 전문가에 대해 예제별로 라우터는 해당 전문가의 확률 값(현재 매개변수에 대한 해당 전문가의 연결 가중치 기반)을 예측하여 주어진 입력에 대해 최상의 출력을 산출합니다. 라우터는 모든 전문가의 출력을 계산하는 대신 해당 예제에 대한 상위 k 전문가의 출력(예상 결과)만 계산합니다. 앞서 설명한 바와 같이 Mixtral은 이러한 고전적인 상위 k 라우팅 전략을 사용합니다. 즉, 상위 2명의 라우팅, 즉 k=2를 사용하여 총 8명의 전문가 중 가장 우수한 2명의 전문가를 선택합니다.
Fedus 외는 2021년 발표한 영향력 있는 논문 '스위치 트랜스포머: 단순하고 효율적인 희소성을 갖춘 1조 개 매개변수 모델로의 확장(Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity)'에서 상위 k 라우팅을 극단적으로 발전시켰습니다. Google의 T5 LLM을 사용하여 모델의 FFN 레이어를 128명의 전문가로 대체하고 '하드 라우팅'이라고도 하는 k=1을 구현했습니다. 모델을 최대 1조 개의 매개변수로 확장할 때에도 이 설정은 사전 학습 속도를 400% 향상했습니다.6
MoE는 많은 이점에도 불구하고 학습 과정을 상당히 복잡하게 만듭니다. '바닐라' 상위 k 라우팅 전략의 중요한 단점은 게이팅 네트워크가 소수의 전문가만 활성화하는 것으로 수렴될 가능성이 있다는 점입니다. 소수의 전문가가 초기에 불균형적으로 선발되면 그 전문가가 더 빨리 학습하고, 학습이 덜 된 다른 전문가보다 더 신뢰할 수 있는 예측을 내놓기 때문에 계속 더 많이 선발되는 자기 강화적 문제입니다. 이러한 불균형적인 부하로 인해 다른 전문가들은 결국 비유적으로나 문자 그대로나 불필요한 요소(dead weight)로 전락하게 됩니다.
이를 완화하기 위해 Shazeer 외는 노이즈가 많은 상위 k 게이팅을 도입했습니다. 일부 가우스 잡음이 각 전문가에 대해 예측된 확률 값에 추가되어 전문가가 더 균등하게 분산되도록 장려하는 무작위성을 도입했습니다. 또한 전문가 선택에 두 가지 훈련 가능한 정규화 용어를 추가했습니다. 로드 밸런싱 손실을 최소화하면 특정 전문가에 대한 과도한 의존에 불이익을 주고, 전문가 다양성 손실을 최소화하면 모든 전문가의 동등한 활용을 보상합니다.
Google의 2020년 논문 'GShard: 조건부 계산 및 자동 샤딩을 통한 거대 모델 확장(GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding)'에서는 로드 밸런싱을 위한 두 가지 추가 수단을 소개했습니다.
무작위 라우팅: 상위 2개 설정에서 '최상위' 전문가는 표준 소프트맥스 기능을 사용하여 선택되는 반면, 두 번째 전문가는 반무작위로 선택됩니다(어느 전문가든 선택될 확률은 연결의 가중치에 비례). 따라서 두 번째로 높은 순위의 전문가가 선택될 가능성이 가장 높지만, 더 이상 선택이 보장되지는 않습니다.
전문가 용량: 작성자는 한 명의 전문가가 처리할 수 있는 최대 토큰 수를 정의하는 임계값을 설정합니다. 선택한 상위 2명의 전문가 중 한 명이라도 용량이 초과되면 토큰은 '오버플로'로 간주되어 네트워크의 다음 계층으로 건너뛰게 됩니다.7
앞서 언급했듯이 희소 모델의 장점은 때때로 추가된 복잡성으로 인해 제한되기도 합니다. MoE 구현의 어려움은 미세 조정 프로세스에서 특히 두드러집니다. 희소 모델은 기존의 밀집 모델보다 과적합되기 쉬우며, 희소 MoE 계층과 밀집 FFN 계층이 모두 존재하기 때문에 획일적인 접근 방식이 복잡해집니다.
MoE를 미세 조정할 때 불안정성을 줄이기 위해 여러 가지 관찰 및 접근 방식이 제안되었습니다. Switch Transforlmers 논문의 저자들은 더 적은 수의 전문가가 더 성공적인 미세 조정을 누렸다는 것을 관찰했으며, 이는 사전 훈련에서 더 많은 수의 전문가가 얻는 이점이 다운스트림 작업에 대한 전문화를 방해함으로써 상쇄될 수 있음을 시사합니다.
2022년 논문 'ST-MoE: 안정적이고 전송 가능한 희소 전문가 모델 설계(ST-MoE: Designing Stable and Transferable Sparse Expert Models)'에서 Zoph 외는 5가지 접근 방식의 결과를 비교했습니다. 접근 방식은 모든 매개변수('All'), 비 MoE 매개변수('Non MoE'), MoE 매개변수(MoE), 셀프 어텐션 및 인코더-디코더 어텐션 매개변수('Attention'), 비 MoE FFN 매개변수('FFN')의 미세 조정으로 구분됩니다.
All과 Non-MoE 간에는 거의 차이가 발견되지 않았습니다.
Attention 매개변수만 미세 조정하면 성능이 약간 저하되었습니다.
모델 매개변수의 약 80%가 희소 MoE 레이어에 존재한다는 사실에도 불구하고, MoE 매개변수만 업데이트하면 모델 성능이 대폭 저하되었습니다.
FFN은 All 기준치에 비해 성능을 개선한 유일한 접근 방식이었습니다.
저자들은 전문가 계층이 모델 전체 계층의 1/4에 불과하고 토큰은 계층당 최대 2명의 전문가만 볼 수 있기 때문에 MoE 매개변수를 분리하면 가중치 업데이트가 덜 포괄적이어서 과적합과 학습 손실이 커진다는 가설을 세웠습니다.8
2023년 7월에 발표된 보고서 '전문가 조합과 명령 조정의 결합(Mixture-of-Experts Meets Instruction Tuning)'에서는 LLM을 기준치로 사용하는 Google의 Flan 프로토콜로 T5 명령 조정된 버전인 Google의 T5 및 Flan-T5에 해당하는 버전을 사용하여 명령 조정이 MoE 모델에 미치는 영향을 연구했습니다.이 실험에서는 밀집 T5 모델 미세 조정, 밀집 Flan-T5 모델 미세 조정, MoE 모델 미세 조정, 명령 조정 Flan-MoE 모델 미세 조정 등 네 가지 설정을 비교했습니다.
예상대로 밀집 T5 버전이 미세 조정 후 MoE를 능가했습니다. 그러나 반대로 미세 조정된 Flan-MoE 모델은 미세 조정된 Flan-T5 모델을 크게 능가했습니다. 또한, MoE와 비교한 Flan-MoE의 개선은 원래의 T5 대비 Flan-T5의 개선보다 훨씬 두드러졌습니다.9
고무적이게도, 이는 표준 미세 조정의 어려움에도 불구하고 MoE 모델이 실제로 밀집 모델보다 명령 조정에서 더 많은 이점을 얻을 수 있음을 시사합니다. 이러한 발견은 IBM watsonx.ai에서 파운데이션 모델로 제공되는 Mixtral의 명령 조정 변형인 Mixtral 8x7B Instruct의 호평 받은 릴리스를 통해 실현되었습니다.
비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나서 신뢰할 수 있는 AI 모델 제품군, IBM Granite를 만나보세요. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.
사용 사례에 가장 적합한 AI 파운데이션 모델을 선택하는 방법을 알아보세요.
IBM Developer 기사, 블로그 및 튜토리얼을 통해 LLM에 대한 지식을 심화하세요.
최신 AI 기술과 인프라를 사용하여 팀이 지속적으로 모델 성능을 개선하고 경쟁에서 앞서 나갈 수 있도록 지원하는 방법을 알아보세요.
모든 산업에 신뢰, 성능, 비용 효율적 이점을 제공하는 엔터프라이즈급 파운데이션 모델의 가치를 살펴보세요.
생성형 AI, 머신 러닝, 파운데이션 모델을 비즈니스 운영에 통합하여 성과를 개선하는 방법을 알아보세요.
IBM이 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시하여 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아본 결과를 살펴보세요.
참고: 모든 링크는 ibm.com 외부 링크
1 '로컬 전문가의 적응형 조합(Adaptive Mixtures of Local Experts)', 토론토 대학교, 1991년 3월
2 'GPT-4 아키텍처에 대한 AI 전문가 추측(AI Expert Speculates on GPT-4 Architecture)', Weights and Biases, 2023년 6월 21일
3 'Mixtral의 전문가 조합(Mixtral of experts)', Mistral AI, 2023년 12월 11일
4 '거대 규모의 신경망: 희소 게이트화 전문가 조합 레이어(Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer)', arXiv, 2017년 1월 23일
5 '희소 전문가 조합을 통한 비전 확장(Scaling Vision with Sparse Mixture of Experts)', arXiv, 2021년 6월 10일, 'MoCaE: 보정된 전문가 조합으로 오브젝트 감지 대폭 개선(MoCaE: Mixture of Calibrated Experts Significantly Improves Object Detection)', Papers with Code, 2023년 9월 26일
6 '스위치 트랜스포머: 단순하고 효율적인 희소성을 갖춘 1조 개 매개변수 모델로의 확장(Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity)', arXiv, 2021년 1월 11일(2022년 6월 16일 업데이트)
7 'GShard: 조건부 계산 및 자동 샤딩을 통한 거대 모델 확장(GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding)', arXiv, 2020년 6월 30일
8 'ST-MoE: 안정적이고 전송 가능한 희소 전문가 모델 설계(ST-MoE: Designing Stable and Transferable Sparse Expert Models)', arXiv, 2022년 2월 17일
9 '전문가 조합과 명령 조정의 결합: 대규모 언어 모델을 위한 성공적인 조합(Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models)', arXiv, 2023년 7월 5일 업데이트