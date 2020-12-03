언어 모델은 문장에 단어가 등장하거나 문장 자체가 존재할 확률을 추정합니다. 따라서 이 모델은 많은 NLP 애플리케이션에서 유용한 구성 요소입니다. 하지만 특정 작업과 도메인에 유용하게 사용하려면 부담스러운 양의 학습 데이터가 필요한 경우가 많습니다.

대규모 딥 러닝 언어 모델은 이러한 널리 퍼져 있는 학습 데이터 문제를 해결하기 위해 설계되었습니다. 이 모델은 주석이 추가되지 않은 방대한 양의 데이터를 사용하여 사전 학습되어 범용 딥 러닝 모델을 제공합니다. 사전 학습된 모델을 미세 조정함으로써, 다운스트림 사용자는 더 적은 주석이 달린 학습 데이터 세트를 사용하여 작업별 모델을 만들 수 있습니다(이 기술을 전이 학습이라고 함). 이제 더 작은 데이터 세트로 최첨단 결과를 얻을 수 있어, 이러한 모델은 NLP의 획기적인 발전을 보여줍니다.

최근까지 NLP 언어 모델의 최첨단 기술은 RNN 모델이었습니다. 이 모델은 추상적 요약, 기계 번역 및 일반 자연어 생성과 같은 순차적 작업에 유용합니다. RNN 모델은 한 번에 한 단어씩 컨텍스트에 나타나는 순서대로 단어를 순차적으로 처리합니다. 결과적으로 이러한 모델은 병렬 처리가 어렵고 긴 텍스트 입력에서 문맥 관계를 유지하는 데 취약합니다. 이전 게시물에서 논의한 것처럼 NLP에서는 컨텍스트가 핵심입니다.

2017년에 도입된 모델인 Transformer는 이러한 문제를 우회합니다. 트랜스포머(예: BERT 및 GPT)는 문장의 다음 단어를 예측하는 데 가장 유용한 단어에 '주의를 기울이는' 어텐션 메커니즘을 사용합니다. 이러한 어텐션 메커니즘을 통해 트랜스포머는 입력된 단어 시퀀스를 한 번에 처리하고, 단어들이 텍스트 내에서 얼마나 떨어져 있든 상관없이 단어 간의 관련 의존성을 매핑합니다. 결과적으로 트랜스포머는 병렬화가 가능하고 훨씬 더 큰 모델을 더 빠른 속도로 학습할 수 있으며 컨텍스트 단서를 사용하여 텍스트에 난해함을 주는 많은 모호성 문제를 해결할 수 있습니다.

개별 트랜스포머에는 고유한 장점도 있습니다. 올해까지 BERT는 가장 인기 있는 딥 러닝 NLP 모델로, 많은 NLP 작업에서 최첨단 결과를 얻었습니다.

25억 개의 단어로 학습된 BERT의 주요 장점은 양방향 학습을 사용하여 왼쪽에서 오른쪽 컨텍스트와 오른쪽에서 왼쪽 컨텍스트 모두에서 단어의 컨텍스트를 동시에 얻을 수 있다는 점입니다. BERT의 양방향 학습 방식은 마스크된 단어(Masked LM) 예측에 최적화되어 있으며 적은 수의 사전 학습 단계를 거친 후 왼쪽에서 오른쪽 학습보다 뛰어난 성능을 발휘합니다. 모델 학습 프로세스 중에 다음 문장 예측(NSP) 학습을 통해 문장 B가 문장 A보다 앞서거나 뒤에 오는 경우 모델이 문장이 서로 어떻게 관련되어 있는지 이해할 수 있어, 결과적으로 더 많은 컨텍스트를 도출할 수 있습니다. 예를 들어, '노를 드는 건 강둑(bank)에 도착할 때' 및 '은행(bank)에서 새 직불카드를 보내고 있습니다'와 같은 문장에서 bank의 의미론적 의미를 이해할 수 있습니다. 이를 이해하기 위해 왼쪽에서 오른쪽으로 진행하며 만나는 강물과 오른쪽에서 왼쪽으로 진행하며 만나는 직불카드 단서를 사용합니다.

BERT 모델과 달리 GPT 모델은 단방향입니다. GPT 모델의 가장 큰 장점은 사전 학습된 데이터의 양이 엄청나게 많다는 점입니다. 3세대 GPT 모델인 GPT-3은 이전 모델보다 약 10배 큰 1,750억 개의 매개변수로 학습되었습니다. 이 진정한 대규모의 사전 학습 모델은 사용자가 매우 적은 데이터로 NLP 작업을 미세 조정하여 새로운 작업을 수행할 수 있음을 의미합니다. 일반적으로 트랜스포머는 모델 학습에 필요한 데이터의 양을 줄였지만, GPT-3은 모델 학습에 필요한 데이터가 훨씬 적다는 점에서 BERT에 비해 뚜렷한 이점이 있습니다.

예를 들어, 10개밖에 안 되는 문장으로 인간이 AI를 두려워해서는 안 되는 이유에 대한 에세이를 작성하도록 학습된 모델이 있습니다. (하지만 이러한 자유 형식 에세이의 다양한 품질은 오늘날 기술의 한계를 보여줍니다.)