마스킹된 언어 모델링은 텍스트에서 누락된 단어를 예측하도록 모델을 학습시킵니다. 일반적으로 다운스트림 NLP 작업을 위한 모델을 사전 학습시킵니다.
마스킹된 언어 모델(MLM)은 자연어 처리(NLP) 작업에서 텍스트의 누락된 단어를 예측하는 데 사용되는 대규모 언어 모델(LLM)의 한 유형입니다. 확장해 말하자면, 마스킹된 언어 모델링은 텍스트 내에서 마스킹된 단어를 채우도록 모델을 학습시킴으로써, 문장을 가장 자연스럽고 일관되게 완성할 가능성이 높은 단어를 예측하도록 하는 방식으로, 트랜스포머 모델—특히 BERT(Bidirectional Encoder Representations from Transformers)와 그 변형인 RoBERTa(Robustly Optimized BERT Pretraining Approach)—을 NLP 작업에 맞게 학습시키는 방법 중 하나입니다.1
마스킹된 언어 모델링은 단어 간의 문맥 관계를 이해하도록 모델을 훈련시켜 감정 분석에서 텍스트 생성에 이르기까지 다양한 작업을 지원합니다. 실제로 연구 개발자들은 텍스트 분류나 기계 번역과 같은 다운스트림 작업을 위해 사전 학습된 모델을 만들고 감독을 거쳐 미세 조정하는 데 마스킹된 언어 모델링을 사용하는 경우가 많습니다. 따라서 마스킹된 언어 모델은 현재 많은 최신 언어 모델링 알고리즘의 기반이 됩니다. 마스킹된 언어 모델링은 언어 모델을 사전 학습하는 방법이지만, 온라인 자료에서는 이를 전이 학습 방법이라고 부르기도 합니다. 일부 연구 그룹은 마스킹된 언어 모델링을 그 자체로 최종 과제로 구현하기 시작했기 때문에 이는 정당화되지 않을 수 있습니다.
HuggingFace 트랜스포머 및 Tensorflow 텍스트 라이브러리에는 Python에서 마스킹된 언어 모델을 학습하고 테스트하도록 설계된 함수가 포함되어 있습니다.
마스킹된 언어 모델을 특성화하는 일반적인 절차는 매우 간단합니다. 비지도 학습의 한 형태인 마킹된 언어 모델링은 주석이 없는 대규모 텍스트 데이터 세트로 시작됩니다. 알고리즘은 이 입력 텍스트에서 임의의 단어 샘플을 마스킹된 토큰으로 대체하며, 이는 토큰 [MASK] 또는 입력 텍스트 어휘의 다른 단어 토큰으로 구성될 수 있습니다. 그런 다음 각 마스킹된 토큰에 대해 모델은 원래 입력 텍스트에 등장했을 가능성이 가장 높은 단어 토큰을 예측합니다.2
예를 들어, 셰익스피어의 Othello에 나오는 다음 문장에서는 두 단어가 마스킹된 토큰으로 대체되고 다른 단어는 완전히 다른 단어 토큰으로 대체되었습니다.
그런 다음 모델은 마스킹된 원래 입력 토큰을 예측하기 위해 양방향 인코더를 학습합니다. 이것은 어떻게 이런 일을 할까요? 물론, 가면을 쓴 언어 모델의 내부 구조를 밝히려면 고급 대수학과 머신 러닝에 대한 기초가 필요합니다. 그럼에도 불구하고 대략적인 개요는 가능합니다.
모델은 입력 텍스트 데이터의 모든 토큰에 대해 임베딩과 유사한 단어 임베딩을 생성합니다. 이 모델은 이러한 임베딩과 위치 인코딩을 결합하여 트랜스포머의 입력을 생성합니다. 간단히 말해서 위치 인코딩은 고유한 벡터 값을 사용하여 시퀀스에서 주어진 토큰의 위치를 나타냅니다. 모델은 위치 인코딩(또는 위치 임베딩)을 통해 다른 단어와의 위치 관계를 통하여 단어에 대한 의미론적 정보를 캡처할 수 있습니다.
트랜스포머 모델은 이러한 단어 및 위치 임베딩을 사용하여 마스킹된 각 토큰에 대한 입력 어휘에 대한 확률 분포를 생성합니다. 각 마스킹된 토큰에 대해 예측 확률이 가장 높은 단어가 각 토큰의 실제 값에 대한 모델의 각 예측입니다.3
마스킹된 언어 모델링은 BERT 트랜스포머 모델 사전 학습의 특징이며, 실제로 이 두 가지가 머신 러닝 커뮤니티에 함께 소개된 바 있습니다. BERT 이전에는 언어 모델이 단방향적이었습니다. 즉, 주어진 단어 앞에 오는 텍스트만 고려하여 언어 표현을 학습했다는 의미입니다. 그러나 마스킹된 언어 모델링 작업에 대한 BERT의 접근 방식은 이전 텍스트와 이후 텍스트를 모두 고려합니다.4 단방향 접근 방식과 양방향 접근 방식의 주요 차이점은 트랜스포머의 셀프 어텐션 레이어가 아웃풋 값을 디코딩하는 방식에 따라 달라집니다.
시퀀스의 다음 단어(우리의 경우에는 누락된 단어)를 예측할 때 단방향 모델은 누락값 앞에 있는 단어만 고려합니다. 이러한 방식으로 작동하는 트랜스포머 디코더를 인과 관계 또는 역방향 디코더라고도 합니다. 입력 시퀀스를 처리할 때 디코더는 해당 입력 토큰을 포함한 입력만 고려합니다. 디코더는 고려 중인 입력 토큰 이후에는 토큰 입력에 액세스할 수 없습니다. 반면, BERT 모델에 채택된 양방향 인코더는 마스킹된 값 앞뒤에 있는 모든 입력 토큰을 사용하여 예측을 생성합니다.5
예를 들어, 앞서 언급한 Othello의 다음과 같은 명언으로 돌아가 보겠습니다. "하지만 아내가 실수하는 것은 남편의 잘못이라고 생각합니다." 어떤 이유에서인지 이 모든 텍스트가 '아내'라는 단어만 빼고 있다고 상상해 보세요. "하지만 ______가 실수하는 것은 남편의 잘못이라고 생각합니다." 우리는 이 간극을 메우는 것이 무엇인지 파악하고자 합니다. 이 그림은 두 디코더가 예제 문장을 처리하는 방법의 차이를 보여줍니다.
이 그림에서 y는 마스킹된 토큰의 예측 아웃풋을 나타냅니다. 단방향 변환기는 마스킹된 토큰 앞에 있는 입력값만 사용하여 마스킹된 토큰의 값을 예측합니다. 그러나 양방향 트랜스포머는 마스킹된 토큰의 값을 예측하기 위해 모든 입력 값(마스크 앞뒤의 값 모두)에서 위치 임베딩을 사용합니다.
개발자와 연구자는 Named Entity Recognition, 질문 응답, 텍스트 분류와 같은 다양한 NLP 작업을 수행하는 데 마스킹된 언어 모델을 사용합니다. NLP의 많은 분야와 마찬가지로 마스킹된 언어 모델링 연구는 주로 라틴계 언어, 특히 영어에 집중되어 왔습니다. 보다 최근에는 일본어와 러시아어와 같은 비라틴계 언어를 대상으로 마스킹된 언어 모델링 및 다운스트림 작업을 위한 데이터세트를 개발하고 평가하는 실험이 발표되었습니다.6 또한 한 연구 그룹은 다국어 마스킹된 언어 모델 사전 학습을 위한 약지도 방식의 방법을 제안했습니다. 구체적으로는 다국어 데이터세트로 사전 학습을 수행할 때 교차 언어 순전파를 구현하기 위해 특수 마스크 토큰을 도입했습니다. 이 방법은 다국어 마스킹된 언어 모델을 활용한 교차 언어 분류에서 뚜렷한 성능 향상을 보여줍니다.7
앞서 언급했듯이 연구자들은 다운스트림 NLP 작업에서 모델의 성능을 개선하기 위한 수단으로 마스킹된 언어 모델링을 사용하는 경우가 많습니다. 이러한 작업에는 다음이 포함됩니다.
Named entity recognition 이 작업에서는 모델과 신경망을 사용하여 텍스트에서 사람 이름, 도시 이름 등과 같은 사전 정의된 개체 카테고리를 식별합니다. 많은 머신 러닝 목표와 마찬가지로 적절한 데이터의 부족은 Named Entity Recognition에서도 장애물로 작용했습니다. 이 문제를 해결하기 위해 연구원들은 명명된 개체 인식을 위한 데이터 증강의 한 형태로서 마스킹된 언어 모델링을 탐구하여 눈에 띄는 성공을 거두었습니다.8
감정 분석. 감정 분석은 데이터를 긍정, 부정 또는 중립으로 분석하고 분류합니다. 대규모 온라인 고객 후기 모음을 분류하는 데 자주 사용됩니다. Named Entity Recognition과 유사하게 연구자들은 감정 분석을 위한 데이터 증강 기법으로 마스킹된 언어 모델링을 탐구해 왔습니다.9 더불어, 마스킹된 언어 모델링은 감정 분석에서 도메인 적응에 대한 가능성을 보여줍니다. 특히 연구 결과에 따르면 감정 분류기 작업에서 가중치가 큰 단어 예측에 집중하는 데 도움이 된다고 합니다.10
watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
1 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3.
2 Lewis Tunstall, Leandro von Werra, and Thomas Wolf, Natural Language Processing with Transformers, Revised Edition, O’Reilly Media, 2022.
3 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3. Denis Rothman, Transformers for Natural Language Processing and Computer Vision, 3rd edition, Packt Publishing, 2024.
4 Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 2019, https://aclanthology.org/N19-1423.
5 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3.
6 Masahiro Kaneko, Aizhan Imankulova, Danushka Bollegala, and Naoaki Okazaki, "Gender Bias in Masked Language Models for Multiple Languages," Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2022, https://aclanthology.org/2022.naacl-main.197. Sheng Liang, Philipp Dufter, and Hinrich Schütze, "Monolingual and Multilingual Reduction of Gender Bias in Contextualized Representations," Proceedings of the 28th International Conference on Computational Linguistics, 2020, https://aclanthology.org/2020.coling-main.446.
7 Xi Ai and Bin Fang, "On-the-fly Cross-lingual Masking for Multilingual Pre-training," Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics, 2023, https://aclanthology.org/2023.acl-long.49.
8 Ran Zhou, Xin Li, Ruidan He, Lidong Bing, Erik Cambria, Luo Si, and Chunyan Miao, "MELM: Data Augmentation with Masked Entity Language Modeling for Low-Resource NER," Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, 2022, https://aclanthology.org/2022.acl-long.160.
9 Larisa Kolesnichenko, Erik Velldal, and Lilja Øvrelid, "Word Substitution with Masked Language Models as Data Augmentation for Sentiment Analysis,"Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023), 2023, https://aclanthology.org/2023.resourceful-1.6.
10 Nikolay Arefyev, Dmitrii Kharchev, and Artem Shelmanov, "NB-MLM: Efficient Domain Adaptation of Masked Language Models for Sentiment Analysis," Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 2021, https://aclanthology.org/2021.emnlp-main.717.