주제 모델링이란 무엇인가요?

현대적인 사무실에서 일하면서 미소 짓는 여성 사업가와 남성 사업가

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

주제 모델은 단어 그룹을 통해 텍스트 데이터를 요약하는 비지도 NLP 방법으로 텍스트 분류와 정보 검색 작업을 보조합니다.

자연어 처리(NLP)에서 주제 모델링은 대규모 텍스트 집합에 비지도 학습을 적용하여 컬렉션의 전체 기본 주제 집합을 나타내는 문서에서 파생된 요약 용어 집합을 생성하는 텍스트 마이닝 기술입니다.1 주제 모델은 텍스트 데이터 세트에서 일반적인 키워드 또는 구문을 구체적으로 식별하고 해당 단어를 여러 주제로 그룹화합니다. 따라서 토픽 모델은 문서 집합을 특징짓는 잠재적인 토픽 또는 주제를 발견하는 것을 목표로 합니다. 이러한 방식으로 주제 모델은 큰 텍스트 말뭉치를 주제별로 주석을 추가하는 데 사용되는 텍스트 분석의 머신 러닝 기반 형식입니다.2

사용자는 scikit-learn의 자연어 툴킷(NLTK) 및 Python을 사용하여 주제 모델을 쉽게 생성할 수 있습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

주제 모델링 작동 방식

비지도 학습 방법으로서 주제 모델에는 감독된 텍스트 분류 작업에서처럼 사용자가 생성한 교육 데이터 레이블이 필요하지 않습니다. 오히려, 주제 모델은 주제라고 하는 단어 그룹의 형태로 주제 정보가 포함된 대규모 문서 컬렉션을 생성하고 더 나아가 주석을 추가합니다.3 하지만 토픽 모델은 어떻게 이러한 단어 그룹을 생성할까요?

주제 모델링은 기본적으로 텍스트 모음의 각 개별 문서를 Bag of words 모델로 취급합니다. 즉, 주제 모델링 알고리즘은 단어 순서와 컨텍스트는 무시하고 각 개별 문서 내에서 단어가 얼마나 자주 발생하는지, 얼마나 자주 동시에 발생하는지에만 집중합니다.4

대부분의 토픽 모델링 접근 방식은 문서 용어 매트릭스를 생성하는 것으로 시작합니다. 이 행렬은 문서를 행으로, 개별 단어를 열로 또는 그 반대로 텍스트 데이터 세트를 모델링합니다. 행렬에서 값은 각 문서에서 주어진 단어가 나타나는 빈도를 나타냅니다. 그런 다음 이 행렬을 사용하여 벡터 공간을 생성할 수 있으며, 여기서 n 단어는 n 차원과 같습니다. 주어진 행의 값은 벡터 공간에서 해당 문서의 위치를 나타냅니다. 따라서 유사한 그룹과 유사한 빈도로 단어를 사용하는 문서는 벡터 공간에서 서로 더 가깝게 상주하게 됩니다. 여기에서 토픽 모델은 벡터 공간에서의 근접성을 유사한 개념 콘텐츠 또는 토픽을 공유하는 문서로 처리합니다.5

그러나 토픽 모델은 Bag of Words의 동의어가 아닙니다. 후자는 단순히 문서 모음 내에서 단어의 존재 여부만 계산하는 반면, 토픽 모델은 일반적으로 함께 발생하는 단어를 토픽 세트로 그룹화합니다. 각 주제는 단어의 어휘 전체에 걸친 확률 분포로 모델화됩니다. 그런 다음 컬렉션의 각 문서가 해당 주제와 관련하여 표시됩니다.6 이런 식으로, 주제 모델은 본질적으로 문제의 문서를 생성한 담화(즉, 주제)를 리버스 엔지니어링하려고 시도합니다.7

Mixture of Experts | 8월 28일, 에피소드 70

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

주제 모델링 알고리즘의 유형

주제 모델링 알고리즘은 한 가지 작업에 대한 대안적인 방법이라기보다는 Bag of Words 모델에서 처음에 발견된 문제를 해결하기 위한 순차적 개발입니다. 단어 빈도-역 문서 빈도(TF-IDF)는 텍스트 집합의 모든 문서에서 각 단어가 널리 퍼져 있는 정도를 고려하여 일반적이지만 의미상 관련이 없는 단어로 인해 발생하는 문제를 해결하기 위한 Bag of words의 수정입니다. 잠재 의미적 분석은 TF-IDF를 기반으로 하며, 주요 목적은 다의어와 동의어를 해결하는 것입니다. 이는 확률 잠재 의미 분석을 낳았고, 이로부터 잠재 디리클레 할당(latent Dirichlet allocation)이 발전되었습니다. 잠재 디리클레 할당의 두드러진 특징은 컬렉션의 모든 문서가 비율은 다르지만 동일한 주제 집합을 공유한다는 것입니다.8

잠재 의미론적 분석

잠재 시맨틱 분석(LSA)(잠재 시맨틱 인덱싱이라고도 함)은 문서 용어 행렬의 희소성을 줄이기 위해 특이값 분해라는 기법을 사용합니다. 이렇게 하면 다의학과 동의어, 즉 여러 의미를 가진 단일 단어 또는 단일 공유 의미를 가진 여러 단어로 인한 문제가 완화됩니다.

데이터 희소성은 기본적으로 주어진 데이터 세트에 있는 데이터 값의 대다수가 null(즉, 비어 있음)인 경우를 나타냅니다. 이는 각 개별 단어가 별도의 행 및 벡터 공간 차원인 문서 용어 행렬을 구성할 때 정기적으로 발생하며, 문서에는 다른 문서에서 더 자주 사용할 수 있는 대부분의 단어가 정기적으로 부족하기 때문입니다. 물론 불용어 제거나 형태소 분석표제어 추출과 같은 텍스트 데이터 전처리 기술은 행렬의 크기를 줄이는 데 도움이 될 수 있습니다. LSA는 희소성과 차원을 줄이기 위한 보다 표적화된 접근 방식을 제공합니다.

LSA는 각 단어가 각 문서에 나타나는 횟수를 표시하는 문서 용어 행렬로 시작합니다. 여기에서 LSA는 문서-문서 매트릭스와 용어-용어 매트릭스를 생성합니다. 문서-용어 행렬의 차원이 d 문서와 w 단어의 곱으로 정의되면, 문서-문서 행렬은 d 곱하기 d이고 용어-용어 행렬은 w 곱하기 w입니다. 문서-문서 행렬의 각 값은 각 문서에 공통된 단어의 수를 나타냅니다. term-term 행렬의 각 값은 두 용어가 동시에 발생하는 문서의 수를 나타냅니다.9

LSA 알고리즘은 이 두 개의 추가 행렬을 사용하여 초기 문서-용어 행렬에 대해 특이값 분해를 수행하여 고유 벡터의 새로운 특수 행렬을 생성합니다. 이 특수 행렬은 원래 문서-용어 관계를 선형 독립 요소로 세분화합니다. 이러한 요소 중 상당수는 0에 가깝기 때문에 0으로 처리되어 행렬에서 제외됩니다. 이렇게 하면 모델의 크기가 줄어듭니다.10

특이값 분해를 통해 모델 차원이 줄어들면 LSA 알고리즘은 코사인 유사성을 사용하여 더 낮은 차원 공간의 문서를 비교합니다. 코사인 유사성은 벡터 공간에서 두 벡터 사이의 각도 측정을 의미합니다. -1과 1 사이의 값일 수 있습니다. 코사인 점수가 높을수록 두 문서가 더 유사한 것으로 간주됩니다. 코사인 유사성은 다음 공식으로 표시되며, 여기서 xy는 벡터 공간에서 두 개의 항목 벡터를 나타냅니다.11

잠재 디리클레 할당

잠재 디리클레 할당(LDA)은 선형 판별 분석과 혼동하지 말아야 하는 확률적 주제 모델링 알고리즘입니다. 즉, 확률 분포에 따라 서로 다른 주제 중에서 단어와 문서를 분류하여 주제를 생성합니다. LDA 알고리즘은 문서-용어 행렬을 사용하여 단어 빈도와 동시 발생에 따른 주제 분포를 생성합니다(각각에 대한 확률이 있는 키워드 목록). 이는 함께 나타나는 단어들이 비슷한 주제에 속할 가능성이 있다고 가정합니다. 그런 다음 알고리즘은 주어진 문서에 나타나는 단어 클러스터를 기반으로 문서 주제 분포를 할당합니다.12

예를 들어, 다음과 같은 부분적인 아웃풋이 있는 뉴스 기사 모음에 대한 LDA 모델을 생성한다고 가정해 보겠습니다.

우리에게는 이민(주제 1)과 천문학(주제 2)으로 설명할 수 있는 두 개의 주제가 있습니다. 각 단어에 붙은 점수는 해당 키워드가 주어진 주제에 나타날 확률입니다. 각 문서에 부여되는 확률은, 해당 문서의 각 주제에 대한 단어 분포와 동시 발생을 고려할 때 해당 문서가 여러 주제의 조합에 속할 확률입니다. 예를 들어 표의 첫 번째 행은 주제 1에 40% 확률로 border를 표시하고, 주제 2에서는 60% 확률로 space를 표시합니다. 이 백분율은 전체 말뭉치에서 해당 주제에 해당 용어가 나타날 확률을 나타냅니다. 첫 번째 문서 행에는 문서 1: 주제 1: .95, 주제 2: .05라고 명시되어 있습니다. 즉, 문서 1의 단어 발생을 기반으로 할 때 모델은 문서 1이 주제 1에서 95%, 주제 2에서 5% 도출되었다고 예측합니다. 다시 말해, 이 가상의 LDA 모델이 모델 생성에 사용된 주제와 그 비율을 이렇게 가정하는 것입니다.

물론, 특히 다의어는 이러한 이산형 범주화에 문제를 일으킵니다. 예를 들어 영어 단어 alien 은 인간 이민자와 외계 생물을 모두 지칭할 수 있습니다. 알고리즘이 문서에서 외계어를 발견하면 해당 단어(그리고 더 나아가 문서)가 어떤 주제에 속하는지 어떻게 판단할까요?

LDA 알고리즘은 단어에 주제를 할당할 때 깁스 샘플링이라는 것을 사용합니다. 깁스 샘플링 공식은 다음과 같습니다.

이 방정식의 정확한 연산과 초매개변수를 이해하려면 통계와 마르코프 체인 몬테카를로 기법(강화 학습에 주로 채택)에 대한 기초 지식이 필요합니다. 그렇지만 방정식의 주요 구성 요소는 다음과 같이 정리할 수 있습니다.

  • 첫 번째 비율은 문서 d에서 주제 t가 나올 확률을 나타냅니다. 알고리즘은 문서 d에서 주제 t에 속하는 단어 수에 따라 이 확률을 계산합니다. 이 계산을 통해 근본적으로 알아내고자 하는 것은, 문서 d에 주제 t가 얼마나 널리 퍼져 있는가입니다.
  • 두 번째 비율은 단어 w가 주제 t에 속할 확률을 나타냅니다. 알고리즘은 t에 있는 모든 단어 토큰에 대해, t에서의 w 발생을 열거하여 이 확률을 계산합니다. 이 계산을 통해 알아내고자 하는 것은, 말뭉치의 나머지 부분에서 주제 t에 대해 단어 w가 나타나는 빈도입니다.

깁스 샘플링은 반복적인 프로세스입니다. 즉, 단어를 한 번만 샘플링하고, 주제를 지정하고, 옆으로 치워두는 것이 아닙니다. 깁스 샘플링은 여러 번의 반복을 통해 각 단어를 처리해서, 다른 단어를 고려하여 주제-단어 확률을 업데이트합니다.13

최근 연구

문학 비평14부터 생물정보학15, 소셜 미디어에서의 증오심 표현 탐지에 이르기까지 주제 모델에는 많은 사용 사례가 있습니다.16 많은 NLP 과제와 마찬가지로 지난 수년간 진행된 주제 모델링 연구의 상당 부분이 영어와 기타 라틴어 스크립트 언어에 관한 것이었습니다. 그러나 최근에는 아랍어 및 기타 비라틴어 언어에 대한 주제 모델링 접근 방식을 연구하는 연구가 진행되고 있습니다.17

현재 진행 중인 연구에서도 주제 모델에 대한 평가 메트릭을 다루고 있습니다. 실제로 주제 모델을 평가하는 데 사용되는 메트릭은 없습니다. 과거의 평가 메트릭은 정성적 접근 방식과 정량적 접근 방식을 채택했습니다. 전자의 경우 주제 모드 핵심 용어의 해석 가능성을 평가하려면 상당한 도메인별 지식이 필요합니다.18 정량적 측정은 모델 내 주제의 가능성과 일관성을 측정하는 것을 목표로 하는 로그 가능성과 응집성 점수로 구성됩니다.19 그러나 많은 연구에 따르면 이러한 정량적 메트릭은 신뢰할 수 없을 수 있습니다.20

주제 모델 평가와 관련된 문제를 해결하기 위한 시도로, 한 연구에서는 특정 연구 목표를 위한 LDA 모델을 설계하고 평가하는 수단으로 인공 지능 응용 프로그램, 특히 대규모 언어 모델(LLM)을 조사합니다. 이 연구는 LLM이 주제 모델링의 오랜 문제, 즉 적절한 수의 주제를 결정하고 평가하는 방법을 해결하는 데 도움이 될 수 있다고 주장합니다.21 다른 연구에서도 주제 모델링의 평가 격차를 해결하기 위한 수단으로 LLM 응용 프로그램에 의존합니다.22

관련 솔루션
IBM watsonx Orchestrate

IBM watsonx Orchestrate를 사용하여 확장 가능한 AI 어시스턴트 및 에이전트를 쉽게 설계하고, 반복적인 작업을 자동화하고, 복잡한 프로세스를 간소화합니다.

watsonx Orchestrate 알아보기
자연어 처리 툴 및 API

강력하고 유연한 라이브러리, 서비스 및 애플리케이션 포트폴리오로 인공 지능의 비즈니스 가치를 가속화합니다.

NLP 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

IBM watsonx Orchestrate를 통해 확장 가능한 AI 어시스턴트 및 에이전트를 쉽게 설계하고 반복적인 작업을 자동화하며 복잡한 프로세스를 간소화합니다.

watsonx Orchestrate 알아보기 NLP 솔루션 살펴보기
각주

Daniel Jurafsky 및 James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023년, https://web.stanford.edu/~jurafsky/slp3/

2 Jay Alammar 및 Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024년.

3 David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012년, pp. 77-84.

4 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014년.

5 Cole Howard, Hobson Lane, Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019년. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020.

6 Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022년.

7 Practical Natural Language Processing, O’Reilly. David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012년, pp. 77-84.

8 Cole Howard, Hobson Lane, Hannes Hapke, Natural Language Processing in Action, Manning Publications, Deerwester, “Indexing by Latent Semantic Analysis,” David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012년, pp. 77-84.

9 Hana Nelson, Essential Math for AI, O’Reilly, 2023년. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 

10 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990년, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 

11 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015년. Hana Nelson, Essential Math for AI, O’Reilly, 2023년.

12 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020년. David Blei, Andrew Ng, Michael Jordan, “Lantent Dirichlet Allocation,” Journal of Machine Learning Research, Vol. 3, 2003년, pp. 993-1022.

13 Zhiyuan Chen 및 Bing Liu, “Topic Models for NLP Applications,” Encyclopedia of Machine Learning and Data Science, Springer, 2020년.

14 Derek Greene, James O'Sullivan, Daragh O'Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024년, https://academic.oup.com/dsh/article/39/1/142/7515230?login=false

15 Yichen Zhang, Mohammadali (Sam) Khalilitousi, Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023년, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/ 

16 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022년, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38 

17 Abeer Abuzayed 및 Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021년, pp. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020년, https://www.jmir.org/2020/12/e22609

18 Matthew Gillings 및 Andrew Hardie, “The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice,” Digital Scholarship in the Humanities, Vol. 38, No. 2, 2023년, pp. 530–543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052 

19 Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022년.

20 Zachary Lipton, “The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery,” Queue, Vol. 13, No. 3, 2018년, pp. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 Caitlin Doogan 및 Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies” 2021년, pp. 3824-3848, https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, Philip Resnik, “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence,” Advances in Neural Processing Systems, vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html 

21 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023년, https://aclanthology.org/2023.emnlp-main.581

22 Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli, Daniela Ushizima, “Benchmarking topic models on scientific articles using BERTeley,” Natural Language Processing Journal, Vol. 6, 2024년, pp. 2949-7191, https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem, Roy Ka-Wei Lee, “Prompting Large Language Models for Topic Modeling,” Proceedings of the 2023 IEEE International Conference on Big Data, 2023년, pp. 1236-1241, https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy