주제 모델링이란 무엇인가요?

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

주제 모델링이란 무엇인가요?

자연어 처리(NLP)에서 주제 모델링은 대규모 텍스트 집합에 비지도 학습을 적용하여 컬렉션의 전체 기본 주제 집합을 나타내는 용어 요약 집합을 생성하는 텍스트 마이닝 기법입니다.¹주제 모델은 텍스트 분류와 정보 검색 작업을 보조합니다.

주제 모델은 텍스트 데이터 세트에서 일반적인 키워드 또는 구문을 구체적으로 식별하고 해당 단어를 여러 주제로 그룹화합니다. 주제 모델은 문서 집합을 특징짓는 잠재적인 주제 또는 테마를 발견하는 것을 목표로 합니다. 이러한 방식으로 주제 모델은 큰 텍스트 말뭉치를 주제별로 주석을 추가하는 데 사용되는 텍스트 분석의 머신 러닝 기반 형식입니다.²

사용자는 scikit-learn의 자연어 툴킷(NLTK) 및 Python을 사용하여 주제 모델을 쉽게 생성할 수 있습니다.

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

주제 모델링 작동 방식

비지도 학습 방법으로서 주제 모델에는 감독된 텍스트 분류 작업에서처럼 사용자가 생성한 교육 데이터 레이블이 필요하지 않습니다. 오히려, 주제 모델은 주제라고 하는 단어 그룹의 형태로 주제 정보가 포함된 대규모 문서 컬렉션을 생성하고 더 나아가 주석을 추가합니다.³ 하지만 토픽 모델은 어떻게 이러한 단어 그룹을 생성할까요?

주제 모델링은 기본적으로 텍스트 모음의 각 개별 문서를 Bag of words 모델로 취급합니다. 즉, 주제 모델링 알고리즘은 단어 순서와 컨텍스트는 무시하고 각 개별 문서 내에서 단어가 얼마나 자주 발생하는지, 얼마나 자주 동시에 발생하는지에만 집중합니다.⁴

대부분의 토픽 모델링 접근 방식은 문서 용어 매트릭스를 생성하는 것으로 시작합니다. 이 행렬은 문서를 행으로, 개별 단어를 열로 또는 그 반대로 텍스트 데이터 세트를 모델링합니다. 행렬에서 값은 각 문서에서 주어진 단어가 나타나는 빈도를 나타냅니다. 그런 다음 이 행렬을 사용하여 벡터 공간을 생성할 수 있으며, 여기서 n 단어는 n 차원과 같습니다. 주어진 행의 값은 벡터 공간에서 해당 문서의 위치를 나타냅니다. 따라서 유사한 그룹과 유사한 빈도로 단어를 사용하는 문서는 벡터 공간에서 서로 더 가깝게 상주하게 됩니다. 여기에서 토픽 모델은 벡터 공간에서의 근접성을 유사한 개념 콘텐츠 또는 토픽을 공유하는 문서로 처리합니다.⁵

그러나 토픽 모델은 Bag of Words의 동의어가 아닙니다. 후자는 단순히 문서 모음 내에서 단어의 존재 여부만 계산하는 반면, 토픽 모델은 일반적으로 함께 발생하는 단어를 토픽 세트로 그룹화합니다. 각 주제는 단어의 어휘 전체에 걸친 확률 분포로 모델화됩니다. 그런 다음 컬렉션의 각 문서가 해당 주제와 관련하여 표시됩니다.⁶ 이런 식으로, 주제 모델은 본질적으로 문제의 문서를 생성한 담화(즉, 주제)를 리버스 엔지니어링하려고 시도합니다.⁷

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

주제 모델링 알고리즘의 유형

주제 모델링 알고리즘은 한 가지 작업에 대한 대안적인 방법이라기보다는 Bag of Words 모델에서 처음에 발견된 문제를 해결하기 위한 순차적 개발입니다. 단어 빈도-역 문서 빈도(TF-IDF)는 텍스트 집합의 모든 문서에서 각 단어가 널리 퍼져 있는 정도를 고려하여 일반적이지만 의미상 관련이 없는 단어로 인해 발생하는 문제를 해결하기 위한 Bag of words의 수정입니다. 잠재 의미적 분석은 TF-IDF를 기반으로 하며, 주요 목적은 다의어와 동의어를 해결하는 것입니다. 이는 확률 잠재 의미 분석을 낳았고, 이로부터 잠재 디리클레 할당(latent Dirichlet allocation)이 발전되었습니다. 잠재 디리클레 할당의 두드러진 특징은 컬렉션의 모든 문서가 비율은 다르지만 동일한 주제 집합을 공유한다는 것입니다.⁸

잠재 의미론적 분석

잠재 시맨틱 분석(LSA)(잠재 시맨틱 인덱싱이라고도 함)은 문서 용어 행렬의 희소성을 줄이기 위해 특이값 분해라는 기법을 사용합니다. 이렇게 하면 다의학과 동의어, 즉 여러 의미를 가진 단일 단어 또는 단일 공유 의미를 가진 여러 단어로 인한 문제가 완화됩니다.

데이터 희소성은 기본적으로 주어진 데이터 세트에 있는 데이터 값의 대다수가 null(즉, 비어 있음)인 경우를 나타냅니다. 이는 각 개별 단어가 별도의 행 및 벡터 공간 차원인 문서 용어 행렬을 구성할 때 정기적으로 발생하며, 문서에는 다른 문서에서 더 자주 사용할 수 있는 대부분의 단어가 정기적으로 부족하기 때문입니다. 물론 불용어 제거나 형태소 분석 및 표제어 추출과 같은 텍스트 데이터 전처리 기술은 행렬의 크기를 줄이는 데 도움이 될 수 있습니다. LSA는 희소성과 차원을 줄이기 위한 보다 표적화된 접근 방식을 제공합니다.

LSA는 각 단어가 각 문서에 나타나는 횟수를 표시하는 문서 용어 행렬로 시작합니다. 여기에서 LSA는 문서-문서 매트릭스와 용어-용어 매트릭스를 생성합니다. 문서-용어 행렬의 차원이 d 문서와 w 단어의 곱으로 정의되면, 문서-문서 행렬은 d 곱하기 d이고 용어-용어 행렬은 w 곱하기 w입니다. 문서-문서 행렬의 각 값은 각 문서에 공통된 단어의 수를 나타냅니다. term-term 행렬의 각 값은 두 용어가 동시에 발생하는 문서의 수를 나타냅니다.⁹

LSA 알고리즘은 이 두 개의 추가 행렬을 사용하여 초기 문서-용어 행렬에 대해 특이값 분해를 수행하여 고유 벡터의 새로운 특수 행렬을 생성합니다. 이 특수 행렬은 원래 문서-용어 관계를 선형 독립 요소로 세분화합니다. 이러한 요소 중 상당수는 0에 가깝기 때문에 0으로 처리되어 행렬에서 제외됩니다. 이렇게 하면 모델의 크기가 줄어듭니다.¹⁰

특이값 분해를 통해 모델 차원이 줄어들면 LSA 알고리즘은 코사인 유사성을 사용하여 더 낮은 차원 공간의 문서를 비교합니다. 코사인 유사성은 벡터 공간에서 두 벡터 사이의 각도 측정을 의미합니다. -1과 1 사이의 값일 수 있습니다. 코사인 점수가 높을수록 두 문서가 더 유사한 것으로 간주됩니다. 코사인 유사성은 다음 공식으로 표시되며, 여기서 x와 y는 벡터 공간에서 두 개의 항목 벡터를 나타냅니다.¹¹

잠재 디리클레 할당

잠재 디리클레 할당(LDA)은 선형 판별 분석과 혼동하지 말아야 하는 확률적 주제 모델링 알고리즘입니다. 즉, 확률 분포에 따라 서로 다른 주제 중에서 단어와 문서를 분류하여 주제를 생성합니다. LDA 알고리즘은 문서-용어 행렬을 사용하여 단어 빈도와 동시 발생에 따른 주제 분포를 생성합니다(각각에 대한 확률이 있는 키워드 목록). 이는 함께 나타나는 단어들이 비슷한 주제에 속할 가능성이 있다고 가정합니다. 그런 다음 알고리즘은 주어진 문서에 나타나는 단어 클러스터를 기반으로 문서 주제 분포를 할당합니다.¹²

예를 들어, 다음과 같은 부분적인 아웃풋이 있는 뉴스 기사 모음에 대한 LDA 모델을 생성한다고 가정해 보겠습니다.

우리에게는 이민(주제 1)과 천문학(주제 2)으로 설명할 수 있는 두 개의 주제가 있습니다. 각 단어에 붙은 점수는 해당 키워드가 주어진 주제에 나타날 확률입니다. 각 문서에 부여되는 확률은, 해당 문서의 각 주제에 대한 단어 분포와 동시 발생을 고려할 때 해당 문서가 여러 주제의 조합에 속할 확률입니다. 예를 들어 표의 첫 번째 행은 주제 1에 40% 확률로 border를 표시하고, 주제 2에서는 60% 확률로 space를 표시합니다. 이 백분율은 전체 말뭉치에서 해당 주제에 해당 용어가 나타날 확률을 나타냅니다. 첫 번째 문서 행에는 문서 1: 주제 1: .95, 주제 2: .05라고 명시되어 있습니다. 즉, 문서 1의 단어 발생을 기반으로 할 때 모델은 문서 1이 주제 1에서 95%, 주제 2에서 5% 도출되었다고 예측합니다. 다시 말해, 이 가상의 LDA 모델이 모델 생성에 사용된 주제와 그 비율을 이렇게 가정하는 것입니다.

물론, 특히 다의어는 이러한 이산형 범주화에 문제를 일으킵니다. 예를 들어 영어 단어 alien 은 인간 이민자와 외계 생물을 모두 지칭할 수 있습니다. 알고리즘이 문서에서 외계어를 발견하면 해당 단어(그리고 더 나아가 문서)가 어떤 주제에 속하는지 어떻게 판단할까요?

LDA 알고리즘은 단어에 주제를 할당할 때 깁스 샘플링이라는 것을 사용합니다. 깁스 샘플링 공식은 다음과 같습니다.

이 방정식의 정확한 연산과 초매개변수를 이해하려면 통계와 마르코프 체인 몬테카를로 기법(강화 학습에 주로 채택)에 대한 기초 지식이 필요합니다. 그렇지만 방정식의 주요 구성 요소는 다음과 같이 정리할 수 있습니다.

첫 번째 비율은 문서 d에서 주제 t가 나올 확률을 나타냅니다. 알고리즘은 문서 d에서 주제 t에 속하는 단어 수에 따라 이 확률을 계산합니다. 이 계산을 통해 근본적으로 알아내고자 하는 것은, 문서 d에 주제 t가 얼마나 널리 퍼져 있는가입니다.
두 번째 비율은 단어 w가 주제 t에 속할 확률을 나타냅니다. 알고리즘은 t에 있는 모든 단어 토큰에 대해, t에서의 w 발생을 열거하여 이 확률을 계산합니다. 이 계산을 통해 알아내고자 하는 것은, 말뭉치의 나머지 부분에서 주제 t에 대해 단어 w가 나타나는 빈도입니다.

깁스 샘플링은 반복적인 프로세스입니다. 즉, 단어를 한 번만 샘플링하고, 주제를 지정하고, 옆으로 치워두는 것이 아닙니다. 깁스 샘플링은 여러 번의 반복을 통해 각 단어를 처리해서, 다른 단어를 고려하여 주제-단어 확률을 업데이트합니다.¹³

최근 연구

문학 비평¹⁴부터 생물정보학¹⁵, 소셜 미디어에서의 증오심 표현 탐지에 이르기까지 주제 모델에는 많은 사용 사례가 있습니다.¹⁶ 많은 NLP 과제와 마찬가지로 지난 수년간 진행된 주제 모델링 연구의 상당 부분이 영어와 기타 라틴어 스크립트 언어에 관한 것이었습니다. 그러나 최근에는 아랍어 및 기타 비라틴어 언어에 대한 주제 모델링 접근 방식을 연구하는 연구가 진행되고 있습니다.¹⁷

현재 진행 중인 연구에서도 주제 모델에 대한 평가 메트릭을 다루고 있습니다. 실제로 주제 모델을 평가하는 데 사용되는 메트릭은 없습니다. 과거의 평가 메트릭은 정성적 접근 방식과 정량적 접근 방식을 채택했습니다. 전자의 경우 주제 모드 핵심 용어의 해석 가능성을 평가하려면 상당한 도메인별 지식이 필요합니다.¹⁸ 정량적 측정은 모델 내 주제의 가능성과 일관성을 측정하는 것을 목표로 하는 로그 가능성과 응집성 점수로 구성됩니다.¹⁹ 그러나 많은 연구에 따르면 이러한 정량적 메트릭은 신뢰할 수 없을 수 있습니다.²⁰

주제 모델 평가와 관련된 문제를 해결하기 위한 시도로, 한 연구에서는 특정 연구 목표를 위한 LDA 모델을 설계하고 평가하는 수단으로 인공 지능 응용 프로그램, 특히 대규모 언어 모델(LLM)을 조사합니다. 이 연구는 LLM이 주제 모델링의 오랜 문제, 즉 적절한 수의 주제를 결정하고 평가하는 방법을 해결하는 데 도움이 될 수 있다고 주장합니다.²¹ 다른 연구에서도 주제 모델링의 평가 격차를 해결하기 위한 수단으로 LLM 응용 프로그램에 의존합니다.²²

과대 광고 그 이상 - AI 어시스턴트가 실제 비즈니스 가치를 창출하는 방법

보고서를 읽고 AI 어시스턴트를 활용하는 주요 사용 사례를 살펴보고, 생성형 AI 및 자동화 기술이 비즈니스에 미치는 잠재적 영향을 이해하고, 시작하는 방법을 알아보세요.

리소스

IBM Granite 살펴보기

IBM Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.

NLP 초보자 가이드

자연어 처리를 통해 컴퓨터와 보다 자연스럽게 대화하는 방법을 알아보세요.

2024년 AI 활용 현황

IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시하여 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.

IBM 내장형 AI로 애플리케이션 개선

IBM 개발자 웹사이트를 방문하여 블로그, 기사, 뉴스레터를 살펴보고 IBM 임베드 가능 AI에 대해 자세히 알아보세요.

생성형 AI 실습

실습, 강좌, 가이드 프로젝트, 평가판 등을 통해 기본 개념을 배우고 기술을 쌓으세요.

각주

¹Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/

² Jay Alammar 및 Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024년.

³ David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012년, pp. 77-84.

⁴ Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014년.

⁵ Cole Howard, Hobson Lane, Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019년. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020.

⁶ Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022년.

⁷ Practical Natural Language Processing, O’Reilly. David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012년, pp. 77-84.

⁸ Cole Howard, Hobson Lane, Hannes Hapke, Natural Language Processing in Action, Manning Publications, Deerwester, “Indexing by Latent Semantic Analysis,” David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012년, pp. 77-84.

⁹ Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

¹⁰ Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

¹¹ Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015년. Hana Nelson, Essential Math for AI, O’Reilly, 2023년.

¹² Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020년. David Blei, Andrew Ng, Michael Jordan, “Lantent Dirichlet Allocation,” Journal of Machine Learning Research, Vol. 3, 2003년, pp. 993-1022.

¹³ Zhiyuan Chen 및 Bing Liu, “Topic Models for NLP Applications,” Encyclopedia of Machine Learning and Data Science, Springer, 2020년.

¹⁴ Derek Greene, James O’Sullivan, and Daragh O’Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024, https://academic.oup.com/dsh/article/39/1/142/7515230?login=false

¹⁵ Yichen Zhang, Mohammadali (Sam) Khalilitousi, and Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/

¹⁶ Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, and Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38

¹⁷ Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, pp. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, and Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609

¹⁸ Matthew Gillings and Andrew Hardie, “The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice,” Digital Scholarship in the Humanities, Vol. 38, No. 2, 2023, pp. 530–543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052

¹⁹ Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022년.

²⁰ Zachary Lipton, “The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery,” Queue, Vol. 13, No. 3, 2018, pp. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 Caitlin Doogan and Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies” 2021, pp. 3824-3848, https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, and Philip Resnik, “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence,” Advances in Neural Processing Systems, vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html

²¹ Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, and Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, https://aclanthology.org/2023.emnlp-main.581

²² Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli, and Daniela Ushizima, “Benchmarking topic models on scientific articles using BERTeley,” Natural Language Processing Journal, Vol. 6, 2024, pp. 2949-7191, https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem, and Roy Ka-Wei Lee, “Prompting Large Language Models for Topic Modeling,” Proceedings of the 2023 IEEE International Conference on Big Data, 2023, pp. 1236-1241, https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy

주제 모델링이란 무엇인가요?

작성자

주제 모델링이란 무엇인가요?

전문가가 전하는 최신 AI 트렌드

감사합니다! 구독이 완료되었습니다.

주제 모델링 작동 방식

AI 디코딩: 주간 뉴스 요약

주제 모델링 알고리즘의 유형

잠재 의미론적 분석

잠재 디리클레 할당

최근 연구

리소스

각주