잠재 의미론적 분석이란 무엇인가요?

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Joshua Noble

Data Scientist

잠재 의미론적 분석이란 무엇인가요?

머신 러닝에서 LSA(잠재 의미론적 분석)는 단어 동시 발생을 분석하여 문서의 잠재 주제를 발견하는 주제 모델링 기법입니다. LSA는 텍스트 분류 및 검색을 돕기 위해 차원 축소를 사용하여 구조화되지 않은 텍스트에서 구조화된 데이터를 만듭니다.

LSA는 두 가지 주요 주제 모델링 기법 중 하나이며, 다른 하나는 잠재 디리클레 할당(LDA)입니다. 주제 모델링은 자연어 처리(NLP) 기술로, 대규모 텍스트 데이터 세트에 비지도 학습에 적용되어 해당 문서에서 파생된 용어의 요약 세트를 생성합니다. 이 용어들은 컬렉션의 전반적인 주요 주제 세트를 나타냅니다. 따라서 주제 모델은 다수의 문서를 특징짓는 잠재적인 주제 또는 테마를 발견하는 것을 목표로 합니다.1

사용자는 scikit-learn(일반적으로 sklearn이라고 함)의 자연어 툴킷(NLTK) 및 Python의 gensim을 사용하여 LSA 주제 모델을 생성할 수 있습니다. R의 topic modelslsa 패키지에는 LDA 주제 모델을 생성하기 위한 함수도 포함되어 있습니다.

정보 검색

잠재 의미론적 분석은 정보 검색 기술인 잠재 의미론적 인덱싱(LSI)과 관련이 있습니다. 정보 검색 시스템에서 LSI는 LSA의 기본 수학적 절차와 동일한 수학적 절차를 사용하여 단어 동시 발생을 기반으로 사용자 쿼리를 문서에 매핑합니다. 사용자가 시스템에 왈츠폭스트롯을 쿼리하는 경우, 이 사용자는 이러한 용어 중 어느 것도 포함하지 않지만 쿼리 용어와 자주 동시에 발생하는 용어가 포함된 문서에 관심이 있을 수 있습니다. 예를 들어, 탱고볼레로는 쿼리 용어와 자주 동시에 발생할 수 있으며 동일한 주제에 관한 문서를 의미할 것입니다. LSI는 일반적으로 공존하는 단어로 구성된 잠재 의미론적 단어군에 따라 문서를 인덱싱합니다. 이러한 방식으로 LSA는 검색 엔진 결과를 개선할 수 있습니다. LSA는 대규모 문서 컬렉션의 기초가 되는 숨겨진 의미 체계를 캡처하기 위해 LSI와 동일한 수학적 절차를 적용합니다.2

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

잠재 의미론적 분석의 작동 방식

문서-용어 행렬

LSA는 문서-용어 행렬 또는 간혹 용어-문서 행렬로 시작합니다. 이는 모든 문서에서 각 단어의 발생 횟수를 표시합니다. 한 가지 예로 Python에서 사용자는 pandas 데이터 프레임을 사용하여 이러한 행렬을 구성할 수 있습니다. 다음은 세 개의 텍스트 문자열을 개별 문서로 사용하는 문서-용어 행렬의 예입니다.

d1: 내 사랑은 붉은 장미처럼

d2: 장미는 붉고, 제비꽃은 푸르지

d3: 모세는 자기 발가락이 장미인 줄 알지

세 개의 문서가 있는 문서-용어 행렬 예시

이 행렬은 토큰화 및 중지어 제거 후 세 문서 모두에서 각 단어의 단어 빈도를 보여줍니다. 각 열은 문서에 해당하고, 각 행은 전체 텍스트 말뭉치에서 발견된 특정 단어에 해당합니다. 행렬의 값은 각 문서에서 주어진 단어가 나타나는 횟수를 나타냅니다. 문서 d 내에서 w라는 용어가 n번 나타나면 [w,d] = n입니다. 예를 들어 문서 1에는 '붉은'이 1번 사용되었으므로, [붉은, d1] = 1입니다.

문서-용어 행렬에서 LSA는 문서-문서 행렬과 용어-용어 행렬을 생성합니다. 문서-용어 행렬의 차원이 d 문서와 w 단어의 곱으로 정의되면, 문서-문서 행렬은 d 곱하기 d이고 용어-용어 행렬은 w 곱하기 w입니다. 문서-문서 행렬의 각 값은 각 문서에 공통된 단어의 수를 나타냅니다. 용어-용어 행렬의 각 값은 두 용어가 동시에 발생하는 문서의 수를 나타냅니다.3

모델 과적합을 초래하는 데이터 희소성은 특정 데이터 세트의 데이터 값이 대부분 null인 경우(즉, 비어 있는 경우)입니다. 이는 각 개별 단어가 별도의 행 및 벡터 공간 차원인 문서-용어 행렬을 구성할 때 자주 발생합니다. 한 문서에는 다른 문서에서 더 자주 사용되는 대다수의 단어가 (거의) 없는 경우가 많기 때문입니다. 실제로 여기에 사용된 예제 문서-용어 행렬에는 하나의 문서에만 나타난 모세, 제비꽃, 푸르지와 같은 단어가 여러 번 사용되었습니다. 물론 중지어 제거, 어간 추출표제어 추출과 같은 텍스트 전처리 기술은 희소성을 줄이는 데 도움이 될 수 있습니다. 그러나 LSA는 더욱 표적화된 접근 방식을 제공합니다.

차원 축소

LSA는 문서-용어 행렬의 희소성을 줄이기 위해 SVD(특이값 분해)라는 차원 축소 기법을 사용합니다. SVD는 주성분 분석과 같은 다른 여러 차원 축소 접근 방식을 지원합니다. SVD는 여러 의미를 가진 단일 단어인 다의어와 유사한 의미를 가진 다른 단어인 동의어로 인해 발생하는 문제를 완화하는 데 도움이 됩니다.

LSA 알고리즘은 문서-문서 및 용어-용어 행렬의 항에서 계산된 행렬을 사용하여 초기 용어-문서 행렬에서 SVD를 수행합니다. 이를 통해 원래의 용어-문서 관계를 선형 독립 요소로 분해하는 고유 벡터의 새로운 특수 행렬이 생성됩니다. 이 중 가장 중요한 것은 문서-문서 행렬의 고유값의 제곱근에서 생성된 특이값의 대각선 행렬입니다. 종종 Σ로 표시되는 이 대각선 행렬에서 값은 항상 양수이며, 행렬 대각선 아래로 내림차순으로 정렬됩니다.

희소 시그마 행렬의 예

이 예시 ∑ 행렬에서처럼 많은 하위 값이 0에 가깝습니다. 개발자는 상황에 적합한 컷오프 값을 결정하고 해당 임계값 미만인 Σ의 모든 특이값을 0으로 줄입니다. 이로써 사실상 0이 모두 차지한 모든 행과 열이 제거됩니다. 이어서 Σ와 동일한 수의 행과 열을 가질 때까지 다른 원본 행렬에서 행과 열을 제거합니다. 이렇게 하면 모델의 크기가 줄어듭니다.4

문서 비교

SVD를 통해 모델 크기가 줄어들면 LSA 알고리즘은 코사인 유사성을 사용하여 더 낮은 차원 시맨틱 공간의 문서를 비교합니다. 이 비교 단계에서 처음으로 할 일은 벡터 공간에서 문서를 매핑하는 것입니다. 여기서 LSA는 텍스트를 Bag of words 모델로 취급합니다. 알고리즘은 말뭉치 또는 말뭉치들의 각 텍스트를 문서 벡터로 표시하고, 축소된 행렬의 개별 단어를 해당 벡터의 차원으로 표시합니다. 플롯 시에는 단어 순서와 컨텍스트를 무시하고 대신 단어가 얼마나 자주 발생하는지, 여러 문서에서 얼마나 동시 발생하는지에 집중합니다.5

표준 Bag of words 모델을 사용하면 의미론적으로 관련이 없는 단어(예:the some, 그리고 여타 유사한 단어)가 모델에서 용어 빈도가 가장 높을 수 있으므로 모델에서 가장 큰 가중치를 가질 수 있습니다. 용어 빈도-역문서 빈도(TF-IDF)는 이를 수정하기 위한 기법입니다. 이를 위해 TF-IDF는 텍스트 세트의 모든 문서에서 단어의 사용 빈도를 고려하고 말뭉치 전체에서 단어의 사용 빈도에 따라 각 문서의 단어에 가중치를 부여합니다.6

문서가 벡터 공간에 플롯되면 LSA 알고리즘은 코사인 유사성 지표를 사용하여 문서를 비교합니다. 코사인 유사성은 벡터 공간에서 두 벡터 사이의 각도 측정치를 나타냅니다. 이는 -1과 1 사이의 값일 수 있습니다. 코사인 점수가 높을수록 두 문서가 더 유사한 것으로 간주됩니다. 코사인 유사성은 다음 공식으로 나타내며, 여기서 a b는 두 문서 벡터를 나타냅니다.7

코사인 유사성 점수 방정식

최근 연구

문학 비평8부터 생물정보학9과 소셜 미디어에서의 증오 발언 탐지에 이르기까지 주제 모델에는 많은 사용 사례가 있습니다.10 많은 NLP 과제와 마찬가지로 지난 수년간 진행된 주제 모델링 연구의 상당 부분이 영어와 기타 라틴어 스크립트 언어에 관한 것이었습니다. 그러나 최근에는 아랍어 및 기타 비라틴어 언어에 대한 주제 모델링 접근 방식을 연구하는 연구가 진행되고 있습니다.11 대규모 언어 모델(LLM)이 주제 모델을 어떻게 발전시키고 개선할 수 있는지에 대해서도 연구가 이루어졌습니다. 예를 들어, 한 연구에서는 LLM이 주제 모델링의 오랜 문제인 적절한 주제 수를 정하는 방법과 생성된 주제를 평가하는 방법을 해결하는 자동화된 방법을 제공한다고 주장합니다.12

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

관련 솔루션
IBM watsonx Orchestrate

IBM watsonx Orchestrate를 사용하여 확장 가능한 AI 어시스턴트 및 에이전트를 쉽게 설계하고, 반복적인 작업을 자동화하고, 복잡한 프로세스를 간소화합니다.

watsonx Orchestrate 알아보기
자연어 처리 툴 및 API

강력하고 유연한 라이브러리, 서비스 및 애플리케이션 포트폴리오로 인공 지능의 비즈니스 가치를 가속화합니다.

NLP 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

IBM watsonx Orchestrate를 통해 확장 가능한 AI 어시스턴트 및 에이전트를 쉽게 설계하고 반복적인 작업을 자동화하며 복잡한 프로세스를 간소화합니다.

watsonx Orchestrate 알아보기 NLP 솔루션 살펴보기
각주

1 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/ (ibm.com 외부 링크). Jay Alammar and Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

2 Christopher Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 2000.

3 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9(ibm.com 외부 링크) Alex Thomo, “Latent Semantic Analysis,” https://www.engr.uvic.ca/~seng474/svd.pdf(ibm.com 외부 링크).

4 Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9(ibm.com 외부 링크).

5 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.

6 Alice Zheng and Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.

7 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.

8 Derek Greene, James O'Sullivan, and Daragh O'Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024,https://academic.oup.com/dsh/article/39/1/142/7515230?login=false(ibm.com 외부 링크).

9 Yichen Zhang, Mohammadali (Sam) Khalilitousi, and Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/ (ibm.com 외부 링크).

10 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, and Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38 (ibm.com 외부 링크).

11 Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, pp. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 (ibm.com 외부 링크) Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, and Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609/ (ibm.com 외부 링크).

12 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, and Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, https://aclanthology.org/2023.emnlp-main.581/ (ibm.com 외부 링크).