잠재 의미론적 분석이란 무엇인가요?

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Data Scientist

잠재 의미론적 분석이란 무엇인가요?

머신 러닝에서 LSA(잠재 의미론적 분석)는 단어 동시 발생을 분석하여 문서의 잠재 주제를 발견하는 주제 모델링 기법입니다. LSA는 텍스트 분류 및 검색을 돕기 위해 차원 축소를 사용하여 구조화되지 않은 텍스트에서 구조화된 데이터를 만듭니다.

LSA는 두 가지 주요 주제 모델링 기법 중 하나이며, 다른 하나는 잠재 디리클레 할당(LDA)입니다. 주제 모델링은 자연어 처리(NLP) 기술로, 대규모 텍스트 데이터 세트에 비지도 학습에 적용되어 해당 문서에서 파생된 용어의 요약 세트를 생성합니다. 이 용어들은 컬렉션의 전반적인 주요 주제 세트를 나타냅니다. 따라서 주제 모델은 다수의 문서를 특징짓는 잠재적인 주제 또는 테마를 발견하는 것을 목표로 합니다.¹

사용자는 scikit-learn(일반적으로 sklearn이라고 함)의 자연어 툴킷(NLTK) 및 Python의 gensim을 사용하여 LSA 주제 모델을 생성할 수 있습니다. R의 topic models 및 lsa 패키지에는 LDA 주제 모델을 생성하기 위한 함수도 포함되어 있습니다.

정보 검색

잠재 의미론적 분석은 정보 검색 기술인 잠재 의미론적 인덱싱(LSI)과 관련이 있습니다. 정보 검색 시스템에서 LSI는 LSA의 기본 수학적 절차와 동일한 수학적 절차를 사용하여 단어 동시 발생을 기반으로 사용자 쿼리를 문서에 매핑합니다. 사용자가 시스템에 왈츠와 폭스트롯을 쿼리하는 경우, 이 사용자는 이러한 용어 중 어느 것도 포함하지 않지만 쿼리 용어와 자주 동시에 발생하는 용어가 포함된 문서에 관심이 있을 수 있습니다. 예를 들어, 탱고와 볼레로는 쿼리 용어와 자주 동시에 발생할 수 있으며 동일한 주제에 관한 문서를 의미할 것입니다. LSI는 일반적으로 공존하는 단어로 구성된 잠재 의미론적 단어군에 따라 문서를 인덱싱합니다. 이러한 방식으로 LSA는 검색 엔진 결과를 개선할 수 있습니다. LSA는 대규모 문서 컬렉션의 기초가 되는 숨겨진 의미 체계를 캡처하기 위해 LSI와 동일한 수학적 절차를 적용합니다.²

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

잠재 의미론적 분석의 작동 방식

문서-용어 행렬

LSA는 문서-용어 행렬 또는 간혹 용어-문서 행렬로 시작합니다. 이는 모든 문서에서 각 단어의 발생 횟수를 표시합니다. 한 가지 예로 Python에서 사용자는 pandas 데이터 프레임을 사용하여 이러한 행렬을 구성할 수 있습니다. 다음은 세 개의 텍스트 문자열을 개별 문서로 사용하는 문서-용어 행렬의 예입니다.

d1: 내 사랑은 붉은 장미처럼

d2: 장미는 붉고, 제비꽃은 푸르지

d3: 모세는 자기 발가락이 장미인 줄 알지

이 행렬은 토큰화 및 중지어 제거 후 세 문서 모두에서 각 단어의 단어 빈도를 보여줍니다. 각 열은 문서에 해당하고, 각 행은 전체 텍스트 말뭉치에서 발견된 특정 단어에 해당합니다. 행렬의 값은 각 문서에서 주어진 단어가 나타나는 횟수를 나타냅니다. 문서 d 내에서 w라는 용어가 n번 나타나면 [w,d] = n입니다. 예를 들어 문서 1에는 '붉은'이 1번 사용되었으므로, [붉은, d1] = 1입니다.

문서-용어 행렬에서 LSA는 문서-문서 행렬과 용어-용어 행렬을 생성합니다. 문서-용어 행렬의 차원이 d 문서와 w 단어의 곱으로 정의되면, 문서-문서 행렬은 d 곱하기 d이고 용어-용어 행렬은 w 곱하기 w입니다. 문서-문서 행렬의 각 값은 각 문서에 공통된 단어의 수를 나타냅니다. 용어-용어 행렬의 각 값은 두 용어가 동시에 발생하는 문서의 수를 나타냅니다.³

모델 과적합을 초래하는 데이터 희소성은 특정 데이터 세트의 데이터 값이 대부분 null인 경우(즉, 비어 있는 경우)입니다. 이는 각 개별 단어가 별도의 행 및 벡터 공간 차원인 문서-용어 행렬을 구성할 때 자주 발생합니다. 한 문서에는 다른 문서에서 더 자주 사용되는 대다수의 단어가 (거의) 없는 경우가 많기 때문입니다. 실제로 여기에 사용된 예제 문서-용어 행렬에는 하나의 문서에만 나타난 모세, 제비꽃, 푸르지와 같은 단어가 여러 번 사용되었습니다. 물론 중지어 제거, 어간 추출 및 표제어 추출과 같은 텍스트 전처리 기술은 희소성을 줄이는 데 도움이 될 수 있습니다. 그러나 LSA는 더욱 표적화된 접근 방식을 제공합니다.

차원 축소

LSA는 문서-용어 행렬의 희소성을 줄이기 위해 SVD(특이값 분해)라는 차원 축소 기법을 사용합니다. SVD는 주성분 분석과 같은 다른 여러 차원 축소 접근 방식을 지원합니다. SVD는 여러 의미를 가진 단일 단어인 다의어와 유사한 의미를 가진 다른 단어인 동의어로 인해 발생하는 문제를 완화하는 데 도움이 됩니다.

LSA 알고리즘은 문서-문서 및 용어-용어 행렬의 항에서 계산된 행렬을 사용하여 초기 용어-문서 행렬에서 SVD를 수행합니다. 이를 통해 원래의 용어-문서 관계를 선형 독립 요소로 분해하는 고유 벡터의 새로운 특수 행렬이 생성됩니다. 이 중 가장 중요한 것은 문서-문서 행렬의 고유값의 제곱근에서 생성된 특이값의 대각선 행렬입니다. 종종 Σ로 표시되는 이 대각선 행렬에서 값은 항상 양수이며, 행렬 대각선 아래로 내림차순으로 정렬됩니다.

이 예시 ∑ 행렬에서처럼 많은 하위 값이 0에 가깝습니다. 개발자는 상황에 적합한 컷오프 값을 결정하고 해당 임계값 미만인 Σ의 모든 특이값을 0으로 줄입니다. 이로써 사실상 0이 모두 차지한 모든 행과 열이 제거됩니다. 이어서 Σ와 동일한 수의 행과 열을 가질 때까지 다른 원본 행렬에서 행과 열을 제거합니다. 이렇게 하면 모델의 크기가 줄어듭니다.⁴

문서 비교

SVD를 통해 모델 크기가 줄어들면 LSA 알고리즘은 코사인 유사성을 사용하여 더 낮은 차원 시맨틱 공간의 문서를 비교합니다. 이 비교 단계에서 처음으로 할 일은 벡터 공간에서 문서를 매핑하는 것입니다. 여기서 LSA는 텍스트를 Bag of words 모델로 취급합니다. 알고리즘은 말뭉치 또는 말뭉치들의 각 텍스트를 문서 벡터로 표시하고, 축소된 행렬의 개별 단어를 해당 벡터의 차원으로 표시합니다. 플롯 시에는 단어 순서와 컨텍스트를 무시하고 대신 단어가 얼마나 자주 발생하는지, 여러 문서에서 얼마나 동시 발생하는지에 집중합니다.⁵

표준 Bag of words 모델을 사용하면 의미론적으로 관련이 없는 단어(예:the 및 some, 그리고 여타 유사한 단어)가 모델에서 용어 빈도가 가장 높을 수 있으므로 모델에서 가장 큰 가중치를 가질 수 있습니다. 용어 빈도-역문서 빈도(TF-IDF)는 이를 수정하기 위한 기법입니다. 이를 위해 TF-IDF는 텍스트 세트의 모든 문서에서 단어의 사용 빈도를 고려하고 말뭉치 전체에서 단어의 사용 빈도에 따라 각 문서의 단어에 가중치를 부여합니다.⁶

문서가 벡터 공간에 플롯되면 LSA 알고리즘은 코사인 유사성 지표를 사용하여 문서를 비교합니다. 코사인 유사성은 벡터 공간에서 두 벡터 사이의 각도 측정치를 나타냅니다. 이는 -1과 1 사이의 값일 수 있습니다. 코사인 점수가 높을수록 두 문서가 더 유사한 것으로 간주됩니다. 코사인 유사성은 다음 공식으로 나타내며, 여기서 a와 b는 두 문서 벡터를 나타냅니다.⁷

최근 연구

문학 비평⁸부터 생물정보학⁹과 소셜 미디어에서의 증오 발언 탐지에 이르기까지 주제 모델에는 많은 사용 사례가 있습니다.¹⁰많은 NLP 과제와 마찬가지로 지난 수년간 진행된 주제 모델링 연구의 상당 부분이 영어와 기타 라틴어 스크립트 언어에 관한 것이었습니다. 그러나 최근에는 아랍어 및 기타 비라틴어 언어에 대한 주제 모델링 접근 방식을 연구하는 연구가 진행되고 있습니다.¹¹대규모 언어 모델(LLM)이 주제 모델을 어떻게 발전시키고 개선할 수 있는지에 대해서도 연구가 이루어졌습니다. 예를 들어, 한 연구에서는 LLM이 주제 모델링의 오랜 문제인 적절한 주제 수를 정하는 방법과 생성된 주제를 평가하는 방법을 해결하는 자동화된 방법을 제공한다고 주장합니다.¹²

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

과대 광고 그 이상 - AI 어시스턴트가 실제 비즈니스 가치를 창출하는 방법

보고서를 읽고 AI 어시스턴트를 활용하는 주요 사용 사례를 살펴보고, 생성형 AI 및 자동화 기술이 비즈니스에 미치는 잠재적 영향을 이해하고, 시작하는 방법을 알아보세요.

리소스

IBM Granite 살펴보기

IBM Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.

NLP 초보자 가이드

자연어 처리를 통해 컴퓨터와 보다 자연스럽게 대화하는 방법을 알아보세요.

2024년 AI 활용 현황

IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시하여 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.

IBM 내장형 AI로 애플리케이션 개선

IBM 개발자 웹사이트를 방문하여 블로그, 기사, 뉴스레터를 살펴보고 IBM 임베드 가능 AI에 대해 자세히 알아보세요.

생성형 AI 실습

실습, 강좌, 가이드 프로젝트, 평가판 등을 통해 기본 개념을 배우고 기술을 쌓으세요.

각주

1 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3^rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/ (ibm.com 외부 링크). Jay Alammar and Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

2 Christopher Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 2000.

3 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9(ibm.com 외부 링크) Alex Thomo, “Latent Semantic Analysis,” https://www.engr.uvic.ca/~seng474/svd.pdf(ibm.com 외부 링크).

4 Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9(ibm.com 외부 링크).

5 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.

6 Alice Zheng and Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.

7 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.

8 Derek Greene, James O'Sullivan, and Daragh O'Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024,https://academic.oup.com/dsh/article/39/1/142/7515230?login=false(ibm.com 외부 링크).

9 Yichen Zhang, Mohammadali (Sam) Khalilitousi, and Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/ (ibm.com 외부 링크).

10 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, and Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38 (ibm.com 외부 링크).

11 Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, pp. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 (ibm.com 외부 링크) Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, and Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609/ (ibm.com 외부 링크).

12 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, and Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, https://aclanthology.org/2023.emnlp-main.581/ (ibm.com 외부 링크).

잠재 의미론적 분석이란 무엇인가요?

작성자

잠재 의미론적 분석이란 무엇인가요?

정보 검색

전문가가 전하는 최신 AI 트렌드

감사합니다! 구독이 완료되었습니다.

잠재 의미론적 분석의 작동 방식

문서-용어 행렬

차원 축소

문서 비교

최근 연구

AI 디코딩: 주간 뉴스 요약

리소스

각주