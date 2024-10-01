이 행렬은 토큰화 및 중지어 제거 후 세 문서 모두에서 각 단어의 단어 빈도를 보여줍니다. 각 열은 문서에 해당하고, 각 행은 전체 텍스트 말뭉치에서 발견된 특정 단어에 해당합니다. 행렬의 값은 각 문서에서 주어진 단어가 나타나는 횟수를 나타냅니다. 문서 d 내에서 w라는 용어가 n번 나타나면 [w,d] = n입니다. 예를 들어 문서 1에는 '붉은'이 1번 사용되었으므로, [붉은, d1] = 1입니다.

문서-용어 행렬에서 LSA는 문서-문서 행렬과 용어-용어 행렬을 생성합니다. 문서-용어 행렬의 차원이 d 문서와 w 단어의 곱으로 정의되면, 문서-문서 행렬은 d 곱하기 d이고 용어-용어 행렬은 w 곱하기 w입니다. 문서-문서 행렬의 각 값은 각 문서에 공통된 단어의 수를 나타냅니다. 용어-용어 행렬의 각 값은 두 용어가 동시에 발생하는 문서의 수를 나타냅니다.3

모델 과적합을 초래하는 데이터 희소성은 특정 데이터 세트의 데이터 값이 대부분 null인 경우(즉, 비어 있는 경우)입니다. 이는 각 개별 단어가 별도의 행 및 벡터 공간 차원인 문서-용어 행렬을 구성할 때 자주 발생합니다. 한 문서에는 다른 문서에서 더 자주 사용되는 대다수의 단어가 (거의) 없는 경우가 많기 때문입니다. 실제로 여기에 사용된 예제 문서-용어 행렬에는 하나의 문서에만 나타난 모세, 제비꽃, 푸르지와 같은 단어가 여러 번 사용되었습니다. 물론 중지어 제거, 어간 추출 및 표제어 추출과 같은 텍스트 전처리 기술은 희소성을 줄이는 데 도움이 될 수 있습니다. 그러나 LSA는 더욱 표적화된 접근 방식을 제공합니다.