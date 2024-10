n-그램 주머니. 단어 대신 n-그램을 채택하면 단어 주머니 모델이 가진 여러 가지 단점을 수정할 수 있습니다. 각 단어가 특징인 모델을 만드는 대신 n-그램을 벡터 특징으로 사용할 수 있습니다. 여기서 n은 하나의 의미 체계 단위로 취급되는 단어의 수를 나타내며, n-그램 모음에서 가장 일반적인 것은 바이그램(두 단어)입니다. 단어 바이그램은 뉴욕시 또는 에펠탑 같은 복합어를 설명할 수 있다는 점에서 유용합니다. 물론, 모든 단어 바이그램이 정보를 제공하는 것은 아닙니다. 예를 들면 영어의 on the 또는 of the가 그런 경우입니다. 그러나 여전히 n-그램은 복합어 및 단어 상관관계와 같은 문제를 설명하는 한 가지 수단입니다.7

텍스트 정규화 기술. 단어 주머니 모델의 구조와 기능을 개선하기 위해 원시 텍스트 데이터를 정규화해야 할 수도 있습니다. 단어 주머니 또는 n-그램 주머니 모델을 생성할 때 관사(예: a, the 등)와 전치사(예: from, of, on 등)와 같은 단어가 가장 많이 나타날 수 있습니다. 이러한 단어는 문서의 내용이나 유형에 관한 정보를 많이 제공하지 않으므로 분류 작업에서는 거의 쓸모가 없습니다. 중지 단어 제거(어간 추출에 자주 사용됨)와 같은 텍스트 전처리 기술은 텍스트 데이터 세트에서 관련 없는 단어를 제거하여 단어 주머니 모델의 구조를 개선하는 데 도움이 될 수 있습니다. 다행히 NLTK 또는 sklearn과 같은 많은 Python 라이브러리 및 패키지에는 일반적인 전처리 기술을 수행하는 기능이 포함되어 있습니다.

해싱. 특징 해싱은 기본적으로 입력 텍스트 데이터의 개별 단어를 고정 크기의 숫자 집합으로 변환합니다. 그런 다음 이 고정된 범위의 숫자를 사용하여 단어 주머니 모델의 벡터 공간을 구성합니다. 숫자의 범위를 제한하여 모델 차원을 고정된 크기로 제한하면 희소성과 고차원을 방지할 수 있습니다. 해싱의 주요 단점은 소위 '충돌'입니다. 해시 충돌은 관련이 없는 두 개의 토큰이 동일한 정수에 매핑될 때 발생합니다. 해싱의 또 다른 단점은 다의어를 고려하지 않는다는 것입니다.8