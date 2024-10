어간 추출 알고리즘들은 서로 크게 다르지만 몇 가지 일반적인 작동 방식은 공유합니다. 어간 추출기는 미리 정의된 공통 접미사 목록에 대해 입력 단어 토큰을 실행하여 단어 접미사를 제거합니다. 그런 다음, 접미사에 연결된 규칙이나 조건에 어긋나지 않는 경우 단어에서 발견된 접미사 문자 문자열을 제거합니다. 일부 어간 추출기(예: Lovins 어간 추출기)는 잘못된 어근을 수정하기 위해 추가 규칙 세트를 통해 결과 형태소 비트를 실행합니다.

가장 널리 사용되는 알고리즘은 Porter 어간 추출 알고리즘과 그 업데이트 버전인 Snowball 어간 추출기입니다. 어간 추출기에 대한 이해를 돕기 위해 셰익스피어의 햄릿에 수록된 “There is nothing either good or bad but thinking makes it so.”라는 구절을 Snowball 어간 추출기를 통해 실행해 보겠습니다.

Python 자연어 툴킷(NLTK)에는 Snowball 및 Porter 어간 추출기를 위한 기본 제공 함수가 포함되어 있습니다. NLTK를 사용하여 햄릿 인용문을 토큰화한 후, 다음 코드를 사용하여 토큰화된 텍스트를 Snowball 어간 추출기에 전달할 수 있습니다.

from nltk.stem.snowball import SnowballStemmer from nltk.tokenize import word_tokenize stemmer = SnowballStemmer("english", True) text = "There is nothing either good or bad but thinking makes it so." words = word_tokenize(text) stemmed_words = [stemmer.stem(word) for word in words] print("원본:", text) print("토큰화:", words) print("어간 추출:", stemmed_words)

다음과 같이 코드가 출력됩니다.

원본: There is nothing either good or bad but thinking makes it so. 토큰화: ['There', 'is', 'nothing', 'either', 'good', 'or', 'bad', 'but', 'thinking', 'makes', 'it', 'so', '.'] 어간 추출: ['there', 'is', 'noth', 'either', 'good', 'or', 'bad', 'but', 'think', 'make', 'it', 'so', '.']

Snowball과 Porter 어간 추출기 알고리즘은 다른 어간 추출기보다 접미사를 더 수학적으로 제거하는 방법을 가지고 있습니다. 간단히 말해, 어간 추출기는 토큰의 모음과 자음 그룹 수에 따라 제거할 접미사 문자열을 지정하는 규칙 목록에 대해 모든 단어 토큰을 실행합니다.5 물론 영어는 절대적인 어휘 규칙이 아닌 일반적인 어휘 규칙을 따르기 때문에 어간 추출 알고리즘의 체계적 기준은 noth과 같은 단어 오류를 반환할 수 있습니다.

어간 추출기는 현재 진행형을 나타내는 일반적인 어미인 -ing를 제거합니다. 그러나 햄릿 인용문에서 -ing을 제거하면 어간 noth가 잘못 생성됩니다. 이렇게 하면 이후 언어 분석에서 nothing을 anything 및 something과 같은 유사한 명사와 연관시키지 못하게 됩니다. 또한 어간 추출기는 불규칙 동사 is를 변경하지 않고 그대로 둡니다. Snowball 어간 추출기도 마찬가지로 was, are와 같은 to be의 다른 활용형을 어간 추출이 되지 않은 상태로 남겨둡니다. 이로 인해 모델이 주어진 동사의 불규칙 활용형을 제대로 연결하지 못할 수 있습니다.