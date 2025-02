어간 추출 알고리즘 연산 간의 차이점을 살펴보기 위해 셰익스피어의 한여름 밤의 꿈에 나오는 'Love looks not with the eyes but with the mind, and therefore is winged Cupid painted blind'를 처리해보겠습니다. 어간을 추출하기 전에 원시 텍스트 데이터를 토큰화해야 합니다. Python 자연어 툴킷에서 기본 제공되는 토큰화 도구(NLTK)는 인용된 텍스트를 다음과 같이 출력합니다.

토큰화: ['Love', 'looks', 'not', 'with', 'the', 'eyes', 'but', 'with', 'the', 'mind', ',', 'and', 'therefore', 'is', 'winged', 'Cupid', 'painted', 'blind', '.']

토큰화된 아웃풋을 여러 어간 추출기를 통해 실행하여 어간 추출 알고리즘이 어떻게 다른지 관찰할 수 있습니다.