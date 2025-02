为了探讨词干提取算法运算之间的差异,我们可对莎士比亚《仲夏夜之梦》中的这句话进行处理:“爱情是不用眼睛而用心灵看着的,因此生着翅膀的丘匹德常被描成盲目。”(Love looks not with the eyes but with the mind, and therefore is winged Cupid painted blind.)在进行词干提取之前,用户必须对原始文本数据进行标记化。Python 自然语言工具包 (NLTK) 的内置标记器会将引用的文本输出为:

Tokenized: ['Love', 'looks', 'not', 'with', 'the', 'eyes', 'but', 'with', 'the', 'mind', ',', 'and', 'therefore', 'is', 'winged', 'Cupid', 'painted', 'blind', '.']

通过在多个词干提取器中运行标记化输出,我们可以观察到词干提取算法的不同之处。