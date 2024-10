尽管词干提取算法确实有一些通用的运算模式,但它们之间的差异很大。词干提取器通过对预定义的常见后缀列表运行输入单词标记来消除单词后缀。然后,如果单词不违反与该后缀相关的任何规则或条件,词干提取器就会从单词中删除所有找到的后缀字符串。某些词干提取器(例如,Lovins 词干提取器)通过一组额外的规则运行生成的词干位,以纠正格式错误的词根。

其中使用最广泛的算法是 Porter 词干提取算法,以及其更新版本 Snowball 词干提取器。为了更好地理解词干提取,我们可以通过 Snowball 词干提取器运行 Shakespeare 的《哈姆雷特》中的以下段落:“There is nothing either good or bad but thinking makes it so.”

Python 自然语言工具包 (NLTK) 包含适用于 Snowball 和 Porter 词干提取器的内置函数。在使用 NLTK 对《哈姆雷特》引文进行标记化处理后,我们可以使用以下代码将标记化文本传递给 Snowball 词干提取器:

from nltk.stem.snowball import SnowballStemmer from nltk.tokenize import word_tokenize stemmer = SnowballStemmer("english", True) text = "There is nothing either good or bad but thinking makes it so." words = word_tokenize(text) stemmed_words = [stemmer.stem(word) for word in words] print("Original:", text) print("Tokenized:", words) print("Stemmed:", stemmed_words)

代码输出:

Original: There is nothing either good or bad but thinking makes it so. Tokenized: ['There', 'is', 'nothing', 'either', 'good', 'or', 'bad', 'but', 'thinking', 'makes', 'it', 'so', '.'] Stemmed: ['there', 'is', 'noth', 'either', 'good', 'or', 'bad', 'but', 'think', 'make', 'it', 'so', '.']

与其他词干提取器相比,Snowball 和 Porter 词干提取器算法采用更加数学化的方法来消除后缀。可以说,词干提取器根据规则列表运行每个单词标记,这些规则根据标记中的元音和辅音组的数量指定要删除的后缀字符串。5当然,由于英语遵循一般而非绝对的词法规则,词干提取算法的系统标准会返回错误,如 noth。

词干提取器中删除了 -ing,这是表示现在进行时的常用词尾。然而,在《哈姆雷特》的引用中,删除 -ing 会错误地产生词干 noth。这可能会阻后续的语言分析将 nothing 与相似的名词相关联,例如 anything 和 something。此外,词干提取器还保留了不规则动词 is。Snowball 词干提取器同样保留了 to be 的其他变位,例如 was 和 are,未进行词干提取。这可能会阻止模型正确关联给定动词的不规则变位。