ステミング・アルゴリズムは大きく異なりますが、いくつかの一般的な動作モードを共有しています。ステマーは、事前定義された一般的な接尾辞のリストに対して入力単語トークンを処理することで、単語の接尾辞を除去します。その後、ステマーは、見つかった接尾辞文字列を、接尾辞に関連するルールや条件に違反しない限り、単語から削除します。一部のステマー(たとえば、Lovinsステマー)は、結果として得られる語幹を、不正な語幹を修正するための追加のルール・セットに通します。

最も広く使用されているアルゴリズムはPorterステミング・アルゴリズムであり、その更新版であるSnowballステマーです。ステミングをよりよく理解するために、シェイクスピアの『ハムレット』から「There is nothing either good or bad but thinking makes it so.(良いことも悪いこともない。ただ考えることでそうなるのだ。)」という一節をSnowballステマーで処理できます。

Pythonの自然言語ツールキット(NLTK)には、SnowballとPorterのステマーの組み込み関数が含まれています。NLTKを使用して『ハムレット』の引用をトークン化した後、次のコードを使用して、トークン化されたテキストをSnowballステマーに渡すことができます。

from nltk.stem.snowball import SnowballStemmer from nltk.tokenize import word_tokenize stemmer = SnowballStemmer("english", True) text = "There is nothing either good or bad but thinking makes it so." words = word_tokenize(text) stemmed_words = [stemmer.stem(word) for word in words] print("Original:", text) print("Tokenized:", words) print("Stemmed:", stemmed_words)

コードの出力は次のとおりです。

原文: There is nothing either good or bad but thinking makes it so. トークン化: ['There', 'is', 'nothing', 'either', 'good', 'or', 'bad', 'but', 'thinking', 'makes', 'it', 'so', '.'] ステミング: ['there', 'is', 'noth', 'either', 'good', 'or', 'bad', 'but', 'think', 'make', 'it', 'so', '.']

SnowballおよびPorterステミング・アルゴリズムは、他のステマーよりも接尾辞を除去するためのより数学的な方法を持っています。要するに、ステマーは、トークン内の母音と子音のグループ数に応じて削除する接尾辞文字列を指定するルールのリストに対して、すべての単語トークンを処理します。5もちろん、英語は一般的な語彙規則には従いますが、絶対的な規則ではないため、ステミング・アルゴリズムの体系的な基準は、nothのようなエラーを返します。

ステマーは、現在進行形を表す一般的な語尾である-ingを削除します。しかし、『ハムレット』の引用では、-ingを削除すると誤って語幹nothが生成されます。これにより、その後の言語分析でnothingをanythingやsomethingなどの類似の名詞と関連付けることが妨げられる可能性があります。さらに、ステマーは不規則動詞isを変更せずに残します。Snowballステマーも同様に、wasやareなどのto beの他の活用形をステム化せずに残します。これにより、モデルが特定の動詞の不規則な活用を適切に関連付けることができなくなる可能性があります。