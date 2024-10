Muchas fuentes describen el stemmer de Lancaster, también conocido como Paice stemmer, como el más agresivo de los stemmers del idioma inglés. El stemmer de Lancaster contiene una lista de más de 100 reglas que dictan qué cadenas de caracteres finales, si están presentes, reemplazar con otras cadenas, si las hubiera. El stemmer itera a través de cada palabra token, comprobándolo con todas las reglas. Si la cadena final del token coincide con la de una regla, el algoritmo ejecuta la operación descrita de la regla y luego ejecuta la nueva palabra transformada a través de todas las reglas nuevamente. El stemmer itera a través de todas las reglas hasta que un token determinado las pasa todas sin ser transformado.12

Aunque no está disponible en Python NLTK, el stemmer de Lancaster está disponible en la biblioteca de stemming:13

from stemming.paicehusk import stem from nltk.tokenize import word_tokenize text = "Love looks not with the eyes but with the mind, and therefore is winged Cupid painted blind". palabras = word_tokenize(text) stemmed_words = [stem(word) for palabra en palabras]

El código deriva el pasaje tokenizado de Shakespeare como:

Stemmed: ['Lov', 'look', 'not', 'with', 'the', 'ey', 'but', 'with', 'the', 'mind', ',', 'and', 'theref', '', 'wing', 'Cupid', 'paint', 'blind', '.']

Claramente, el enfoque iterativo del stemmer de Lancaster es el más agresivo de los stemmers, como se muestra con 'theref'. Primero, el stemmer de Lancaster tiene la regla "e1>". Esta regla elimina el carácter único-e sin reemplazo. Después de que el algoritmo elimina -e de 'then' , ejecuta el nuevo para cada regla. La palabra recién transformada se ajusta a la regla "ro2>". Esta regla elimina el sufijo de dos caracteres, o sin reemplazo. La raíz resultante no se ajusta a ninguna de las otras reglas del algoritmo y, por lo tanto, se devuelve como la base derivada. A diferencia de Lovins, el algoritmo de Lancaster no tiene manera de dar cuenta de las palabras mal formadas.