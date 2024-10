O stemmer de Lovins é o primeiro algoritmo de stemming publicado. Essencialmente, ele funciona como uma função de localizar e substituir altamente parametrizada. Ele compara cada token de entrada com uma lista de sufixos comuns, com cada sufixo condicionado por uma de 29 regras. Se um dos sufixos da lista for encontrado em um token e a remoção do sufixo não violar nenhuma das condições do sufixo associado, o algoritmo remove esse sufixo do token. O token com stemming é então executado por meio de outro conjunto de regras, corrigindo malformações comuns em raízes com stemming, como letras duplas (por exemplo, hopping se torna hopp e depois hop).6

Este código usa a biblioteca de stemming do Python 7 para aplicar stemming à citação de Shakespeare tokenizada::

from stemming.lovins import stem from nltk.tokenize import word_tokenize text = "Love looks not with the eyes but with the mind, and therefore is winged Cupid painted blind." words = word_tokenize(text) stemmed_words = [stem(word) for word in words]

O código produz:

Stemmed: ['Lov', 'look', 'not', 'with', 'th', 'ey', 'but', 'with', 'th', 'mind', ',', 'and', 'therefor', 'is', 'wing', 'Cupid', 'paint', 'blind', '.']

O resultado mostra como o stemmer de Lovins transforma corretamente conjugações e tempos em formas base (por exemplo, painted se torna paint), ao mesmo tempo que elimina a pluralização (por exemplo, eyes se torna eye). Mas o algoritmo de stemming de Lovins também retorna várias raízes malformadas, como lov, th e ey. Essas palavras raiz malformadas resultam da remoção de muitos caracteres. Como costuma acontecer no aprendizado de máquina, esses erros ajudam a revelar processos subjacentes.

Quando comparado à lista de sufixos do stemmer de Lovins, o sufixo mais longo que se encaixa tanto em love quanto em the é o caractere único -e. A única condição anexada a este sufixo é "Sem restrições no radical", o que significa que o stemmer pode remover -e independentemente do comprimento do radical restante. Infelizmente, nenhuma das raízes love ou thInfelizmente, nenhum dos radicais "lov" ou "th" contém qualquer uma das características que o algoritmo de Lovins usa para identificar palavras malformadas, como letras duplas ou plurais irregulares.8

Quando tais radicais malformados escapam do algoritmo, o stemmer de Lovins pode reduzir palavras semanticamente não relacionadas ao mesmo radical — por exemplo, the, these e this todos se reduzem a th. Claro, essas três palavras são todos demonstrativos e, portanto, compartilham uma função gramatical. Mas outros demonstrativos, como that e those, não se reduzem a th. Isso significa que os radicais gerados por Lovins não representam adequadamente os grupos de palavras.