En general, la bibliografía define el stemming como el proceso de eliminar los afijos de las palabras para obtener cadenas de palabras stemmed, y la lematización como la empresa más amplia de reducir las variantes morfológicas a una forma base del diccionario.6 La distinción práctica entre el stemming y la lematización es que, mientras que el stemming simplemente elimina los sufijos comunes del final de los tokens de palabra, la lematización garantiza que la palabra de salida sea una forma normalizada existente de la palabra (por ejemplo, lema) que se puede encontrar en el diccionario.7

Dado que el objetivo de la lematización es obtener las formas base del diccionario, requiere un análisis morfológico más sólido que la separación de palabras. El etiquetado de partes del discurso (POS) es un paso crucial en la lematización. Básicamente, POS asigna cada etiqueta de palabra a su función sintáctica en la oración. El NLTK de Python proporciona una función para el algoritmo de lematización de Word Net, mediante el cual podemos lematizar el pasaje de Hamlet:

from nltk.stem import WordNetLemmatizer from nltk.corpus import wordnet from nltk import word_tokenize, pos_tag def get_wordnet_pos(tag): if tag.startswith('J'): return wordnet.ADJ elif tag.startswith('V'): return wordnet.VERB elif tag.startswith('N'): return wordnet.NOUN elif tag.startswith('R'): return wordnet.ADV else: return wordnet.NOUN def lemmatize_passage(text): words = word_tokenize(text) pos_tags = pos_tag(words) lemmatizer = WordNetLemmatizer() lemmatized_words = [lemmatizer.lemmatize(word, get_wordnet_pos(tag)) for word, tag in pos_tags] lemmatized_sentence = ' '.join(lemmatized_words) return lemmatized_sentence text = "There is nothing either good or bad but thinking makes it so." result = lemmatize_passage(text) print("Original:", text) print("Tokenized:", word_tokenize(text)) print("Lemmatized:", result)

El código devuelve:

Original: There is nothing either good or bad but thinking makes it so. Tokenized: ['There', 'is', 'nothing', 'either', 'good', 'or', 'bad', 'but', 'thinking', 'makes', 'it', 'so', '.'] Lemmatized: There be nothing either good or bad but think make it so.

El WordNetLemmatizer, al igual que el stemmer Snowball, reduce las conjugaciones verbales a formas básicas, por ejemplo, thinking en think, makes en make. Sin embargo, a diferencia del algoritmo de stemming de Snowball, el lematizador no identifica nothing como un sustantivo y deja su terminación -ing inalterada, mientras que cambia is a su forma base be. De este modo, el lematizador combina de forma más adecuada las formas verbales irregulares.