Rispetto allo stemmer di Lovins, l'algoritmo di stemming di Porter utilizza un algoritmo di stemming più matematico. Essenzialmente, questo stemmer classifica ogni carattere in un determinato token come consonante (c) o vocale (v), raggruppando le consonanti successive come C e le vocali successive come V. Lo stemmer rappresenta quindi ogni token di parola come una combinazione di gruppi di consonanti e vocali. Una volta enumerato in questo modo, lo stemmer esegue ogni token di parola attraverso un elenco di regole che specificano i caratteri finali da rimuovere in base al numero di gruppi di vocali-consonanti in un token9. Poiché l'inglese stesso segue regole lessicali generali ma non assolute, il criterio sistematico dell'algoritmo di stemming di Porter per determinare la rimozione dei suffissi può restituire errori.

Python NLTK contiene una funzione stemmer Porter integrata. Questo codice utilizza l'algoritmo di derivazione di Porter sulla frase tokenizzata di Shakespeare:

from nltk.stem import PorterStemmer from nltk.tokenize import word_tokenize porter_stemmer = PorterStemmer() text = "Love looks not with the eyes but with the mind, and therefore is winged Cupid painted blind." words = word_tokenize(text) stemmed_words = [porter_stemmer.stem(word) for word in words]

Questo codice restituisce:

Stemmed: ['love', 'look', 'not', 'with', 'the', 'eye', 'but', 'with', 'the', 'mind', ',', 'and', 'therefor', 'is', 'wing', 'cupid', 'paint', 'blind', '.']

Come nel caso di Lovins, Porter modifica correttamente le coniugazioni dei verbi e le pluralizzazioni dei sostantivi. Anche se non ci sono temi erronei come in Lovins (ad esempio, da love a lov), l'algoritmo di stemming di Porter rimuove tuttavia erroneamente -e dalla fine di therefore.

Secondo il metodo di raggruppamento consonante-vocale di Porter, therefore è rappresentato come CVCVCVCV, o C(VC)3V, con l'esponente che indica le ripetizioni dei gruppi consonante-vocale.