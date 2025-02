Der Lovins-Stemmer ist der erste veröffentlichte Stemming-Algorithmus. Im Wesentlichen funktioniert es wie eine stark parametrisierte Such- und Ersetzungsfunktion. Es vergleicht jedes Eingabetoken mit einer Liste gängiger Suffixe, wobei jedes Suffix durch eine von 29 Regeln bedingt ist. Wenn eines der Suffixe der Liste in einem Token gefunden wird und das Entfernen des Suffixes keine der zugehörigen Suffixbedingungen verletzt, entfernt der Algorithmus dieses Suffix aus dem Token. Der gestemmte Token wird dann durch einen weiteren Regelsatz geführt, der häufige Fehlbildungen in gestemmten Wurzeln korrigiert, wie z. B. doppelte Buchstaben (z. B. wird aus hopping hopp und dann hop).6

Dieser Code verwendet die Python-Stemming-Bibliothek7, um das tokenisierte Shakespeare-Zitat zu stemmen:

from stemming.lovins import stem from nltk.tokenize import word_tokenize text = „Love looks not with the eyes but with the mind, and therefore is winged Cupid painted blind.“ words = word_tokenize(text) stemmed_words = [stem(word) for word in words]

Die Code-Ausgaben:

Nach dem Stemming: ['Lov', 'look', 'not', 'with', 'th', 'ey', 'but', 'with', 'th', 'mind', ',', 'and', 'therefor', 'is', 'wing', 'Cupid', 'paint', 'blind', '.']

Die Ausgabe zeigt, wie das Lovins-Stemming Konjugationen und Zeitformen korrekt in Grundformen umwandelt (z. B. wird aus painted paint), während die Pluralisierung eliminiert wird (z. B. wird eyes zu eye). Aber der Lovins-Stemming-Algorithmus gibt auch eine Reihe von schlecht geformten Stämmen zurück, wie z. B. lov, th und ey. Diese falsch gebildeten Wortstämme entstehen, wenn zu viele Zeichen entfernt werden. Wie so oft beim maschinellen Lernen helfen solche Fehler dabei, zugrunde liegende Prozesse aufzudecken.

Vergleicht man dies mit der Suffixliste von Lovins, so ist das einzelne Zeichen -e das längste Suffix, das sowohl zu love als auch zu the passt. Die einzige Bedingung, die an dieses Suffix geknüpft ist, lautet „Keine Einschränkungen beim Stemming“, was bedeutet, dass der Stemmer -e unabhängig von der Länge des verbleibenden Wortstamms entfernen kann. Leider enthält keiner der Stämme lov oder th eines der Merkmale, die der Lovins-Algorithmus verwendet, um falsch formatierte Wörter wie Doppelbuchstaben oder unregelmäßige Pluralformen zu identifizieren.8

Wenn solche falsch gebildeten Wortstämme dem Algorithmus entgehen, kann der Lovins-Stemmer semantisch nicht verwandte Wörter auf denselben Wortstamm reduzieren – zum Beispiel werden the, these und this alle auf th reduziert. Natürlich sind diese drei Wörter alles Demonstrativpronomen und haben daher eine gemeinsame grammatikalische Funktion. Aber andere Demonstrativpronomen wie that und those lassen sich nicht auf th reduzieren. Das bedeutet, dass die von Lovins generierten Stämme Wortgruppen nicht richtig darstellen.