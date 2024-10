In der Literatur wird Stemming im Allgemeinen als der Prozess des Entfernens von Affixen aus Wörtern definiert, um Wortketten mit Stamm zu erhalten, und Lemmatisierung als das größere Unterfangen der Reduzierung morphologischer Varianten auf eine Wörterbuchbasisform.6 Der praktische Unterschied zwischen Stemming und Lemmatisierung besteht darin, dass die Lemmatisierung sicherstellt, dass das Ausgabewort eine vorhandene normalisierte Form des Wortes (z. B. Lemma) ist, die im Wörterbuch zu finden ist, während das Stemming lediglich allgemeine Suffixe am Ende von Worttoken entfernt.7

Da die Lemmatisierung darauf abzielt, die Grundformen des Wörterbuchs auszugeben, erfordert sie eine robustere morphologische Analyse als das Stemming. Das Part-of-Speech-Tagging (POS) ist ein entscheidender Schritt bei der Lemmatisierung. POS weist im Wesentlichen jedes Wort-Tag zu, das seine syntaktische Funktion im Satz bezeichnet. Das Python NLTK liefert eine Funktion für den Word-Net-Lemmatisierungsalgorithmus, mit dem wir die Hamlet Passage lemmatisieren können:

from nltk.stem import WordNetLemmatizer from nltk.corpus import wordnet from nltk import word_tokenize, pos_tag def get_wordnet_pos(tag): if tag.startswith('J'): return wordnet.ADJ elif tag.startswith('V'): return wordnet.VERB elif tag.startswith('N'): return wordnet.NOUN elif tag.startswith('R'): return wordnet.ADV else: return wordnet.NOUN def lemmatize_passage(text): words = word_tokenize(text) pos_tags = pos_tag(words) lemmatizer = WordNetLemmatizer() lemmatized_words = [lemmatizer.lemmatize(word, get_wordnet_pos(tag)) for Word, tag in pos_tags] lemmatized_sentence = ' '.join(lemmatized_words) Return lemmatized_sentence text = "Es gibt nichts Gutes oder Schlechtes, aber das Denken macht es dazu." result = lemmatize_passage(text) Print("Original:", text) Print("Tokenized:", Word_tokenize(Text)) Print("Lemmatized:", Ergebnis)

Der Code gibt Folgendes zurück:

Original: Denn an sich ist nichts weder gut noch schlimm; das Denken macht es erst dazu. Tokenisiert: ['Es', 'ist', 'nichts', 'entweder', 'gut', 'oder', 'schlecht', 'aber', 'denken', 'macht', 'es', 'so', '.'] Lemmatisiert: Es gibt nichts, was weder gut noch schlecht ist, aber das Denken macht es so.

Der WordNetLemmatizer reduziert, ähnlich wie der Snowball-Stemmer, Verbkonjugationen auf Basisformen – zum Beispiel Denken zu denken, Machen zu machen. Im Gegensatz zum Snowball-Stemming-Algorithmus identifiziert der Lemmatizer jedoch nichts als Substantiv und lässt seine Endung -ing unverändert, während sie is weiter in seine Grundform be ändert. Auf diese Weise fügt der Lemmatizer unregelmäßige Verbformen besser zusammen.