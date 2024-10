Obwohl sich probabilistische Klassifikatoren, die einen Bag-of-Words-Ansatz verwenden, als weitgehend effektiv erweisen, hat Bag of Words mehrere Nachteile.

Wort-Korrelation. Bag of Words gehen davon aus, dass Wörter in einem Dokument oder Korpus unabhängig voneinander sind. Die Wahl erscheint eher im gemeinsamen Kontext mit dem Präsidenten als mit dem Dichter. Bei der Messung der Häufigkeit einzelner Begriffe berücksichtigt der Wortschatz keine Korrelationen in der Verwendung zwischen Wörtern. Da das Bag-of-Words-Modell jedes Wort in einem Dokument als Merkmal extrahiert, wobei die Termhäufigkeit das Gewicht dieses Merkmals ist, können zwei oder mehr korrelierte Wörter theoretisch eine Multikollinearität in statistischen Klassifikatoren verursachen, die dieses Modell verwenden. Dennoch hat sich gezeigt, dass die vereinfachende Annahme von Naïve Bayes trotz dieser potenziellen Mängel robuste Modelle hervorbringt.5

Zusammengesetzte Wörter. Die Wortkorrelation erstreckt sich auf Bag-of-Words-Repräsentationen von zusammengesetzten Phrasen, in denen zwei oder mehr Wörter als eine semantische Einheit fungieren. Ein einfaches Bag-of-Words-Modell kann beispielsweise Herr Darcy als zwei einzigartige und nicht verwandte Wörter darstellen, obwohl sie zusammengehören. Eine solche Bag-of-Words-Darstellung spiegelt nicht die semantische und syntaktische Natur von Mehrwortkonzepten wider.

Mehrdeutige Worte. Viele Wörter haben mehrere, deutlich unterschiedliche Bedeutungen. So kann das englische Bat beispielsweise ein Sportinstrument oder ein Tier bedeuten, und diese Bedeutungen treten in der Regel in sehr unterschiedlichen Zusammenhängen auf. In ähnlicher Weise können Wörter ihre Bedeutung ändern, je nachdem, wo die Betonung in der gesprochenen Sprache liegt, z. B. CON-tent im Gegensatz zu con-TENT. Da Bag of Words bei der Modellierung von Wörtern den Kontext und die Bedeutung nicht berücksichtigt, fasst es all diese unterschiedlichen Bedeutungen unter einem Wort zusammen und lässt so potenziell wichtige Informationen über das Thema eines Textes (und damit eine mögliche Klassifizierung) aus.

Sparsity. In einem Bag-of-Words-Modell ist jedes Wort ein Funktion oder eine Dimension des Modells und jedes sogenannte Dokument ist ein Vektor. Da ein Dokument nicht jedes Wort aus dem Vokabular des generierten Modells verwendet, können viele der Funktionswerte für einen gegebenen Vektor Null sein. Wenn die Mehrheit der Werte für Vektoren Null ist, ist das Modell dünn besetzt (wenn Vektoren als Matrix dargestellt werden, spricht man von einer Sparse Matrix). Die spärliche Datengrundlage führt zu einer hohen Dimensionalität, was wiederum zu einer Überanpassung an die Trainingsdaten führt.6