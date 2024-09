Hier haben wir zwei Themen, die wahrscheinlich als Einwanderung (Thema 1) und Astronomie (Thema 2) beschrieben werden können. Die Punktzahlen für jedes Wort sind die Wahrscheinlichkeit, dass dieses Schlagwort in dem jeweiligen Thema vorkommt. Die Wahrscheinlichkeiten, die jedem Dokument zugeordnet sind, sind die jeweiligen Wahrscheinlichkeiten des Dokuments, zu einer Mischung von Themen zu gehören, wenn man die Verteilung und das gemeinsame Auftreten von Wörtern aus jedem Thema in diesem Dokument berücksichtigt. In der ersten Zeile der Tabelle wird beispielsweise die „Grenze“ unter Thema 1 mit einer Wahrscheinlichkeit von 40 % und „Weltraum“ in Thema 2 mit einer Wahrscheinlichkeit von 60 % aufgeführt. Diese Prozentsätze geben die Wahrscheinlichkeit an, mit der die jeweiligen Begriffe in diesem Thema im gesamten Korpus vorkommen. Die erste Dokumentzeile lautet Dokument 1: Thema 1: .95, Thema 2: .05. Das bedeutet, dass das Modell auf der Grundlage des Vorkommens von Wörtern in Dokument 1 davon ausgeht, dass Dokument 1 zu 95 % aus Thema 1 und zu 5 % aus Thema 2 stammt. Mit anderen Worten: Unser hypothetisches LDA-Modell geht davon aus, dass dies die Themen und Anteile dieser Themen sind, die zur Erstellung des Modells verwendet werden.

Natürlich bereiten insbesondere polyseme Wörter Probleme für solche diskreten Kategorisierungen. So kann sich z. B. in der englischsprachigen Welt der Begriff „Alien“ auf einen menschlichen Einwanderer oder ein außerirdisches Wesen beziehen. Wie bestimmt der LDA-Algorithmus in solchen Fällen, zu welchem Thema das Wort (und damit auch das Dokument) gehört?