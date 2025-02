Als unüberwachte Lernmethode erfordern Themenmodelle keine benutzergenerierten Labels von Trainingsdaten, wie dies bei überwachten Textklassifizierungsaufgaben der Fall ist. Vielmehr generieren und annotieren Themenmodelle große Dokumentensammlungen mit thematischen Informationen in Form von Wortgruppen, die als Themen bezeichnet werden.3 Aber wie erzeugen Themenmodelle diese Wortgruppen?

Bei der Themenmodellierung wird jedes einzelne Dokument in einer Textsammlung grundsätzlich als Bag-of-Words-Modell behandelt. Das bedeutet, dass der Algorithmus zur Themenmodellierung die Wortreihenfolge und den Wortzusammenhang ignoriert und sich einfach darauf konzentriert, wie oft Wörter in jedem einzelnen Dokument vorkommen und wie oft sie gemeinsam vorkommen.4

Die meisten Ansätze zur Themenmodellierung beginnen mit der Erstellung einer Dokument-Begriff-Matrix. Diese Matrix modelliert den Textdatensatz mit Dokumenten als Zeilen und einzelnen Wörtern als Spalten oder umgekehrt. Die Werte in der Matrix geben die Häufigkeit an, mit der ein bestimmtes Wort in jedem Dokument vorkommt. Diese Matrix kann dann verwendet werden, um einen Vektorraum zu erzeugen, in dem n Wörter n Dimensionen entsprechen. Der Wert einer bestimmten Zeile gibt die Position des Dokuments im Vektorraum an. Dokumente, die Wörter in ähnlichen Gruppen und mit vergleichbarer Häufigkeit verwenden, liegen daher im Vektorraum näher beieinander. Von hier aus behandeln Themenmodelle die Nähe im Vektorraum als Dokumente, die ähnliche konzeptionelle Inhalte oder Themen teilen.5

Themenmodelle sind jedoch nicht gleichbedeutend mit einem „Bag of Words“. Während Letzteres lediglich die Anwesenheit von Wörtern in einer Sammlung von Dokumenten zählt, gruppieren Themenmodelle häufig gemeinsam auftretende Wörter in Themengruppen. Jedes Thema wird als Wahrscheinlichkeitsverteilung über ein Vokabular von Wörtern modelliert. Jedes Dokument in der Sammlung wird dann in Bezug auf diese Themen dargestellt.6 Auf diese Weise versuchen Themenmodelle im Wesentlichen, die Diskurse (d. h. Themen), die die betreffenden Dokumente hervorgebracht haben, zurückzuentwickeln.7