Welche Tools oder Metriken stehen zur Verfügung, um Benutzern bei der Feinabstimmung eines LDA-Modells behilflich zu sein? Für diejenigen, die neu im Bereich der Themenmodellierung sind, kann die Erkenntnis frustrierend sein, dass es in der Literatur keine einzige oder auch nur eine Sammlung von Leistungsmetriken gibt.
Qualitativ. Ob Sie es glauben oder nicht: Qualitative Auswertungen sind keine Seltenheit, insbesondere bei realen Anwendungen. Dabei werden oft die fünf oder zehn wichtigsten Schlagwörter für jedes Thema untersucht. Diese werden dann verwendet, um die Themen danach zu bewerten, wie interpretierbar die Themen für menschliche Benutzer sind.8 Diese Art der „Sichtprüfung“ erfordert ein beträchtliches Maß an Fachwissen und Vertrautheit mit den betreffenden Dokumenten.9
Kohärenz. Die Themenkohärenz ist eine beliebte quantitative Methode zur Bewertung von generierten Themen. Ein Themenkohärenz-Score misst, wie oft die wahrscheinlichsten Wörter eines bestimmten Themas in denselben Dokumenten im gesamten Korpus vorkommen. Genauer gesagt wird die Häufigkeit des gemeinsamen Auftretens jedes Wortpaares der n wichtigsten Wörter eines Themas im Vergleich zur Häufigkeit jedes einzelnen Wortes im gesamten Korpus berechnet. Damit soll quantifiziert werden, wie kohärent ein bestimmtes Thema ist. Der Gesamtkohärenzwert eines Modells ergibt sich aus dem Durchschnitt der Kohärenzwerte für jedes einzelne Thema. Dieser Gesamtwert gibt also die durchschnittliche Themenkohärenz innerhalb eines bestimmten Modells an. Wie der Name schon sagt, bewertet die Kohärenz die Modelle ausschließlich danach, wie kohärent ihre Themen sind. Die Themen müssen jedoch auch einen gewissen Grad an Exklusivität aufweisen, für den es derzeit kein quantitatives Maß gibt.10
Neuere Forschungen zeigen, dass quantitative Metriken, wie z. B. der Kohärenzwert, für die Bewertung von Themenmodellen unzuverlässig sind. Dies liegt zum Teil an der Mehrdeutigkeit des erklärten Evaluierungsziels der Interpretierbarkeit. Was macht ein Modell und seine Ergebnisse interpretierbar?11 Außerdem lassen sich automatisierte Metriken, die für ältere Systeme entwickelt wurden, möglicherweise nicht gut auf neuere Systeme übertragen. Dieses Problem wird durch die mangelnde Transparenz vieler veröffentlichter Experimente erschwert, die eine Verallgemeinerung der Evaluierungsmethoden auf andere Datensätze oder Domänen verhindern.12 Die Forschung hat sich in jüngster Zeit Anwendungen der künstlichen Intelligenz zugewandt, insbesondere großen Sprachmodellen (LLMs), um LDA-Modelle für ein bestimmtes Forschungsziel zu konzipieren und zu evaluieren.13 Dies zeigt zwar vielversprechende Ergebnisse, erfordert jedoch weitere Forschung.