Veröffentlicht: 22. April 2024
Mitwirkende: Jacob Murel Ph.D., Eda kavlakoglu
Die Latent Dirichlet Allocation ist eine Technik zur Themenmodellierung, um die zentralen Themen und ihre Verteilungen über eine Reihe von Dokumenten zu ermitteln.
Die Latent Dirichlet Allocation (LDA) – nicht zu verwechseln mit der linearen Diskriminanzanalyse beim maschinellen Lernen – ist ein Bayes'scher Ansatz zur Themenmodellierung. Einfach ausgedrückt, ist LDA eine bedingte, probabilistische Form der Themenmodellierung.
Die Themenmodellierung ist eine Technik zur Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), die unüberwachtes Lernen auf große Textdatensätze anwendet, um eine Zusammenfassung von Begriffen aus diesen Dokumenten zu erstellen. Diese Begriffe sollen den gesamten primären Themensatz der Sammlung darstellen. Auf diese Weise zielen Themenmodelle darauf ab, die latenten Themen einer Sammlung von Dokumenten zu ermitteln.1
Benutzer können mit dem Natural Language Toolkit (NLTK) (Link befindet sich außerhalb von ibm.com) von scikit-learn (oder sklearn) und gensim (Link befindet sich außerhalb von ibm.com) in Python problemlos LDA-Themenmodelle erzeugen. Die Pakete topicmodels (Link befindet sich außerhalb von ibm.com) und lda (Link befindet sich außerhalb von ibm.com) in R enthalten ebenfalls Funktionen zur Erstellung von LDA-Themenmodellen.
Erfahren Sie mehr über die Hindernisse bei der Einführung von KI, insbesondere über das Fehlen von Lösungen für KI-Governance und -Risikomanagement.
Registrieren Sie sich, um den Leitfaden zu Foundation Models zu lesen
LDA ist ein Wahrscheinlichkeitsmodell. Das bedeutet, dass der LDA-Algorithmus Themen generiert und Wörter und Dokumente anhand von Wahrscheinlichkeitsverteilungen in diese verschiedenen Themen einordnet. Aber warum ist dies eine geeignete Methode, um versteckte thematische Strukturen in Textdaten zu ermitteln? Im Wesentlichen geht LDA davon aus, dass die Dokumente durch eine zufällige Auswahl von Themen vor dem Dokument generiert wurden, und versucht, diese Auswahl rückgängig zu machen.
Der von LDA vorgestellte generative Textprozess beginnt mit dem Dokument vorgelagerten Themen. Jedes Thema ist ein festes Vokabular von Wörtern, bei dem jedes Wort eine Wahrscheinlichkeit hat, dass es zu diesem Thema gehört. Hierbei ist zu beachten, dass den Wörtern Wahrscheinlichkeiten und keine diskrete Kategorie zugewiesen werden, um einer möglichen Bedeutungsvielfalt und Verwendung Rechnung zu tragen. Um dann ein Textdokument zu erstellen, erzeugt die Maschine nach dem Zufallsprinzip eine Verteilung über Themen – zum Beispiel fünfundachtzig Prozent Politik, zehn Prozent Finanzen, fünf Prozent Geschichte. Für jedes Wort in diesem Dokument wählt die Maschine zufällig eines der gewählten Themen aus und gibt zufällig ein Wort aus diesem Thema aus. Beachten Sie, dass LDA selbst keine Dokumente auf diese Weise generiert. Vielmehr ist dies der Prozess, von dem LDA annimmt, dass Dokumente generiert werden. LDA selbst versucht, diesen Prozess umzukehren, um die übergreifenden und verborgenen Themen aufzudecken, die sich durch einen Dokumentenbestand ziehen.
Diese Abbildung veranschaulicht den angenommenen Textgenerierungsprozess, der LDA zugrunde liegt:
Am unteren Rand dieses Bildes befindet sich eine zufällige Auswahl von Themen, die aus einer Wortverteilung bestehen. Diese Themen gibt es für jedes Dokument in der Sammlung. Um ein bestimmtes Dokument zu erstellen (in diesem Beispiel Othello von Shakespeare), generiert die Maschine eine Verteilung von Themen, die in der Grafik ganz rechts dargestellt ist. Diese Verteilung besteht aus den Themen (und dem jeweiligen Anteil), aus denen das Dokument bestehen wird. Für jedes Wort im Dokument wählt die Maschine nach dem Zufallsprinzip eines der ausgewählten Themen aus (die Spalte mit den farbigen Punkten), aus denen sie wiederum nach dem Zufallsprinzip ein Wort auswählt (die hervorgehobenen Begriffe).2 Beachten Sie, dass diese Visualisierung nur ein anschauliches Beispiel ist und nicht das Ergebnis einer tatsächlichen Themenmodellierung oder Texterstellung. Wie bereits erwähnt, geht LDA jedoch davon aus, dass jedes Dokument durch diesen allgemeinen generativen Prozess erzeugt wurde, den LDA versucht, rückgängig zu machen.
Ähnlich wie bei anderen Ansätzen zur Themenmodellierung, z. B. der latenten semantischen Analyse (LSA), werden bei der LDA die Dokumente in den Korpora als Wortsammlungen betrachtet. Das bedeutet, dass LDA die Wortreihenfolge und den Kontext ignoriert. Stattdessen konzentriert sie sich darauf, wie oft Wörter in jedem einzelnen Dokument vorkommen und zusammen vorkommen.3 Die Worthäufigkeit und das gemeinsame Vorkommen werden in der Dokument-Term-Matrix modelliert. Hier stellen die Dokumente Zeilen und die einzelnen Wörter Spalten dar oder umgekehrt. Der Wert jeder Zelle gibt die Häufigkeit an, mit der ein bestimmtes Wort in jedem Dokument vorkommt.4
Anhand der Dokument-Term-Matrix erzeugt der LDA-Algorithmus Themenverteilungen (d. h. Listen von Schlagwörtern mit entsprechenden Wahrscheinlichkeiten) entsprechend der Worthäufigkeit und des gemeinsamen Vorkommens. Indem er die Häufigkeit des gemeinsamen Auftretens verfolgt, geht LDA davon aus, dass Wörter, die zusammen vorkommen, wahrscheinlich zu ähnlichen Themen gehören. Der Algorithmus ordnet dann die Verteilungen für die Dokument-Themen auf der Grundlage der Wortcluster zu, die in dem jeweiligen Dokument vorkommen.5
Nehmen wir zum Beispiel an, wir erstellen ein LDA-Modell für eine Sammlung von Nachrichtenartikeln, das den folgenden Teiloutput hat
Hier haben wir zwei Themen, die wahrscheinlich als Einwanderung (Thema 1) und Astronomie (Thema 2) beschrieben werden können. Die Punktzahlen für jedes Wort sind die Wahrscheinlichkeit, dass dieses Schlagwort in dem jeweiligen Thema vorkommt. Die Wahrscheinlichkeiten, die jedem Dokument zugeordnet sind, sind die jeweiligen Wahrscheinlichkeiten des Dokuments, zu einer Mischung von Themen zu gehören, wenn man die Verteilung und das gemeinsame Auftreten von Wörtern aus jedem Thema in diesem Dokument berücksichtigt. In der ersten Zeile der Tabelle wird beispielsweise die „Grenze“ unter Thema 1 mit einer Wahrscheinlichkeit von 40 % und „Weltraum“ in Thema 2 mit einer Wahrscheinlichkeit von 60 % aufgeführt. Diese Prozentsätze geben die Wahrscheinlichkeit an, mit der die jeweiligen Begriffe in diesem Thema im gesamten Korpus vorkommen. Die erste Dokumentzeile lautet Dokument 1: Thema 1: .95, Thema 2: .05. Das bedeutet, dass das Modell auf der Grundlage des Vorkommens von Wörtern in Dokument 1 davon ausgeht, dass Dokument 1 zu 95 % aus Thema 1 und zu 5 % aus Thema 2 stammt. Mit anderen Worten: Unser hypothetisches LDA-Modell geht davon aus, dass dies die Themen und Anteile dieser Themen sind, die zur Erstellung des Modells verwendet werden.
Natürlich bereiten insbesondere polyseme Wörter Probleme für solche diskreten Kategorisierungen. So kann sich z. B. in der englischsprachigen Welt der Begriff „Alien“ auf einen menschlichen Einwanderer oder ein außerirdisches Wesen beziehen. Wie bestimmt der LDA-Algorithmus in solchen Fällen, zu welchem Thema das Wort (und damit auch das Dokument) gehört?
Bei der Zuordnung von Themen zu Wörtern verwendet der LDA-Algorithmus das sogenannte Gibbs-Sampling. Die Formel für das Gibbs-Sampling lautet:
Um die genauen Operationen und Hyperparameter dieser Gleichung zu verstehen, sind Grundkenntnisse in Statistik und Markow-Chain-Monte-Carlo-Verfahren (kurz MCMC-Verfahren) erforderlich (letztere werden häufig beim bestärkenden Lernen eingesetzt). Dennoch können wir die Hauptkomponenten der Gleichung zusammenfassen:
Es sollte beachtet werden, dass das Gibbs-Sampling ein iterativer Prozess ist. Das heißt, ein Wort wird nicht einmal gesampelt, einem Thema zugeordnet und dann verworfen. Vielmehr durchläuft das Gibbs-Sampling für jedes Wort mehrere Iterationen, bei denen die Wahrscheinlichkeiten für ein Thema und ein Wort im Lichte der jeweils anderen aktualisiert werden.6
Das Unterscheidungsmerkmal von LDA ist die probabilistische Verteilung jedes Dokuments über eine gemeinsame Gruppe von Themen. Wie bei anderen Ansätzen zur Themenmodellierung sind diese Themen und ihre Verteilung in den einzelnen Dokumenten nicht bekannt. Die Themenmodellierung ist unüberwacht; es gibt keine manuell markierten Daten, die die Analyse steuern. Durch die Aufdeckung verborgener thematischer Strukturen werden mit LDA schließlich die Dokumente einer Sammlung kommentiert. Diese Annotationen (d. h. die aufgedeckten Themen) können zur Klassifizierung von Texten verwendet werden. Auf diese Weise unterstützt LDA Information Retrieval Systeme, indem es die Annotation und Organisation großer Dokumentensammlungen automatisiert.7
Wie bei vielen Textmining-Techniken im Bereich Data Science verbessert die Vorverarbeitung von Text die Ergebnisse des LDA-Modells erheblich. Durch das Entfernen von Stoppwörtern werden häufige, semantisch irrelevante Wörter entfernt. Das Stemming oder die Lemmatisierung hilft bei der Reduzierung morphologischer Varianten auf die Grundformen, wodurch Variationen eines Wortes zusammengefasst werden, die eine Maschine andernfalls trennen würde, z. B. Tanz, Tanzen, Tänzerin usw.
Da LDA-Modelle probabilistisch und nicht deterministisch sind, kann die Modelloptimierung ein schwieriger Prozess sein. Es gibt weder eine bestimmte Anzahl von Themen, die zu den besten Ergebnissen führt, noch scheint es ein Leitprinzip zu geben, wie z. B. eine bestimmte Anzahl von Themen, die für eine bestimmte Anzahl von Dokumenten geeignet sind. Die Feinabstimmung der Modellparameter, um interpretierbare und kohärente Themen zu erzeugen, ist in der Tat mit einer Menge Versuch und Irrtum verbunden.
Welche Tools oder Metriken stehen zur Verfügung, um Benutzern bei der Feinabstimmung eines LDA-Modells behilflich zu sein? Für diejenigen, die neu im Bereich der Themenmodellierung sind, kann die Erkenntnis frustrierend sein, dass es in der Literatur keine einzige oder auch nur eine Sammlung von Leistungsmetriken gibt.
Qualitativ. Ob Sie es glauben oder nicht: Qualitative Auswertungen sind keine Seltenheit, insbesondere bei realen Anwendungen. Dabei werden oft die fünf oder zehn wichtigsten Schlagwörter für jedes Thema untersucht. Diese werden dann verwendet, um die Themen danach zu bewerten, wie interpretierbar die Themen für menschliche Benutzer sind.8 Diese Art der „Sichtprüfung“ erfordert ein beträchtliches Maß an Fachwissen und Vertrautheit mit den betreffenden Dokumenten.9
Kohärenz. Die Themenkohärenz ist eine beliebte quantitative Methode zur Bewertung von generierten Themen. Ein Themenkohärenz-Score misst, wie oft die wahrscheinlichsten Wörter eines bestimmten Themas in denselben Dokumenten im gesamten Korpus vorkommen. Genauer gesagt wird die Häufigkeit des gemeinsamen Auftretens jedes Wortpaares der n wichtigsten Wörter eines Themas im Vergleich zur Häufigkeit jedes einzelnen Wortes im gesamten Korpus berechnet. Damit soll quantifiziert werden, wie kohärent ein bestimmtes Thema ist. Der Gesamtkohärenzwert eines Modells ergibt sich aus dem Durchschnitt der Kohärenzwerte für jedes einzelne Thema. Dieser Gesamtwert gibt also die durchschnittliche Themenkohärenz innerhalb eines bestimmten Modells an. Wie der Name schon sagt, bewertet die Kohärenz die Modelle ausschließlich danach, wie kohärent ihre Themen sind. Die Themen müssen jedoch auch einen gewissen Grad an Exklusivität aufweisen, für den es derzeit kein quantitatives Maß gibt.10
Neuere Forschungen zeigen, dass quantitative Metriken, wie z. B. der Kohärenzwert, für die Bewertung von Themenmodellen unzuverlässig sind. Dies liegt zum Teil an der Mehrdeutigkeit des erklärten Evaluierungsziels der Interpretierbarkeit. Was macht ein Modell und seine Ergebnisse interpretierbar?11 Außerdem lassen sich automatisierte Metriken, die für ältere Systeme entwickelt wurden, möglicherweise nicht gut auf neuere Systeme übertragen. Dieses Problem wird durch die mangelnde Transparenz vieler veröffentlichter Experimente erschwert, die eine Verallgemeinerung der Evaluierungsmethoden auf andere Datensätze oder Domänen verhindern.12 Die Forschung hat sich in jüngster Zeit Anwendungen der künstlichen Intelligenz zugewandt, insbesondere großen Sprachmodellen (LLMs), um LDA-Modelle für ein bestimmtes Forschungsziel zu konzipieren und zu evaluieren.13 Dies zeigt zwar vielversprechende Ergebnisse, erfordert jedoch weitere Forschung.
Themenmodelle sind eine unüberwachte NLP-Methode zur Zusammenfassung von Textdaten durch Wortgruppen. Sie helfen bei der Klassifizierung von Texten und beim Abrufen von Informationen.
Trainieren Sie ein LDA-Themenmodell mit dem NLTK von Python und Gensim und optimieren Sie es.
In diesem IBM Community-Artikel erfahren Sie mehr über die Themenmodellierung und ihre Funktionsweise.
1 Daniel Jurafsky und James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3. Edition, 2023,https://web.stanford.edu/~jurafsky/slp3/(Link befindet sich außerhalb von ibm.com). Jay Alammar und Maarten Grootendorst, Hands-On Large Language Models, O'Reilly, 2024.
2 David Blei, „Probabilistic Topic Models“, Communications of the ACM, Bd. 55, No. 4, 2012, S. 77-84. Zhiyuan Chen und Bing Liu, „Topic Models for NLP Applications“, Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
3 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.
4 Cole Howard, Hobson Lane und Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Practical Natural Language Processing, O'Reilly, 2020.
5 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Practical Natural Language Processing, O’Reilly, 2020. David Blei, Andrew Ng, and Michael Jordan, „Lantent Dirichlet Allocation“, Journal of Machine Learning Research, Vol. 3, 2003, S. 993-1022.
6 Zhiyuan Chen und Bing Liu, „Topic Models for NLP Applications“, Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
7 David Blei, „Probabilistische Themenmodelle“, Mitteilungen der ACM, Bd. 55, Nr. 4, 2012, S. 77-84.
8 Chandler Camille May, „Topic Modeling in Theory and Practice“, Dissertation, John Hopkins University, 2022.
9 Matthew Gillings und Andrew Hardie, „The Interpretation of Topic Models for Scholarly Analysis: An Evaluation and Critique of Current Practice“, Digital Scholarship in the Humanities, Bd. 38, Nr. 2, 2023, S. 530-543,https://academic.oup.com/dsh/article-abstract/38/2/530/6957052(Link befindet sich außerhalb von ibm.com).
10 Chandler Camille May, „Topic Modeling in Theory and Practice“, Dissertation, John Hopkins University, 2022.https://aclanthology.org/D11-1024/ (Link befindet sich außerhalb von ibm.com).
11 Zachary Lipton, „The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery“, Queue, Bd. 16, Nr. 3, S. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 (Link befindet sich außerhalb von ibm.com). Caitlin Doogan und Wray Buntine, „Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures“, Protokolle der Jahreskonferenz 2021 der nordamerikanischen Sektion der Association for Computational Linguistics: Human Language Technologies, 2021, S. 3824-3848, https://aclanthology.org/2021.naacl-main.300 (Link befindet sich außerhalb von ibm.com).
12 Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, Philip Resnik, „Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence“, Advances in Neural Information Processing Systems, 2021, S. 2018-2033, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html (Link befindet sich außerhalb von ibm.com). Caitlin Doogan und Wray Buntine, „Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures“, Protokolle der Jahreskonferenz 2021 der nordamerikanischen Sektion der Association for Computational Linguistics: Human Language Technologies, 2021, S. 3824-3848, https://aclanthology.org/2021.naacl-main.300 (Link befindet sich außerhalb von ibm.com).
13 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan und Elliott Ash, „Revisiting Automated Topic Model Evaluation with Large Language Models“, Protokolle der 2023 stattgefundenen Conference on Empirical Methods in Natural Language Processing, 2023, S. 9348-9357, https://aclanthology.org/2023.emnlp-main.581/ (Link befindet sich außerhalb von ibm.com).