Was ist die Latent Dirichlet Allocation

22. April 2024

Autoren

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Die Latent Dirichlet Allocation ist eine Technik zur Themenmodellierung, um die zentralen Themen und ihre Verteilungen über eine Reihe von Dokumenten zu ermitteln.

Die Latent Dirichlet Allocation (LDA) – nicht zu verwechseln mit der linearen Diskriminanzanalyse beim maschinellen Lernen – ist ein Bayes'scher Ansatz zur Themenmodellierung. Einfach ausgedrückt, ist LDA eine bedingte, probabilistische Form der Themenmodellierung.

Die Themenmodellierung ist eine Technik zur Verarbeitung natürlicher Sprache (NLP), die unüberwachtes Lernen auf große Text-Datensätze anwendet, um eine Zusammenfassung von Begriffen aus diesen Dokumenten zu erstellen. Diese Begriffe sollen den gesamten primären Themensatz der Sammlung darstellen. Auf diese Weise zielen Themenmodelle darauf ab, die latenten Themen einer Sammlung von Dokumenten zu ermitteln.1

Benutzer können mit dem Natural Language Toolkit (NLTK ) von scikit-learn (oder sklearn) und gensim  in Python problemlos LDA-Themenmodelle erstellen. Die Pakete topicmodels  und lda  in R enthalten ebenfalls Funktionen zur Erstellung von LDA-Themenmodellen.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Annahme der Textgenerierung

LDA ist ein Wahrscheinlichkeitsmodell. Das bedeutet, dass der LDA-Algorithmus Themen generiert und Wörter und Dokumente anhand von Wahrscheinlichkeitsverteilungen in diese verschiedenen Themen einordnet. Aber warum ist dies eine geeignete Methode, um versteckte thematische Strukturen in Textdaten zu ermitteln? Im Wesentlichen geht LDA davon aus, dass die Dokumente durch eine zufällige Auswahl von Themen vor dem Dokument generiert wurden, und versucht, diese Auswahl rückgängig zu machen.

Der von LDA vorgestellte generative Textprozess beginnt mit dem Dokument vorgelagerten Themen. Jedes Thema ist ein festes Vokabular von Wörtern, bei dem jedes Wort eine Wahrscheinlichkeit hat, dass es zu diesem Thema gehört. Hierbei ist zu beachten, dass den Wörtern Wahrscheinlichkeiten und keine diskrete Kategorie zugewiesen werden, um einer möglichen Bedeutungsvielfalt und Verwendung Rechnung zu tragen. Um dann ein Textdokument zu erstellen, erzeugt die Maschine nach dem Zufallsprinzip eine Verteilung über Themen – zum Beispiel fünfundachtzig Prozent Politik, zehn Prozent Finanzen, fünf Prozent Geschichte. Für jedes Wort in diesem Dokument wählt die Maschine zufällig eines der gewählten Themen aus und gibt zufällig ein Wort aus diesem Thema aus. Beachten Sie, dass LDA selbst keine Dokumente auf diese Weise generiert. Vielmehr ist dies der Prozess, von dem LDA annimmt, dass Dokumente generiert werden. LDA selbst versucht, diesen Prozess umzukehren, um die übergreifenden und verborgenen Themen aufzudecken, die sich durch einen Dokumentenbestand ziehen.

Diese Abbildung veranschaulicht den angenommenen Textgenerierungsprozess, der LDA zugrunde liegt:

Am unteren Rand dieses Bildes befindet sich eine zufällige Auswahl von Themen, die aus einer Wortverteilung bestehen. Diese Themen gibt es für jedes Dokument in der Sammlung. Um ein bestimmtes Dokument zu erstellen (in diesem Beispiel Othello von Shakespeare), generiert die Maschine eine Verteilung von Themen, die in der Grafik ganz rechts dargestellt ist. Diese Verteilung besteht aus den Themen (und dem jeweiligen Anteil), aus denen das Dokument bestehen wird. Für jedes Wort im Dokument wählt die Maschine nach dem Zufallsprinzip eines der ausgewählten Themen aus (die Spalte mit den farbigen Punkten), aus denen sie wiederum nach dem Zufallsprinzip ein Wort auswählt (die hervorgehobenen Begriffe).2 Beachten Sie, dass diese Visualisierung nur ein anschauliches Beispiel ist und nicht das Ergebnis einer tatsächlichen Themenmodellierung oder Texterstellung. Wie bereits erwähnt, geht LDA jedoch davon aus, dass jedes Dokument durch diesen allgemeinen generativen Prozess erzeugt wurde, den LDA versucht, rückgängig zu machen.

Funktionsweise der Latent Dirichlet Allocation

Ähnlich wie bei anderen Ansätzen zur Themenmodellierung, z. B. der latenten semantischen Analyse (LSA), werden bei der LDA die Dokumente in den Korpora als Bag of words betrachtet. Das bedeutet, dass LDA die Wortreihenfolge und den Kontext ignoriert. Stattdessen konzentriert sie sich darauf, wie oft Wörter in jedem einzelnen Dokument vorkommen und zusammen vorkommen.3 Die Worthäufigkeit und das gemeinsame Vorkommen werden in der Dokument-Term-Matrix modelliert. Hier stellen die Dokumente Zeilen und die einzelnen Wörter Spalten dar oder umgekehrt. Der Wert jeder Zelle gibt die Häufigkeit an, mit der ein bestimmtes Wort in jedem Dokument vorkommt.4

Themengenerierung

Anhand der Dokument-Begriff-Matrix generiert der LDA-Algorithmus Themenverteilungen (d. h. Listen von Schlüsselwörtern mit jeweiligen Wahrscheinlichkeiten) nach Worthäufigkeit und gemeinsamen Vorkommen. Durch die Verfolgung der Häufigkeit des gemeinsamen Auftretens geht LDA davon aus, dass Wörter, die zusammen vorkommen, wahrscheinlich Teil ähnlicher Themen sind. Der Algorithmus weist dann die Verteilungen der Dokumententhemen auf der Grundlage der Wortcluster zu, die im jeweiligen Dokument vorkommen.5

Nehmen wir zum Beispiel an, wir erstellen ein LDA-Modell für eine Sammlung von Nachrichtenartikeln, das den folgenden Teiloutput hat

Hier haben wir zwei Themen, die wahrscheinlich als Einwanderung (Thema 1) und Astronomie (Thema 2) beschrieben werden können. Die Punktzahlen für jedes Wort sind die Wahrscheinlichkeit, dass dieses Schlagwort in dem jeweiligen Thema vorkommt. Die Wahrscheinlichkeiten, die jedem Dokument zugeordnet sind, sind die jeweiligen Wahrscheinlichkeiten des Dokuments, zu einer Mischung von Themen zu gehören, wenn man die Verteilung und das gemeinsame Auftreten von Wörtern aus jedem Thema in diesem Dokument berücksichtigt. In der ersten Zeile der Tabelle wird beispielsweise die „Grenze“ unter Thema 1 mit einer Wahrscheinlichkeit von 40 % und „Weltraum“ in Thema 2 mit einer Wahrscheinlichkeit von 60 % aufgeführt. Diese Prozentsätze geben die Wahrscheinlichkeit an, mit der die jeweiligen Begriffe in diesem Thema im gesamten Korpus vorkommen. Die erste Dokumentzeile lautet Dokument 1: Thema 1: .95, Thema 2: .05. Das bedeutet, dass das Modell auf der Grundlage des Vorkommens von Wörtern in Dokument 1 davon ausgeht, dass Dokument 1 zu 95 % aus Thema 1 und zu 5 % aus Thema 2 stammt. Mit anderen Worten: Unser hypothetisches LDA-Modell geht davon aus, dass dies die Themen und Anteile dieser Themen sind, die zur Erstellung des Modells verwendet werden.

Natürlich bereiten insbesondere polyseme Wörter Probleme für solche diskreten Kategorisierungen. So kann sich z. B. in der englischsprachigen Welt der Begriff „Alien“ auf einen menschlichen Einwanderer oder ein außerirdisches Wesen beziehen. Wie bestimmt der LDA-Algorithmus in solchen Fällen, zu welchem Thema das Wort (und damit auch das Dokument) gehört?

Gibbs-Formel

Bei der Zuordnung von Themen zu Wörtern verwendet der LDA-Algorithmus das sogenannte Gibbs-Sampling. Die Formel für das Gibbs-Sampling lautet:

Um die genauen Operationen und Hyperparameter dieser Gleichung zu verstehen, sind Grundkenntnisse in Statistik und Markow-Chain-Monte-Carlo-Verfahren (kurz MCMC-Verfahren) erforderlich (letztere werden häufig beim bestärkenden Lernen eingesetzt). Dennoch können wir die Hauptkomponenten der Gleichung zusammenfassen:

  • Das erste Verhältnis drückt die Wahrscheinlichkeit aus, dass Thema t in Dokument d vorkommt. Der Algorithmus berechnet diese Wahrscheinlichkeit anhand der Anzahl der Wörter im Dokument d, die zum Thema t gehören. Im Wesentlichen geht es um die Frage: Wie häufig kommt das Thema t im Dokument d vor?
  • Die zweite Kennzahl drückt die Wahrscheinlichkeit aus, dass das Wort w zum Thema t gehört. Der Algorithmus berechnet diese Wahrscheinlichkeit, indem er die Vorkommen von w in t über alle Wort-Tokens in t aufzählt. Dabei stellt sich die Frage: Mit welcher Häufigkeit kommt das Wort w im gesamten Korpus im Thema t vor?

Es sollte beachtet werden, dass das Gibbs-Sampling ein iterativer Prozess ist. Das heißt, ein Wort wird nicht einmal gesampelt, einem Thema zugeordnet und dann verworfen. Vielmehr durchläuft das Gibbs-Sampling für jedes Wort mehrere Iterationen, bei denen die Wahrscheinlichkeiten für ein Thema und ein Wort im Lichte der jeweils anderen aktualisiert werden.6

Klassifizierung von Text

Das Unterscheidungsmerkmal von LDA ist die probabilistische Verteilung jedes Dokuments über eine gemeinsame Gruppe von Themen. Wie bei anderen Ansätzen zur Themenmodellierung sind diese Themen und ihre Verteilung in den einzelnen Dokumenten nicht bekannt. Die Themenmodellierung ist unüberwacht; es gibt keine manuell markierten Daten, die die Analyse steuern. Durch die Aufdeckung verborgener thematischer Strukturen werden mit LDA schließlich die Dokumente einer Sammlung kommentiert. Diese Annotationen (d. h. die aufgedeckten Themen) können zur Klassifizierung von Texten verwendet werden. Auf diese Weise unterstützt LDA Information Retrieval Systeme, indem es die Annotation und Organisation großer Dokumentensammlungen automatisiert.7

Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Optimierung

Wie bei vielen Textmining-Techniken im Bereich Data Science verbessert die Vorverarbeitung von Text die Ergebnisse des LDA-Modells deutlich. Durch das Entfernen von Stoppwörtern werden häufige, semantisch irrelevante Wörter entfernt. Das Stemming oder die Lemmatization hilft bei der Reduzierung morphologischer Varianten auf die Grundformen, wodurch Variationen eines Wortes zusammengefasst werden, die eine Maschine andernfalls trennen würde, z. B. Tanz, Tanzen, Tänzerin usw.

Da LDA-Modelle probabilistisch und nicht deterministisch sind, kann die Modelloptimierung ein schwieriger Prozess sein. Es gibt weder eine bestimmte Anzahl von Themen, die zu den besten Ergebnissen führt, noch scheint es ein Leitprinzip zu geben, wie z. B. eine bestimmte Anzahl von Themen, die für eine bestimmte Anzahl von Dokumenten geeignet sind. Die Feinabstimmung der Modellparameter, um interpretierbare und kohärente Themen zu erzeugen, ist in der Tat mit einer Menge Versuch und Irrtum verbunden.

Bewertungsmetriken

Welche Tools oder Metriken stehen zur Verfügung, um Benutzern bei der Feinabstimmung eines LDA-Modells behilflich zu sein? Für diejenigen, die neu im Bereich der Themenmodellierung sind, kann die Erkenntnis frustrierend sein, dass es in der Literatur keine einzige oder auch nur eine Sammlung von Leistungsmetriken gibt.

Qualitativ. Ob Sie es glauben oder nicht: Qualitative Auswertungen sind keine Seltenheit, insbesondere bei realen Anwendungen. Dabei werden oft die fünf oder zehn wichtigsten Schlagwörter für jedes Thema untersucht. Diese werden dann verwendet, um die Themen danach zu bewerten, wie interpretierbar die Themen für menschliche Benutzer sind.8 Diese Art der „Sichtprüfung“ erfordert ein beträchtliches Maß an Fachwissen und Vertrautheit mit den betreffenden Dokumenten.9

Kohärenz. Die Themenkohärenz ist eine beliebte quantitative Methode zur Bewertung von generierten Themen. Ein Themenkohärenz-Score misst, wie oft die wahrscheinlichsten Wörter eines bestimmten Themas in denselben Dokumenten im gesamten Korpus vorkommen. Genauer gesagt wird die Häufigkeit des gemeinsamen Auftretens jedes Wortpaares der n wichtigsten Wörter eines Themas im Vergleich zur Häufigkeit jedes einzelnen Wortes im gesamten Korpus berechnet. Damit soll quantifiziert werden, wie kohärent ein bestimmtes Thema ist. Der Gesamtkohärenzwert eines Modells ergibt sich aus dem Durchschnitt der Kohärenzwerte für jedes einzelne Thema. Dieser Gesamtwert gibt also die durchschnittliche Themenkohärenz innerhalb eines bestimmten Modells an. Wie der Name schon sagt, bewertet die Kohärenz die Modelle ausschließlich danach, wie kohärent ihre Themen sind. Die Themen müssen jedoch auch einen gewissen Grad an Exklusivität aufweisen, für den es derzeit kein quantitatives Maß gibt.10

Neuere Forschungen zeigen, dass quantitative Metriken, wie z. B. der Kohärenzwert, für die Bewertung von Themenmodellen unzuverlässig sind. Dies liegt zum Teil an der Mehrdeutigkeit des erklärten Evaluierungsziels der Interpretierbarkeit. Was macht ein Modell und seine Ergebnisse interpretierbar?11 Außerdem lassen sich automatisierte Metriken, die für ältere Systeme entwickelt wurden, möglicherweise nicht gut auf neuere Systeme übertragen. Dieses Problem wird durch die mangelnde Transparenz vieler veröffentlichter Experimente erschwert, die eine Verallgemeinerung der Evaluierungsmethoden auf andere Datensätze oder Domänen verhindern.12 Die Forschung hat sich in jüngster Zeit Anwendungen der künstlichen Intelligenz zugewandt, insbesondere großen Sprachmodellen (LLMs), um LDA-Modelle für ein bestimmtes Forschungsziel zu konzipieren und zu evaluieren.13 Dies zeigt zwar vielversprechende Ergebnisse, erfordert jedoch weitere Forschung.

Weitere Lösungen
IBM® watsonx™ Orchestrate®

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate
Tools und APIs zur Verarbeitung natürlicher Sprache

Steigern Sie den Geschäftswert der künstlichen Intelligenz mit einem leistungsstarken und flexiblen Portfolio aus Bibliotheken, Diensten und Anwendungen.

NLP-Lösungen erkunden
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate NLP-Lösungen erkunden
Fußnoten

1 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3. Band, 2023, https://web.stanford.edu/~jurafsky/slp3/. Jay Alammar and Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

2 David Blei, „Probabilistic Topic Models“, Communications of the ACM, Band 55, Nr. 4, 2012, S. 77–84. Zhiyuan Chen und Bing Liu, „Topic Models for NLP Applications“, Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

3 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.

4 Cole Howard, Hobson Lane und Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Practical Natural Language Processing, O’Reilly, 2020.

5 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Practical Natural Language Processing, O’Reilly, 2020. David Blei, Andrew Ng und Michael Jordan, „Lantent Dirichlet Allocation“, Journal of maschinelles Lernen Research, Band 3, 2003, S. 993–1022.

6 Zhiyuan Chen and Bing Liu, „Topic Models for NLP Applications“, Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

7 David Blei, „Probabilistic Topic Models“, Communications of the ACM, Bd. 55, Nr. 4, 2012, S. 77–84.

8 Chandler Camille May, „Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022.

9 Matthew Gillings and Andrew Hardie, „The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice,” Digital Scholarship in the Humanities, Bd. 38, Nr. 2, 2023, S. 530-543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052

10 Chandler Camille May, „Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022. https://aclanthology.org/D11-1024/ 

11 Zachary Lipton, „The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery,” Queue, Bd. 16, Nr. 3, S. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 . Caitlin Doogan and Wray Buntine, „Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2021, S. 3824-3848, https://aclanthology.org/2021.naacl-main.300 .

12 Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, Philip Resnik, „Is Automated Topic Model Evaluation Broken? Die Inkohärenz der Kohärenz”, Advances in Neural Information Processing Systems, 2021, pp. 2018-2033, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html . Caitlin Doogan and Wray Buntine, „Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2021, S. 3824-3848, https://aclanthology.org/2021.naacl-main.300 .

13 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan und Elliott Ash, „Revisiting Automated Topic Model Evaluation with Large Language Models“, Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, S. 9348–9357, https://aclanthology.org/2023.emnlp-main.581/ .