Themenmodelle sind eine unüberwachte NLP-Methode zur Zusammenfassung von Textdaten durch Wortgruppen. Sie helfen bei der Klassifizierung von Texten und beim Abrufen von Informationen.
In der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ist die Themenmodellierung eine Text-Mining-Technik, die unüberwachtes Lernen auf große Textmengen anwendet, um eine Zusammenfassung von Begriffen erstellt, die aus diesen Dokumenten abgeleitet wurden und die die primäre Gesamtthemengruppe der Sammlung darstellen.1 Themenmodelle identifizieren insbesondere gemeinsame Schlüsselwörter oder Phrasen in einem Textdatensatz und gruppieren diese Wörter nach einer Reihe von Themen. Dabei zielen Themenmodelle darauf ab, die latenten Themen oder Themen zu ermitteln, die eine Reihe von Dokumenten charakterisieren. Auf diese Weise sind Themenmodelle eine auf maschinellem Lernen basierende Form der Textanalyse, die zur thematischen Annotation großer Textkorpora verwendet wird.2
Benutzer können mit dem Natural Language Toolkit (NLTK) von scikit-learn und gensim in Python problemlos Themenmodelle erstellen.
Als unüberwachte Lernmethode erfordern Themenmodelle keine benutzergenerierten Labels von Trainingsdaten, wie dies bei überwachten Textklassifizierungsaufgaben der Fall ist. Vielmehr generieren und annotieren Themenmodelle große Dokumentensammlungen mit thematischen Informationen in Form von Wortgruppen, die als Themen bezeichnet werden.3 Aber wie erzeugen Themenmodelle diese Wortgruppen?
Bei der Themenmodellierung wird jedes einzelne Dokument in einer Textsammlung grundsätzlich als Bag-of-Words-Modell behandelt. Das bedeutet, dass der Algorithmus zur Themenmodellierung die Wortreihenfolge und den Wortzusammenhang ignoriert und sich einfach darauf konzentriert, wie oft Wörter in jedem einzelnen Dokument vorkommen und wie oft sie gemeinsam vorkommen.4
Die meisten Ansätze zur Themenmodellierung beginnen mit der Erstellung einer Dokument-Begriff-Matrix. Diese Matrix modelliert den Textdatensatz mit Dokumenten als Zeilen und einzelnen Wörtern als Spalten oder umgekehrt. Die Werte in der Matrix geben die Häufigkeit an, mit der ein bestimmtes Wort in jedem Dokument vorkommt. Diese Matrix kann dann verwendet werden, um einen Vektorraum zu erzeugen, in dem n Wörter n Dimensionen entsprechen. Der Wert einer bestimmten Zeile gibt die Position des Dokuments im Vektorraum an. Dokumente, die Wörter in ähnlichen Gruppen und mit vergleichbarer Häufigkeit verwenden, liegen daher im Vektorraum näher beieinander. Von hier aus behandeln Themenmodelle die Nähe im Vektorraum als Dokumente, die ähnliche konzeptionelle Inhalte oder Themen teilen.5
Themenmodelle sind jedoch nicht gleichbedeutend mit einem „Bag of Words“. Während Letzteres lediglich die Anwesenheit von Wörtern in einer Sammlung von Dokumenten zählt, gruppieren Themenmodelle häufig gemeinsam auftretende Wörter in Themengruppen. Jedes Thema wird als Wahrscheinlichkeitsverteilung über ein Vokabular von Wörtern modelliert. Jedes Dokument in der Sammlung wird dann in Bezug auf diese Themen dargestellt.6 Auf diese Weise versuchen Themenmodelle im Wesentlichen, die Diskurse (d. h. Themen), die die betreffenden Dokumente hervorgebracht haben, zurückzuentwickeln.7
Algorithmen zur Themenmodellierung sind weniger alternative Methoden für eine Aufgabe als vielmehr aufeinanderfolgende Entwicklungen, die Probleme lösen sollen, die ursprünglich in Bag-of-Words-Modellen auftraten. Term Frequency-Inverse Document Frequency (TF-IDF) ist eine Modifikation von Bag of Words, die darauf abzielt, die Probleme zu lösen, die sich aus häufigen, aber semantisch irrelevanten Wörtern ergeben, indem die Prävalenz jedes Wortes in jedem Dokument in einem Textsatz berücksichtigt wird. Die latente semantische Analyse baut auf der TF-IDF-Methode auf und dient in erster Linie dazu, Polysemie und Synonymie zu behandeln. Dies führte zur probabilistischen latenten semantischen Analyse, aus der sich später die latente Dirichlet-Allokation entwickelte. Kennzeichnend für letztere ist, dass alle Dokumente einer Sammlung dieselben Themen behandeln, wenn auch in unterschiedlichen Anteilen.8
Die latente semantische Analyse (LSA) (auch als latente semantische Indexierung bezeichnet) verwendet eine Technik, die als Singularwertzerlegung bekannt ist, um die Lückenhaftigkeit in der Dokument-Begriff-Matrix zu reduzieren. Dies verringert Probleme, die durch Polysemie und Synonymie entstehen – also durch einzelne Wörter mit mehreren Bedeutungen oder mehrere Wörter mit einer einzigen gemeinsamen Bedeutung.
Datenarmut (Data Sparsity) bedeutet im Wesentlichen, dass die Mehrheit der Datenwerte in einem bestimmten Datensatz null (d. h. leer) ist. Dies geschieht regelmäßig bei der Erstellung von Dokument-Term-Matrizen, bei denen jedes einzelne Wort eine eigene Zeile und Vektorraumdimension ist, da in den Dokumenten regelmäßig ein Großteil der Wörter fehlt, die in anderen Dokumenten häufiger vorkommen. Natürlich können Techniken für die Vorverarbeitung von Textdaten, wie z.B. das Entfernen von Stoppwörtern oder Stemming und Lemmatization, zur Reduzierung der Matrixgröße beitragen. LSA bietet einen gezielteren Ansatz zur Reduzierung von Sparsity und Dimensionalität.
LSA beginnt mit der Dokument-Term-Matrix, die anzeigt, wie oft jedes Wort in jedem Dokument vorkommt. Auf dieser Grundlage erstellt LSA eine Dokument-Dokument-Matrix und eine Term-Term-Matrix. Wenn die Dimensionen der Dokument-Term-Matrix als d Dokumente mal w Wörter definiert sind, dann ist die Dokument-Dokument-Matrix d mal d und die Term-Term-Matrix w mal w. Jeder Wert in der Dokument-Dokument-Matrix gibt die Anzahl der Wörter an, die jedes Dokument gemeinsam hat. Jeder Wert in der Term-Term-Matrix gibt die Anzahl der Dokumente an, in denen zwei Begriffe gemeinsam vorkommen.9
Unter Verwendung dieser beiden zusätzlichen Matrizen führt der LSA-Algorithmus eine Einzelwertzerlegung der ursprünglichen Dokument-Term-Matrix durch und erzeugt so neue spezielle Matrizen von Eigenvektoren. Diese speziellen Matrizen zerlegen die ursprünglichen Dokument-Term-Beziehungen in linear unabhängige Faktoren. Da viele dieser Faktoren nahe Null liegen, werden sie als Null behandelt und aus den Matrizen gestrichen. Dadurch werden die Dimensionen des Modells reduziert.10
Sobald die Modelldimensionen durch die Singulärwertzerlegung reduziert wurden, vergleicht der LSA-Algorithmus die Dokumente im niedrigeren dimensionalen Raum anhand der Kosinusähnlichkeit. Unter Kosinus-Ähnlichkeit versteht man die Messung des Winkels zwischen zwei Vektoren im Vektorraum. Es kann sich um einen beliebigen Wert zwischen -1 und 1 handeln. Je höher der Kosinus-Wert, desto ähnlicher sind sich zwei Dokumente. Die Kosinusähnlichkeit wird durch diese Formel dargestellt, wobei x und y zwei Elementvektoren im Vektorraum bezeichnen:7
Die latente Dirichlet-Allokation (LDA) – nicht zu verwechseln mit der linearen Diskriminanzanalyse – ist ein probabilistischer Algorithmus zur Themenmodellierung. Das bedeutet, dass sie Themen generiert und Wörter und Dokumente nach Wahrscheinlichkeitsverteilungen diesen Themen zuordnet. Anhand der Dokument-Begriff-Matrix generiert der LDA-Algorithmus Themenverteilungen (d. h. Listen von Schlüsselwörtern mit jeweiligen Wahrscheinlichkeiten) nach Worthäufigkeit und gemeinsamen Vorkommen. Diese Annahme besagt, dass Wörter, die zusammen vorkommen, wahrscheinlich zu ähnlichen Themen gehören. Der Algorithmus weist Dokument-Themen-Verteilungen auf der Grundlage der Wortcluster zu, die in dem jeweiligen Dokument vorkommen.12
Nehmen wir zum Beispiel an, wir erstellen ein LDA-Modell für eine Sammlung von Nachrichtenartikeln, das den folgenden Teiloutput hat:
Hier haben wir zwei Themen, die wahrscheinlich als Einwanderung (Thema 1) und Astronomie (Thema 2) beschrieben werden können. Die Punktzahlen für jedes Wort sind die Wahrscheinlichkeit, dass dieses Schlagwort in dem jeweiligen Thema vorkommt. Die Wahrscheinlichkeiten, die jedem Dokument zugeordnet sind, sind die jeweiligen Wahrscheinlichkeiten des Dokuments, zu einer Mischung von Themen zu gehören, wenn man die Verteilung und das gemeinsame Auftreten von Wörtern aus jedem Thema in diesem Dokument berücksichtigt. In der ersten Zeile der Tabelle wird beispielsweise die „Grenze“ unter Thema 1 mit einer Wahrscheinlichkeit von 40 % und „Weltraum“ in Thema 2 mit einer Wahrscheinlichkeit von 60 % aufgeführt. Diese Prozentsätze geben die Wahrscheinlichkeit an, mit der die jeweiligen Begriffe in diesem Thema im gesamten Korpus vorkommen. Die erste Dokumentzeile lautet Dokument 1: Thema 1: .95, Thema 2: .05. Das bedeutet, dass das Modell auf der Grundlage des Vorkommens von Wörtern in Dokument 1 davon ausgeht, dass Dokument 1 zu 95 % aus Thema 1 und zu 5 % aus Thema 2 stammt. Mit anderen Worten: Unser hypothetisches LDA-Modell geht davon aus, dass dies die Themen und Anteile dieser Themen sind, die zur Erstellung des Modells verwendet werden.
Natürlich bereiten insbesondere mehrdeutige Wörter Probleme bei solchen diskreten Kategorisierungen – zum Beispiel kann sich das englische Wort alien auf einen Menschen mit Migrationshintergrund, aber auch auf ein außerirdisches Wesen beziehen. Wenn unser Algorithmus in einem Dokument auf „alien“ trifft, wie bestimmt er dann, zu welchem Thema das Wort (und im weiteren Sinne auch das Dokument) gehört?
Bei der Zuordnung von Themen zu Wörtern verwendet der LDA-Algorithmus das sogenannte Gibbs-Sampling. Die Formel für das Gibbs-Sampling lautet:
Um die genauen Operationen und Hyperparameter dieser Gleichung zu verstehen, sind Grundkenntnisse in Statistik und Markow-Chain-Monte-Carlo-Verfahren (kurz MCMC-Verfahren) erforderlich (letztere werden häufig beim bestärkenden Lernen eingesetzt). Dennoch können wir die Hauptkomponenten der Gleichung zusammenfassen:
Es sollte beachtet werden, dass das Gibbs-Sampling ein iterativer Prozess ist. Das heißt, ein Wort wird nicht einmal gesampelt, einem Thema zugeordnet und dann verworfen. Vielmehr durchläuft das Gibbs-Sampling für jedes Wort mehrere Iterationen, bei denen die Wahrscheinlichkeiten für ein Thema und ein Wort im Lichte der jeweils anderen aktualisiert werden.13
Es gibt viele Anwendungsfälle für Themenmodelle, von der Literaturkritik14 über die Bioinformatik15 bis hin zur Erkennung von Hassreden in sozialen Medien.16 Wie bei vielen NLP-Aufgaben befasst sich ein erheblicher Teil der Themenmodellierungsforschung von jeher mit Englisch und anderen lateinischen Schriftsprachen. In jüngerer Zeit wurden jedoch auch Themenmodellierungsansätze für Arabisch und andere nicht-lateinische Sprachen erforscht.17
Die laufende Forschung befasst sich auch mit Bewertungsmetriken für Themenmodelle. In der Tat gibt es keine einheitliche Metrik zur Bewertung von Themenmodellen. In der Vergangenheit wurden für die Bewertung sowohl qualitative als auch quantitative Ansätze verwendet. Ersteres erfordert umfangreiches fachspezifisches Wissen, um Schlüsselbegriffe im Themenmodus auf ihre Interpretierbarkeit zu prüfen.18 Quantitative Maßnahmen bestehen aus Log-Likelihood- und Kohärenz-Bewertungen, die darauf abzielen, die Wahrscheinlichkeit und den Zusammenhalt von Themen innerhalb eines Modells zu messen.19 Eine Vielzahl von Forschungsergebnissen argumentiert jedoch, dass solche quantitativen Metriken unzuverlässig sein könnten.20
Um Fragen im Zusammenhang mit der Evaluierung von Themenmodellen zu lösen, untersucht eine Studie Anwendungen der künstlichen Intelligenz, insbesondere große Sprachmodelle (LLMs), als Mittel zur Gestaltung und Evaluierung von LDA-Modellen für bestimmte Forschungsziele. LLMs, so die Studie, können dazu beitragen, seit langem bestehende Probleme bei der Themenmodellierung zu lösen, nämlich wie die angemessene Anzahl von Themen bestimmt und bewertet werden kann.21 Auch andere Studien wenden sich LLM-Anwendungen zu, um die Evaluationslücke in der Themenmodellierung zu schließen.22
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Erfahren Sie, wie die Verarbeitung natürlicher Sprache Ihnen dabei helfen kann, sich natürlicher mit Computern zu unterhalten.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
Auf der IBM Developer’s Website finden Sie Blogs, Artikel und Newsletter und erfahren mehr über IBM Embeddable AI.
Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.
Steigern Sie den Geschäftswert der künstlichen Intelligenz mit einem leistungsstarken und flexiblen Portfolio aus Bibliotheken, Diensten und Anwendungen.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
1 Daniel Jurafsky und James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3. Auflage, 2023, https://web.stanford.edu/~jurafsky/slp3/
2 Jay Alammar und Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.
3 David Blei, „Probabilistic Topic Models“, Communications of the ACM, Band 55, Nr. 4, 2012, S. 77–84.
4 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.
5 Cole Howard, Hobson Lane und Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020.
6 Chandler Camille May, „Topic Modeling in Theory and Practice“, Dissertation, John Hopkins University, 2022.
7 Practical Natural Language Processing, O’Reilly. David Blei, „Probabilistic Topic Models“, Communications of the ACM, Band 55, Nr. 4, 2012, S. 77–84.
8 Cole Howard, Hobson Lane, and Hannes Hapke, Natural Language Processing in Action, Manning Publications, Deerwester, „Indexing by Latent Semantic Analysis,” David Blei, „Probabilistic Topic Models,” Communications of the ACM, Vol. 55, Nr. 4, 2012, S. 77–84.
9 Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, „Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, Nr. 6, 1990, S. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9
10 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer und Richard Harshman, „Indexing by Latent Semantic Analysis“, Journal of the American Society for Information Science, Bd. 41, Nr. 6, 1990, S. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9
11 Elsa Negre, Information and Recommender Systems, Band 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.
12 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020. David Blei, Andrew Ng und Michael Jordan, „Lantent Dirichlet Allocation“, Journal of Machine Learning Research, Band 3, 2003, S. 993–1022.
13 Zhiyuan Chen und Bing Liu, „Topic Models for NLP Applications“, Encyclopedia of Machine Learning and Data Science, Springer, 2020.
14 Derek Greene, James O'Sullivan und Daragh O'Reilly, „Topic modelling literary interviews from The Paris Review”, Digital Scholarship in the Humanities, 2024, https://academic.oup.com/dsh/article/39/1/142/7515230?login=false
15 Yichen Zhang, Mohammadali (Sam) Khalilitousi, and Yongjin Park, „Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Bd. 3, Nr. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/
16 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu und Neil F. Johnson, „Dynamic Topic Modeling Reveals Variations in Online Hate Narratives“, Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38
17 Abeer Abuzayed and Hend Al-Khalifa, „BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, S. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity und Shahad Alshalan, „Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach“, Journal of Medical Internet Research, Bd. 22, 12. November 2020, https://www.jmir.org/2020/12/e22609
18 Matthew Gillings and Andrew Hardie, „The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice,” Digital Scholarship in the Humanities, Bd. 38, Nr. 2, 2023, S. 530–543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052
19 Chandler Camille May, „Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022.
20 Zachary Lipton, „The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery,” Queue, Bd. 13, No. 3, 2018, S. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 Caitlin Doogan and Wray Buntine, „Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures“, Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies” 2021, S. 3824-3848, https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber und Philip Resnik, „Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence“, Advances in Neural Processing Systems, Bd. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html
21 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan und Elliott Ash, „Revisiting Automated Topic Model Evaluation with Large Language Models“, Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, https://aclanthology.org/2023.emnlp-main.581/
22 Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli und Daniela Ushizima, „Benchmarking topic models on scientific articles using BERTeley“, Natural Language Processing Journal, Band 6, 2024, S. 2949-7191, https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem und Roy Ka-Wei Lee, „Prompting Large Language Models for Topic Modeling“, Proceedings of the 2023 IEEE International Conference on Big Data, 2023, S. 1236–1241, https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com