Was ist latente semantische Analyse?

Autor

Jacob Murel Ph.D.

Senior Technical Content Creator

Joshua Noble

Data Scientist

Was ist latente semantische Analyse?

Im maschinellen Lernen ist die latente semantische Analyse (LSA) eine Themenmodellierungstechnik, die das gemeinsame Auftreten von Wörtern analysiert, um latente Themen in Dokumenten aufzudecken. LSA verwendet Dimensionalitätsreduzierung, um strukturierte Daten aus unstrukturiertem Text zu erstellen, um die Textklassifizierung und den Abruf zu unterstützen.

LSA ist eine von zwei Hauptthemenmodellierungstechniken, die andere ist die latente Dirichlet-Allokation (LDA). Die Themenmodellierung ist eine Technik zur Verarbeitung natürlicher Sprache (NLP), die unüberwachtes Lernen auf große Text-Datensätze anwendet, um eine Zusammenfassung von Begriffen aus diesen Dokumenten zu erstellen. Diese Begriffe sollen den gesamten primären Themensatz der Sammlung darstellen. Dabei zielen Themenmodelle darauf ab, die latenten Themen oder Themen zu ermitteln, die eine Reihe von Dokumenten charakterisieren.1

Benutzer können LSA-Themenmodelle mit dem Natural Language Toolkit (NLTK) von scikit-learn (allgemein als Sklearn bezeichnet) und Gensim in Python generieren. Die Pakete topicmodels und lda in R enthalten ebenfalls Funktionen zur Erstellung von LDA-Themenmodellen.

Informationsabruf

Die latente semantische Analyse ist mit der latenten semantischen Indexierung (LSI) verbunden, einer Technik zum Abrufen von Informationen. In Informationsabfragesystemen verwendet LSI das gleiche mathematische Verfahren wie LSA, um Benutzeranfragen auf der Grundlage des gemeinsamen Auftretens von Wörtern Dokumenten zuzuordnen. Wenn ein Benutzer ein System nach Walzer und Foxtrot abfragt, könnte er an Dokumenten interessiert sein, die keine dieser Begriffe enthalten, aber Begriffe enthalten, die oft zusammen mit ihren Abfragebegriffen vorkommen. So können beispielsweise Tango und Bolero häufig zusammen mit den Abfragebegriffen vorkommen und sollten auf Dokumente zum gleichen Thema hinweisen. LSI indiziert Dokumente nach latenten semantischen Wortgruppen, die aus häufig gleichzeitig vorkommenden Wörtern bestehen. Auf diese Weise können die Suchmaschinenergebnisse verbessert werden. LSA wendet das gleiche mathematische Verfahren wie LSI an, um die verborgene semantische Struktur zu erfassen, die großen Dokumentensammlungen zugrunde liegt.2

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Funktionsweise der latenten semantischen Analyse

Dokument-Term-Matrix

LSA beginnt mit der Dokument-Begriff-Matrix oder manchmal auch einer Begriff-Dokument-Matrix. Dadurch wird angezeigt, wie oft jedes Wort in allen Dokumenten vorkommt. In Python (um nur ein Beispiel zu nennen) können Benutzer diese Matrizen mithilfe eines Pandas-Datenrahmens erstellen. Hier sehen Sie ein Beispiel für eine Dokument-Term-Matrix, in der die drei Textzeichenfolgen als einzelne Dokumente verwendet werden:

d1: Meine Liebe ist wie rote, rote Rosen

d2: Rosen sind rot, Veilchen sind blau

d3: Moses vermutet, dass seine Zehen Rosen sind

Beispiel für eine Dokument-Begriff-Matrix mit drei Dokumenten

Diese Matrix zeigt die Worthäufigkeit jedes Wortes in allen drei Dokumenten nach der Tokenisierung und der Stoppwortentfernung. Jede Spalte entspricht einem Dokument, während jede Zeile einem bestimmten Wort entspricht, das im gesamten Textkorpus zu finden ist. Die Werte in der Matrix geben an, wie oft ein bestimmter Begriff in einem bestimmten Dokument vorkommt. Wenn der Term w n-mal in Dokument d vorkommt, dann ist [w,d] = n. In Dokument 1 wird z. B. „rot“ zweimal verwendet, und so ist [rot, d1] = 2.

Aus der Dokument-Term-Matrix erzeugt LSA eine Dokument-Dokument-Matrix und eine Term-Term-Matrix. Wenn die Dimensionen der Dokument-Term-Matrix definiert sind als d Dokumente mal w Wörter, dann ist die Dokument-Dokument-Matrix d mal d und die Term-Term-Matrix w mal w. Jeder Wert in der Dokument-Dokument-Matrix gibt die Anzahl der Wörter an, die jedes Dokument gemeinsam hat. Jeder Wert in der Term-Term-Matrix gibt die Anzahl der Dokumente an, in denen zwei Begriffe gemeinsam vorkommen.9

Eine Datensparsamkeit, die zu einer Überanpassungdes Modells führt, liegt vor, wenn die Mehrheit der Datenwerte in einem bestimmten Datensatz null (d. h. leer) ist. Dies ist regelmäßig der Fall, wenn Dokument-Begriffsmatrizen erstellt werden, bei denen jedes einzelne Wort eine separate Zeilen- und Vektorraumdimension ist, da in einem Dokument regelmäßig die Mehrheit der Wörter fehlt, die in anderen Dokumenten häufiger vorkommen. In der Tat enthält die hier verwendete Beispiel-Dokument-Begriff-Matrix zahlreiche Verwendungsmöglichkeiten für Wörter wie Moses, Veilchen und Blau, die nur in einem Dokument vorkommen. Natürlich können Textvorverarbeitungstechniken wie das Entfernen von Stoppwörtern, Wortstammerkennung und Lemmatisierungdazu beitragen, die Seltenheit zu reduzieren. LSA bietet jedoch einen gezielteren Ansatz.

Reduzierung der Dimensionalität

LSA stellt eine Technik zur Dimensionalitätsreduzierung bereit, die als singuläre Wertzerlegung (Singular Value Decomposition, SVD) bekannt ist, um die Sparsamkeit in der Dokument-Term-Matrix zu reduzieren. SVD unterstützt viele andere Ansätze zur Dimensionsreduktion, wie beispielsweise die Hauptkomponentenanalyse. SVD hilft, Probleme zu lindern, die sich aus Polysemie ergeben, d. h. einzelnen Wörtern, die mehrere Bedeutungen haben, und Synonymie, d. h. verschiedenen Wörtern mit ähnlicher Bedeutung.

Unter Verwendung der Matrizen, die aus den Begriffen der Dokument-Dokument- und Term-Term-Matrizen berechnet wurden, führt der LSA-Algorithmus die PVD für die anfängliche Term-Dokument-Matrix durch. Dadurch entstehen neue spezielle Matrizen von Eigenvektoren, die ursprünglichen Term-Dokument-Beziehungen in linear unabhängige Faktoren aufteilen. Die wichtigste davon ist die diagonale Matrix der Singularwerte, die aus den Quadratwurzeln der Eigenwerte der Dokument-Dokument-Matrix erzeugt wird. In dieser diagonalen Matrix, die oft als Σ dargestellt wird, sind die Werte immer positiv und in absteigender Reihenfolge entlang der Matrixdiagonale angeordnet:

Beispiel für eine Sigma-Matrix mit geringer Dichte

Wie in diesem Beispiel für eine Σ-Matrix gezeigt, liegen viele der niedrigeren Werte nahe Null. Der Entwickler legt einen für seine Situation geeigneten Grenzwert fest und reduziert alle Singulärwerte in Σ unterhalb dieses Schwellenwerts auf Null. Dies bedeutet effektiv, dass alle Zeilen und Spalten, die vollständig mit Nullen belegt sind, entfernt werden. Im Gegenzug entfernen wir Zeilen und Spalten aus unseren anderen ursprünglichen Matrizen, bis sie die gleiche Anzahl von Zeilen und Spalten wie ative haben. Dadurch werden die Dimensionen des Modells reduziert.4

Dokumentenvergleich

Nachdem die Modelldimensionen durch SVD reduziert wurden, vergleicht der LSA-Algorithmus Dokumente in einem niedrigdimensionalen semantischen Raum unter Verwendung der Kosinusähnlichkeit. Der erste Schritt in dieser Vergleichsphase beinhaltet die Abbildung von Dokumenten im Vektorraum. Hier behandelt LSA Texte als ein Bag-of-Words-Modell. Der Algorithmus stellt jeden Text aus dem Korpus oder der Korpora als Dokumentenvektor dar, wobei die einzelnen Wörter aus der reduzierten Matrix die Dimensionen dieses Vektors übernehmen. Die grafische Darstellung ignoriert Wortreihenfolge und Kontext und konzentriert sich stattdessen darauf, wie häufig Wörter vorkommen und wie häufig sie in verschiedenen Dokumenten gemeinsam auftreten.5

Bei Standard-Bag-of-words-Modellen können semantisch irrelevante Wörter (z. B. Wörter wie „der , „einige“ und ähnliche Wörter) die höchste Termfrequenz und damit das größte Gewicht im Modell aufweisen. Die Termfrequenz-Inverse Dokumentfrequenz (TF-IDF) ist eine Methode, um dies zu korrigieren. Sie berücksichtigt die Häufigkeit eines Wortes in allen Dokumenten eines Textkorpus und gewichtet Wörter in jedem Dokument entsprechend ihrer Häufigkeit im gesamten Korpus.6

Sobald Dokumente im Vektorraum gezeichnet sind, verwendet der LSA-Algorithmus die Metriken, um sie zu vergleichen. Die Metriken bezeichnen die Messung des Winkels zwischen zwei Vektoren im Vektorraum. Es kann ein beliebiger Wert zwischen -1 und 1 sein. Je höher der Kosinus-Score, desto ähnlicher werden die beiden Dokumente betrachtet. Die Metriken werden durch diese Formel dargestellt, wobei a und b zwei Dokumentvektoren bezeichnen:7

Gleichung für den Kosinus-Ähnlichkeitswert

Aktuelle Forschung

Es gibt zahlreiche Anwendungsfälle für Topic Models, von der Literaturkritik8 über die Bioinformatik9 bis hin zur Erkennung von Hassrede in sozialen Medien.10 Wie bei vielen NLP-Aufgaben bezieht sich ein erheblicher Teil der Forschung zur Themenmodellierung im Laufe der Jahre auf Englisch und andere lateinische Schriftsprachen. In jüngerer Zeit wurden jedoch auch Themenmodellierungsansätze für Arabisch und andere nicht-lateinische Sprachen erforscht.11 Die Forschung hat sich auch der Frage zugewandt, wie große Sprachmodelle (LLMs) Themenmodelle voranbringen und verbessern könnten. So wird in einer Studie argumentiert, dass LLMs eine automatisierte Methode zur Lösung langjähriger Probleme in der Themenmodellierung bieten, nämlich wie die geeignete Anzahl von Themen bestimmt und die generierten Themen bewertet werden.12

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Weitere Lösungen
IBM® watsonx™ Orchestrate®

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate
Tools und APIs zur Verarbeitung natürlicher Sprache

Steigern Sie den Geschäftswert der künstlichen Intelligenz mit einem leistungsstarken und flexiblen Portfolio aus Bibliotheken, Diensten und Anwendungen.

NLP-Lösungen erkunden
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Mit IBM® watsonx Orchestrate können Sie ganz einfach skalierbare KI-Assistenten und Agenten entwickeln, sich wiederholende Aufgaben automatisieren und komplexe Prozesse vereinfachen.

Entdecken Sie watsonx Orchestrate NLP-Lösungen erkunden
Fußnoten

1 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3. Edition, 2023, https://web.stanford.edu/~jurafsky/slp3/ (Link befindet sich außerhalb von ibm.com). 2 Jay Alammar und Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

4 Christopher Manning und Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 1999.

Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer und Richard Harshman, „Indexing by Latent Semantic Analysis“, Journal of the American Society for Information Science, Band 41, Nr. 6, 1990, S. 391–407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (Link befindet sich außerhalb von ibm.com). Alex Thomo, „Latent Semantic Analysis“, https://www.engr.uvic.ca/~seng474/svd.pdf (Link befindet sich außerhalb von ibm.com).

9 Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer und Richard Harshman, „Indexing by Latent Semantic Analysis“, Journal of the American Society for Information Science, Band 41, Nr. 6, 1990, S. 391–407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (Link befindet sich außerhalb von ibm.com).

4 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.

6 Alice Zheng und Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.

7 Elsa Negre, Information and Recommender Systems, Band 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.

14 Derek Greene, James O'Sullivan und Daragh O'Reilly, „Topic modelling literary interviews from The Paris Review“, Digital Scholarship in the Humanities, 2024,https://academic.oup.com/dsh/article/39/1/142/7515230?login=false(Linkbefindet sich außerhalb von ibm.com).

15 Yichen Zhang, Mohammadali (Sam) Khalilitousi und Yongjin Park, „Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling“, Cell Genomics, Band 3, Nr. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/ (Link befindet sich außerhalb von ibm.com). (Link befindet sich außerhalb von ibm.com).

16 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu und Neil F. Johnson, „Dynamic Topic Modeling Reveals Variations in Online Hate Narratives“, Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38 (Link befindet sich außerhalb von ibm.com).

17 Abeer Abuzayed und Hend Al-Khalifa, „BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique“, Procedia Computer Science, 2021, S. 191–194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 (Link befindet sich außerhalb von ibm.com) Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity und Shahad Alshalan, „Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach“, Journal of Medical Internet Research, Band 22, Nr. 12, 2020, https://www.jmir.org/2020/12/e22609/ (Link befindet sich außerhalb von ibm.com).

13 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan und Elliott Ash, „Revisiting Automated Topic Model Evaluation with Large Language Models“, Protokolle der 2023 stattgefundenen Conference on Empirical Methods in Natural Language Processing, 2023, S. 9348-9357, https://aclanthology.org/2023.emnlp-main.581/ (Link befindet sich außerhalb von ibm.com). (Link befindet sich außerhalb von ibm.com).