Die latente semantische Analyse (LSA) (auch als latente semantische Indexierung bezeichnet) verwendet eine Technik, die als Singularwertzerlegung bekannt ist, um die Lückenhaftigkeit in der Dokument-Begriff-Matrix zu reduzieren. Dies verringert Probleme, die durch Polysemie und Synonymie entstehen – also durch einzelne Wörter mit mehreren Bedeutungen oder mehrere Wörter mit einer einzigen gemeinsamen Bedeutung.
Datenarmut (Data Sparsity) bedeutet im Wesentlichen, dass die Mehrheit der Datenwerte in einem bestimmten Datensatz null (d. h. leer) ist. Dies geschieht regelmäßig bei der Erstellung von Dokument-Term-Matrizen, bei denen jedes einzelne Wort eine eigene Zeile und Vektorraumdimension ist, da in den Dokumenten regelmäßig ein Großteil der Wörter fehlt, die in anderen Dokumenten häufiger vorkommen. Natürlich können Techniken für die Vorverarbeitung von Textdaten, wie z.B. das Entfernen von Stoppwörtern oder Stemming und Lemmatization, zur Reduzierung der Matrixgröße beitragen. LSA bietet einen gezielteren Ansatz zur Reduzierung von Sparsity und Dimensionalität.
LSA beginnt mit der Dokument-Term-Matrix, die anzeigt, wie oft jedes Wort in jedem Dokument vorkommt. Auf dieser Grundlage erstellt LSA eine Dokument-Dokument-Matrix und eine Term-Term-Matrix. Wenn die Dimensionen der Dokument-Term-Matrix als d Dokumente mal w Wörter definiert sind, dann ist die Dokument-Dokument-Matrix d mal d und die Term-Term-Matrix w mal w. Jeder Wert in der Dokument-Dokument-Matrix gibt die Anzahl der Wörter an, die jedes Dokument gemeinsam hat. Jeder Wert in der Term-Term-Matrix gibt die Anzahl der Dokumente an, in denen zwei Begriffe gemeinsam vorkommen.9
Unter Verwendung dieser beiden zusätzlichen Matrizen führt der LSA-Algorithmus eine Einzelwertzerlegung der ursprünglichen Dokument-Term-Matrix durch und erzeugt so neue spezielle Matrizen von Eigenvektoren. Diese speziellen Matrizen zerlegen die ursprünglichen Dokument-Term-Beziehungen in linear unabhängige Faktoren. Da viele dieser Faktoren nahe Null liegen, werden sie als Null behandelt und aus den Matrizen gestrichen. Dadurch werden die Dimensionen des Modells reduziert.10
Sobald die Modelldimensionen durch die Singulärwertzerlegung reduziert wurden, vergleicht der LSA-Algorithmus die Dokumente im niedrigeren dimensionalen Raum anhand der Kosinusähnlichkeit. Unter Kosinus-Ähnlichkeit versteht man die Messung des Winkels zwischen zwei Vektoren im Vektorraum. Es kann sich um einen beliebigen Wert zwischen -1 und 1 handeln. Je höher der Kosinus-Wert, desto ähnlicher sind sich zwei Dokumente. Die Kosinusähnlichkeit wird durch diese Formel dargestellt, wobei x und y zwei Elementvektoren im Vektorraum bezeichnen:7