Diese Matrix zeigt die Worthäufigkeit jedes Wortes in allen drei Dokumenten nach der Tokenisierung und der Stoppwortentfernung. Jede Spalte entspricht einem Dokument, während jede Zeile einem bestimmten Wort entspricht, das im gesamten Textkorpus zu finden ist. Die Werte in der Matrix geben an, wie oft ein bestimmter Begriff in einem bestimmten Dokument vorkommt. Wenn der Term w n-mal in Dokument d vorkommt, dann ist [w,d] = n. In Dokument 1 wird z. B. „rot“ zweimal verwendet, und so ist [rot, d1] = 2.
Aus der Dokument-Term-Matrix erzeugt LSA eine Dokument-Dokument-Matrix und eine Term-Term-Matrix. Wenn die Dimensionen der Dokument-Term-Matrix definiert sind als d Dokumente mal w Wörter, dann ist die Dokument-Dokument-Matrix d mal d und die Term-Term-Matrix w mal w. Jeder Wert in der Dokument-Dokument-Matrix gibt die Anzahl der Wörter an, die jedes Dokument gemeinsam hat. Jeder Wert in der Term-Term-Matrix gibt die Anzahl der Dokumente an, in denen zwei Begriffe gemeinsam vorkommen.9
Eine Datensparsamkeit, die zu einer Überanpassungdes Modells führt, liegt vor, wenn die Mehrheit der Datenwerte in einem bestimmten Datensatz null (d. h. leer) ist. Dies ist regelmäßig der Fall, wenn Dokument-Begriffsmatrizen erstellt werden, bei denen jedes einzelne Wort eine separate Zeilen- und Vektorraumdimension ist, da in einem Dokument regelmäßig die Mehrheit der Wörter fehlt, die in anderen Dokumenten häufiger vorkommen. In der Tat enthält die hier verwendete Beispiel-Dokument-Begriff-Matrix zahlreiche Verwendungsmöglichkeiten für Wörter wie Moses, Veilchen und Blau, die nur in einem Dokument vorkommen. Natürlich können Textvorverarbeitungstechniken wie das Entfernen von Stoppwörtern, Wortstammerkennung und Lemmatisierungdazu beitragen, die Seltenheit zu reduzieren. LSA bietet jedoch einen gezielteren Ansatz.