Questa matrice mostra la frequenza di ogni parola in tutti e tre i documenti dopo la tokenizzazione e la rimozione delle stop word. Ogni colonna corrisponde a un documento, mentre ogni riga corrisponde a una parola specifica che si trova nell'intero corpus di testo. I valori nella matrice indicano il numero di volte in cui un dato termine appare in un dato documento. Se il termine w ricorre n volte all'interno del documento d, allora [w,d] = n. Così, per esempio, il documento 1 usa "red" due volte, e quindi [red, d1] = 2.
Dalla matrice dei termini del documento, l'LSA produce una matrice documento-documento e una matrice termine-termine. Se le dimensioni della matrice documento-termine sono definite come d documenti per w parole, allora la matrice documento-documento è d volte d e la matrice termine-termine è w volte w. Ogni valore nella matrice documento-documento indica il numero di parole che ogni documento ha in comune. Ogni valore nella matrice termine-termine indica il numero di documenti in cui co-occorrono due termini.3
La scarsità dei dati, che porta all'overfitting del modello, si verifica quando la maggior parte dei valori dei dati in un determinato set di dati è null (ovvero vuota). Ciò accade regolarmente quando si costruiscono matrici documento-termine, per le quali ogni singola parola è una dimensione di riga e spazio vettoriale separata, poiché un documento mancherà regolarmente della maggior parte delle parole che sono più frequenti in altri documenti. In effetti, l'esempio di matrice documento-termine qui utilizzata contiene numerosi usi per parole come Moses, violets e blue che appaiono in un solo documento. Naturalmente, le tecniche di pre-elaborazione del testo, come la rimozione delle parole non significative, lo stemming e la lemmatizzazione, possono aiutare a ridurre la scarsità. Tuttavia, l'LSA offre un approccio più mirato.