Esta matriz mostra a frequência de cada palavra em todos os três documentos após a tokenização e a remoção de palavras irrelevantes. Cada coluna corresponde a um documento, enquanto cada linha corresponde a uma palavra específica encontrada em todo o corpus de texto. Os valores na matriz significam o número de vezes que um determinado termo aparece em um determinado documento. Se o termo w ocorrer n vezes dentro do documento d, então [w,d] = n. Assim, por exemplo, o documento 1 usa "red" duas vezes, e portanto [red, d1] = 2.
A partir da matriz documento-term, a LSA produz uma matriz documento-documento e uma matriz termo-termo. Se as dimensões da matriz documento-termo forem definidas como d documentos vezes w palavras, então a matriz documento-documento será d vezes d, e a matriz termo-termo será w vezes w. Cada valor na matriz documento-documento indica o número de palavras que cada documento tem em comum. Cada valor na matriz termo-termo indica o número de documentos em que dois termos coocorrem.9
A escassez de dados, que leva ao overfitting do modelo, ocorre quando a maioria dos valores de dados em um determinado conjunto de dados é nula (ou seja, vazia). Isso acontece regularmente ao construir matrizes de termos de documentos, para as quais cada palavra individual é uma linha separada e uma dimensão de espaço vetorial, pois um documento normalmente não terá a maioria das palavras que são mais frequentes em outros documentos. De fato, o exemplo de matriz documento-termo aqui usado contém vários usos para palavras como Moses, violets e blue que aparecem em apenas um documento. É claro que técnicas de pré-processamento de texto, como remoção de palavras irrelevantes, stemming e lematização, can ajudam a reduzir a escassez. No entanto, a LSA oferece uma abordagem mais direcionada.