Esta matriz muestra la frecuencia de palabras de cada palabra en los tres documentos luego de la tokenización y la eliminación de palabras irrelevantes. Cada columna corresponde a un documento, mientras que cada fila corresponde a una palabra específica que se encuentra en todo el corpus de texto. Los valores de la matriz significan el número de veces que aparece un término determinado en un documento determinado. Si el término w aparece n veces dentro del documento d, entonces [w,d] = n. Entonces, por ejemplo, el documento 1 usa "rojo" dos veces, por lo que [rojo, d1] = 2.
A partir de la matriz documento-término, el LSA produce una matriz documento-documento y una matriz término-término. Si las dimensiones de la matriz documento-término se definen como d documentos por w palabras, entonces la matriz documento-documento es d por d y la matriz término-término w por w. Cada valor de la matriz documento-documento indica el número de palabras que cada documento tiene en común. Cada valor de la matriz término-término indica el número de documentos en los que coexisten dos términos.9
La escasez de datos, que maneja al sobreajuste del modelo, se produce cuando la mayoría de los valores de un conjunto de datos son nulos (es decir, vacíos). Esto sucede con frecuencia al construir matrices documento-término, donde cada palabra individual constituye una fila y una dimensión vectorial independientes, ya que un documento suele carecer de la mayoría de las palabras más frecuentes en otros documentos. De hecho, la matriz documento-término de ejemplo aquí utilizada contiene numerosos usos de palabras como Moisés, violetas y azul, que aparecen en un solo documento. Por supuesto, las técnicas de preprocesamiento de texto, como la eliminación de palabras vacías, la derivación y la lematización, pueden ayudar a reducir la escasez. Sin embargo, el LSA ofrece un enfoque más específico.