Esta matriz muestra la frecuencia de cada palabra en los tres documentos tras la tokenización y la eliminación de palabras vacías. Cada columna corresponde a un documento, mientras que cada fila corresponde a una palabra específica que se encuentra en todo el corpus de texto. Los valores de la matriz indican el número de veces que aparece un término determinado en un documento determinado. Si el término w aparece n veces en el documento d, entonces [w,d] = n. Así, por ejemplo, el documento 1 utiliza "red" dos veces, por lo que [red, d1] = 2.
A partir de la matriz documento-término, el LSA produce una matriz documento-documento y una matriz término-término. Si las dimensiones de la matriz documento-término se definen como d documentos por w palabras, entonces la matriz documento-documento es d por d y la matriz término-término w por w. Cada valor de la matriz documento-documento indica el número de palabras que tiene en común cada documento. Cada valor de la matriz término-término indica el número de documentos en los que dos términos coexisten9.
La escasez de datos, que conduce al modelo a un sobreajuste, se produce cuando la mayoría de los valores de los datos de un conjunto de datos determinado son nulos (es decir, están vacíos). Esto ocurre regularmente cuando se construyen matrices documento-término, para las que cada palabra individual es una fila y una dimensión de espacio vectorial independiente, ya que un documento carecerá regularmente de la mayoría de las palabras que son más frecuentes en otros documentos. De hecho, el ejemplo de matriz documento-término aquí utilizado contiene numerosos usos de palabras como Moses, violets y blue que solo aparecen en un documento. Por supuesto, las técnicas de preprocesamiento del texto, como la eliminación de las palabras vacías, el stemming y la lematización, pueden ayudar a reducir la escasez. Sin embargo, el LSA ofrece un enfoque más específico.