Cette matrice indique la fréquence de chaque mot dans les trois documents après le marquage sémantique et la suppression des mots vides. Chaque colonne correspond à un document, tandis que chaque ligne correspond à un mot spécifique trouvé dans l’ensemble du corpus de texte. Les valeurs de la matrice indiquent le nombre de fois qu’un terme donné apparaît dans un document donné. Si le terme w apparaît n fois dans le document d, alors [w,d] = n. Par exemple, le document 1 utilise deux fois « rouge », et donc [rouge, d1] = 2.
À partir de la matrice document-terme, la LSA produit une matrice document-document et une matrice terme-terme. Si les dimensions de la matrice terme-document sont définies comme d documents multipliés par w mots, alors la matrice document-document est d fois d, et la matrice terme-terme w fois w. Chaque valeur de la matrice document-document indique le nombre de mots que chaque document a en commun. Chaque valeur de la matrice terme-terme indique le nombre de documents dans lesquels deux termes coexistent.3
La parcimonie des données, qui conduit à un surajustement du modèle, se produit lorsque la majorité des valeurs de données d’un jeu de données donné sont nulles (c’est-à-dire, vides). Cela se produit régulièrement lors de la construction de matrices document-terme, pour lesquelles chaque mot individuel est une dimension de ligne et d’espace vectoriel distincte, car un document ne contiendra généralement pas la majorité des mots qui sont plus fréquents dans d’autres documents. En effet, la matrice document-terme de l’exemple utilisée ici contient de nombreuses utilisations pour des mots tels que Moïse, violettes et bleues qui n’apparaissent que dans un seul document. Bien entendu, les techniques de prétraitement de texte, telles que la suppression des mots vides, la dérivation et la lemmatisation, peuvent contribuer à réduire la parcimonie. La LSA offre cependant une approche plus ciblée.