El análisis semántico latente (LSA) (también llamado indexación semántica latente) implementa una técnica conocida como descomposición de valor singular para reducir la dispersión en la matriz documento-término. Esto alivia los problemas derivados de la polisemia y la sinonimia, es decir, palabras únicas con múltiples significados o varias palabras con un único significado compartido.
La escasez de datos se refiere esencialmente a cuando la mayoría de los valores en un conjunto de datos determinado son nulos (es decir, están vacíos). Esto ocurre con frecuencia cuando se construyen matrices documento-término, para las que cada palabra individual es una fila separada y una dimensión de espacio vectorial, ya que los documentos carecerán regularmente de la mayoría de las palabras que pueden ser más frecuentes en otros documentos. Por supuesto, las técnicas de preprocesamiento de datos de texto, como la eliminación de palabras vacías o el stemming y la lematización, pueden ayudar a reducir el tamaño de la matriz. El LSA ofrece un enfoque más específico para reducir la dispersión y la dimensionalidad.
El LSA comienza con la matriz documento-término, que muestra el número de veces que aparece cada palabra en cada documento. A partir de aquí, el LSA produce una matriz documento-documento y otra término-término. Si las dimensiones de la matriz documento-término se definen como d documentos por w palabras, entonces la matriz documento-documento es d por d y la matriz término-término w por w. Cada valor de la matriz documento-documento indica el número de palabras que cada documento tiene en común. Cada valor de la matriz término-término indica el número de documentos en los que dos términos coexisten9.
Mediante estas dos matrices adicionales, el algoritmo LSA realiza una descomposición de valores singulares en la matriz inicial documento-término, lo que produce nuevas matrices especiales de vectores propios. Estas matrices especiales desglosan las relaciones originales documento-término en factores linealmente independientes. Como muchos de estos factores son casi nulos, se tratan como cero y se eliminan de las matrices. Esto reduce las dimensiones del modelo10.
Una vez que las dimensiones del modelo se han reducido mediante la descomposición en valores singulares, el algoritmo LSA compara los documentos en el espacio dimensional inferior mediante la similitud coseno. Dicha similitud representa la medida del ángulo entre dos vectores en el espacio vectorial. Puede ser cualquier valor entre -1 y 1. Cuanto mayor sea la puntuación del coseno, más parecidos se considerarán dos documentos. La similitud coseno se representa mediante esta fórmula, donde x e y significan dos vectores de elementos en el espacio vectorial11: