El análisis semántico latente (LSA) (también llamado indexación semántica latente) despliega una técnica conocida como descomposición de valores singulares para reducir la dispersión en la matriz documento-término. Esto alivia los problemas derivados de la polisemia y la sinonimia, es decir, palabras individuales con múltiples significados o varias palabras con un único significado compartido.
La escasez de datos significa que la mayoría de los valores de un conjunto de datos son nulos (es decir, están vacíos). Esto suele ocurrir cuando se construyen matrices documento-término, en las que cada palabra constituye una fila y una dimensión de espacio vectorial independiente, ya que los documentos suelen carecer de la mayoría de las palabras que pueden ser más frecuentes en otros documentos. Por supuesto, las técnicas de preprocesamiento de datos de texto, como la eliminación de palabras vacías o la derivación y lematización, pueden ayudar a reducir el tamaño de la matriz. LSA ofrece un enfoque más específico para reducir la escasez y la dimensionalidad.
La LSA comienza con la matriz documento-término, que muestra el número de veces que aparece cada palabra en cada documento. A partir de aquí, LSA produce una matriz documento a documento y una matriz término a término. Si las dimensiones de la matriz documento-término se definen como d documentos por w palabras, entonces la matriz documento-documento es d por d y la matriz término-término w por w. Cada valor de la matriz documento-documento indica el número de palabras que cada documento tiene en común. Cada valor de la matriz término a término indica el número de documentos en los que coexisten dos términos.9
Con estas dos matrices adicionales, el algoritmo LSA realiza una descomposición de valores singulares en la matriz documento-término inicial, produciendo nuevas matrices especiales de vectores propios. Estas matrices especiales desglosan las relaciones originales entre el documento y el término en factores linealmente independientes. Debido a que muchos de estos factores son cercanos a cero, se tratan como cero y se eliminan de las matrices. Esto reduce las dimensiones del modelo.10
Una vez reducidas las dimensiones del modelo mediante la descomposición del valor singular, el algoritmo LSA compara los documentos en el espacio dimensional inferior empleando la similitud del coseno. La similitud coseno significa la medida del ángulo entre dos vectores en el espacio vectorial. Puede ser cualquier valor entre -1 y 1. Cuanto mayor sea el puntaje del coseno, más parecidos se considerarán dos documentos. La similitud del coseno se representa mediante esta fórmula, donde x e y significan dos vectores de elementos en el espacio vectorial:11