Una vez que las dimensiones del modelo se han reducido a través del SVD, el algoritmo LSA compara documentos en un espacio semántico de menor dimensión utilizando la similitud de coseno. El primer paso en esta etapa de comparación implica mapear documentos en espacio vectorial. Aquí, el LSA trata los textos como un modelo bag of words. El algoritmo traza cada texto del corpus como vector de documento, con palabras individuales de la matriz reducida como las dimensiones de ese vector. El trazado ignora el orden de las palabras y el contexto, y se centra en la frecuencia con la que aparecen las palabras y la frecuencia con la que coexisten en los documentos.5

Con los modelos estándar de bag of words, las palabras semánticamente irrelevantes (por ejemplo, palabras como the y some, y otras palabras similares) pueden tener la frecuencia de términos más alta y, por lo tanto, el mayor peso en un modelo. La frecuencia de término de frecuencia de documento inversa (TF-IDF) es una técnica para corregir esto. Para ello, tiene en cuenta la prevalencia de una palabra en todos los documentos de un conjunto de textos y pondera las palabras de cada documento de acuerdo con la prevalencia de la palabra en todo el corpus.6

Una vez que los documentos se trazan en el espacio vectorial, el algoritmo LSA utiliza la métrica de similitud del coseno para compararlos. La similitud del coseno significa la medición del ángulo entre dos vectores en el espacio vectorial. Puede ser cualquier valor entre -1 y 1. Cuanto mayor sea la puntuación del coseno, más parecidos se considerarán los dos documentos. La similitud del coseno se representa mediante esta fórmula, donde a y b significan dos vectores de documentos:7