¿Qué es el análisis semántico latente?

Autor

Jacob Murel Ph.D.

Senior Technical Content Creator

Joshua Noble

Data Scientist

¿Qué es el análisis semántico latente?

En machine learning, el análisis semántico latente (LSA) es una técnica de modelado de temas que analiza la ocurrencia simultánea de palabras para descubrir temas latentes en los documentos. El LSA utiliza la reducción de dimensionalidad para crear datos estructurados a partir de texto no estructurado con el fin de ayudar a la clasificación y recuperación de texto.

El LSA es una de las dos principales técnicas de modelado de temas; la otra es la asignación latente de Dirichlet (LDA). El modelado de temas es una técnica de procesamiento de lenguaje natural que aplica el aprendizaje no supervisado a grandes conjuntos de datos de texto con el fin de producir un conjunto resumido de términos derivados de esos documentos. Estos términos pretenden representar el conjunto de temas principales de la colección. Por lo tanto, los modelos temáticos tienen como objetivo descubrir los temas latentes que caracterizan un conjunto de documentos.

Los usuarios pueden generar modelos de temas LSA utilizando el kit de herramientas de lenguaje natural (NLTK) de scikit-learn (comúnmente conocido como sklearn) y gensim en Python. Los modelos de temas y los paquetes lsa en R también contienen funciones para generar modelos de temas LSA.

Recuperación de información

El análisis semántico latente está asociado con la indexación semántica latente (LSI), que es una técnica de recuperación de información. En los sistemas de recuperación de información, el LSI utiliza el mismo procedimiento matemático subyacente al LSA para asignar consultas de usuarios a documentos basados en la ocurrencia simultánea de palabras. Si un usuario consulta un sistema por vals y foxtrot, es posible que le interesen documentos que no contengan ninguno de esos términos, pero que contengan términos que a menudo coexisten con sus términos de consulta. Por ejemplo, tango y bolero pueden coincidir con frecuencia con los términos de consulta y deben indicar documentos sobre el mismo tema. El LSI indexa los documentos de acuerdo con grupos de palabras semánticas latentes que consisten en palabras comúnmente concurrentes. De esta manera, puede mejorar los resultados de los motores de búsqueda. El LSA aplica el mismo procedimiento matemático que el LSI para capturar la estructura semántica oculta que subyace a grandes colecciones de documentos.2

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funciona el análisis semántico latente

Matriz documento-término

El LSA comienza con la matriz documento-término o, a veces, una matriz término-documento. Esto muestra el número de ocurrencias de cada palabra en todos los documentos. En Python (por dar un ejemplo), los usuarios pueden construir estas matrices empleando un marco de datos pandas. A continuación, se muestra un ejemplo de matriz documento-término que emplea las tres cadenas de texto como documentos individuales:

d1: Mi amor es como rosas rojas, rojas

d2: Las rosas son rojas, las violetas son azules

d3: Moisés supone que sus dedos de los pies son rosas

ejemplo de matriz documento-término con tres documentos

Esta matriz muestra la frecuencia de palabras de cada palabra en los tres documentos luego de la tokenización y la eliminación de palabras irrelevantes. Cada columna corresponde a un documento, mientras que cada fila corresponde a una palabra específica que se encuentra en todo el corpus de texto. Los valores de la matriz significan el número de veces que aparece un término determinado en un documento determinado. Si el término w aparece n veces dentro del documento d, entonces [w,d] = n. Entonces, por ejemplo, el documento 1 usa "rojo" dos veces, por lo que [rojo, d1] = 2.

A partir de la matriz documento-término, el LSA produce una matriz documento-documento y una matriz término-término. Si las dimensiones de la matriz documento-término se definen como d documentos por w palabras, entonces la matriz documento-documento es d por d y la matriz término-término w por w. Cada valor de la matriz documento-documento indica el número de palabras que cada documento tiene en común. Cada valor de la matriz término-término indica el número de documentos en los que coexisten dos términos.9

La escasez de datos, que maneja al sobreajuste del modelo, se produce cuando la mayoría de los valores de un conjunto de datos son nulos (es decir, vacíos). Esto sucede con frecuencia al construir matrices documento-término, donde cada palabra individual constituye una fila y una dimensión vectorial independientes, ya que un documento suele carecer de la mayoría de las palabras más frecuentes en otros documentos. De hecho, la matriz documento-término de ejemplo aquí utilizada contiene numerosos usos de palabras como Moisés, violetas y azul, que aparecen en un solo documento. Por supuesto, las técnicas de preprocesamiento de texto, como la eliminación de palabras vacías, la derivación y la lematización, pueden ayudar a reducir la escasez. Sin embargo, el LSA ofrece un enfoque más específico.

Reducción de la dimensionalidad

El LSA despliega una técnica de reducción de dimensionalidad conocida como descomposición de valor singular (SVD) para reducir la escasez en la matriz documento-término. La SVD impulsa muchos otros enfoques de reducción de dimensiones, como el análisis de componentes principales. El SVD ayuda a aliviar los problemas resultantes de la polisemia, palabras únicas que tienen múltiples significados, y la sinonimia, palabras diferentes con significado similar.

Utilizando las matrices calculadas a partir de los términos en las matrices documento-documento y término-término, el algoritmo LSA realiza el SVD en la matriz término-documento inicial. Esto produce nuevas matrices especiales de vectores propios que descomponen las relaciones originales entre el término y el documento en factores linealmente independientes. La más importante de ellas es la matriz diagonal de valores singulares producida a partir de las raíces cuadradas de los valores propios de la matriz documento-documento. En esta matriz diagonal, a menudo representada como Σ, los valores siempre son positivos y están dispuestos en orden decreciente en la diagonal de la matriz:

Ejemplo de una matriz sigma dispersa

Como se muestra en este ejemplo de matriz Σ, muchos de los valores más bajos están cerca de cero. El desarrollador determina un valor de corte apropiado para su situación y reduce todos los valores singulares en Σ por debajo de ese umbral a cero. Esto significa eliminar todas las filas y columnas completamente ocupadas por ceros. A su vez, eliminamos filas y columnas de nuestras otras matrices originales hasta que tengan el mismo número de filas y columnas que Σ. Esto reduce las dimensiones del modelo.4

Comparación de documentos

Una vez que las dimensiones del modelo se han reducido a través del SVD, el algoritmo LSA compara documentos en un espacio semántico de menor dimensión utilizando la similitud de coseno. El primer paso en esta etapa de comparación implica mapear documentos en espacio vectorial. Aquí, el LSA trata los textos como un modelo bag of words. El algoritmo traza cada texto del corpus como vector de documento, con palabras individuales de la matriz reducida como las dimensiones de ese vector. El trazado ignora el orden de las palabras y el contexto, y se centra en la frecuencia con la que aparecen las palabras y la frecuencia con la que coexisten en los documentos.5

Con los modelos estándar de bag of words, las palabras semánticamente irrelevantes (por ejemplo, palabras como the y some, y otras palabras similares) pueden tener la frecuencia de términos más alta y, por lo tanto, el mayor peso en un modelo. La frecuencia de término de frecuencia de documento inversa (TF-IDF) es una técnica para corregir esto. Para ello, tiene en cuenta la prevalencia de una palabra en todos los documentos de un conjunto de textos y pondera las palabras de cada documento de acuerdo con la prevalencia de la palabra en todo el corpus.6

Una vez que los documentos se trazan en el espacio vectorial, el algoritmo LSA utiliza la métrica de similitud del coseno para compararlos. La similitud del coseno significa la medición del ángulo entre dos vectores en el espacio vectorial. Puede ser cualquier valor entre -1 y 1. Cuanto mayor sea la puntuación del coseno, más parecidos se considerarán los dos documentos. La similitud del coseno se representa mediante esta fórmula, donde a y b significan dos vectores de documentos:7

ecuación de puntuación de similitud de coseno

Investigación reciente

Hay muchos casos de uso para los modelos temáticos, desde la crítica literaria8 hasta labioinformática 9 y la detección del discurso de odio en las redes sociales.10 Al igual que con muchas tareas de PLN, una proporción significativa de la investigación de modelado de temas a lo largo de los años se refiere al inglés y otros idiomas de escritura latina. Sin embargo, más recientemente, la investigación exploró enfoques de modelado de temas para el árabe y otros idiomas no latinos.17 La investigación también se ha centrado en cómo los modelos de lenguaje grandes (LLM) podrían avanzar y mejorar los modelos temáticos. Por ejemplo, un estudio sostiene que los LLM proporcionan un método automatizado para resolver problemas de larga data en el modelado de temas, a saber, cómo determinar el número adecuado de temas y cómo evaluar los temas generados.12

Mixture of Experts | 28 de agosto, episodio 70

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Soluciones relacionadas
IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate
Herramientas y API de procesamiento de lenguaje natural

Acelere el valor de negocio de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explorar las soluciones de PLN
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate Explorar las soluciones de PLN
Notas de pie de página

1 Daniel Jurafsky y James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3ra edición, 2023, https://web.stanford.edu/~jurafsky/slp3/ (enlace externo a ibm.com). Jay Alammar and Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

2 Christopher Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 2000.

3 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (link resides outside of ibm.com). Alex Thomo, “Latent Semantic Analysis,” https://www.engr.uvic.ca/~seng474/svd.pdf (link resides outside of ibm.com).

4 Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (link resides outside of ibm.com).

5 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.

6 Alice Zheng and Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.

7 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.

8 Derek Greene, James O'Sullivan, and Daragh O'Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024,https://academic.oup.com/dsh/article/39/1/142/7515230?login=false(link resides outside ibm.com).

9 Yichen Zhang, Mohammadali (Sam) Khalilitousi, and Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/ (enlace externo a ibm.com).

10 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, and Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38 (enlace externo a ibm.com).

11 Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, pp. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 (el enlace se encuentra fuera de ibm.com). Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, and Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609/ (enlace externo a ibm.com).

12 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, and Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, https://aclanthology.org/2023.emnlp-main.581/ (enlace externo a ibm.com).