¿Qué es el análisis semántico latente?

Autor

Jacob Murel Ph.D.

Senior Technical Content Creator

Joshua Noble

Data Scientist

¿Qué es el análisis semántico latente?

En machine learning, el análisis semántico latente (LSA) es una técnica de modelado de temas que analiza la coocurrencia de palabras para descubrir temas latentes en los documentos. El LSA utiliza la reducción de la dimensionalidad para crear datos estructurados a partir de texto no estructurado con el fin de ayudar a la clasificación y recuperación del texto.

El LSA es una de las dos principales técnicas de modelado de temas, la otra es la asignación latente de Dirichlet (LDA). El modelado de temas es una técnica de procesamiento del lenguaje natural (PLN) que aplica el aprendizaje no supervisado en conjuntos de datos de texto grandes para producir un conjunto resumido de términos derivados de esos documentos. Estos términos están destinados a representar el conjunto principal general de temas de la colección. Los modelos de temas pretenden descubrir los temas latentes que caracterizan a un conjunto de documentos1.

Los usuarios pueden generar modelos de temas LSA con el kit de herramientas de lenguaje natural (NLTK) de scikit-learn (comúnmente conocido como sklearn) y gensim en Python. Los modelos de temas y los paquetes lsa en R también contienen funciones para generar modelos de temas LSA.

Recuperación de información

El análisis semántico latente se asocia con la indexación semántica latente (LSI), que es una técnica de  recuperación de información. En los sistemas de recuperación de información, la LSI utiliza el mismo procedimiento matemático subyacente al LSA para asignar consultas de usuario a documentos basados en la coocurrencia de palabras. Si un usuario consulta un sistema en busca de vals y foxtrot, es posible que le interesen documentos que no contengan ninguno de esos términos, pero que contengan términos que a menudo coexisten con sus términos de consulta. Por ejemplo, el tango y el bolero pueden coincidir con frecuencia con los términos de consulta y deben indicar documentos sobre el mismo tema. La LSI indexa los documentos de acuerdo con grupos de palabras semánticas latentes que consisten en palabras que ocurren a la vez de manera habitual. De esta manera, puede mejorar los resultados de los motores de búsqueda. El LSA aplica el mismo procedimiento matemático que la LSI para capturar la estructura semántica oculta que subyace a grandes colecciones de documentos2.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funciona el análisis semántico latente

Matriz documento-término

El LSA comienza con la matriz documento-término o, a veces, una matriz término-documento. Esto muestra el número de apariciones de cada palabra en todos los documentos. En Python (por poner un ejemplo), los usuarios pueden construir estas matrices utilizando un dataframe de pandas. He aquí un ejemplo de matriz documento-término que utiliza las tres cadenas de texto como documentos individuales:

d1: My love is like red, red roses

d2: Roses are red, violets are blue

d3: Moses supposes his toes-es are roses

ejemplo de matriz documento-término con tres documentos

Esta matriz muestra la frecuencia de cada palabra en los tres documentos tras la tokenización y la eliminación de palabras vacías. Cada columna corresponde a un documento, mientras que cada fila corresponde a una palabra específica que se encuentra en todo el corpus de texto. Los valores de la matriz indican el número de veces que aparece un término determinado en un documento determinado. Si el término w aparece n veces en el documento d, entonces [w,d] = n. Así, por ejemplo, el documento 1 utiliza "red" dos veces, por lo que [red, d1] = 2.

A partir de la matriz documento-término, el LSA produce una matriz documento-documento y una matriz término-término. Si las dimensiones de la matriz documento-término se definen como d documentos por w palabras, entonces la matriz documento-documento es d por d y la matriz término-término w por w. Cada valor de la matriz documento-documento indica el número de palabras que tiene en común cada documento. Cada valor de la matriz término-término indica el número de documentos en los que dos términos coexisten9.

La escasez de datos, que conduce al modelo a un sobreajuste, se produce cuando la mayoría de los valores de los datos de un conjunto de datos determinado son nulos (es decir, están vacíos). Esto ocurre regularmente cuando se construyen matrices documento-término, para las que cada palabra individual es una fila y una dimensión de espacio vectorial independiente, ya que un documento carecerá regularmente de la mayoría de las palabras que son más frecuentes en otros documentos. De hecho, el ejemplo de matriz documento-término aquí utilizado contiene numerosos usos de palabras como Moses, violets y blue que solo aparecen en un documento. Por supuesto, las técnicas de preprocesamiento del texto, como la eliminación de las palabras vacías, el stemming y la lematización, pueden ayudar a reducir la escasez. Sin embargo, el LSA ofrece un enfoque más específico.

Reducción de dimensionalidad

El LSA implementa una técnica de reducción de dimensionalidad conocida como descomposición de valores singulares (SVD) para reducir la dispersión en la matriz documento-término. La SVD impulsa muchos otros enfoques de reducción de dimensiones, como el análisis de componentes principales. La SVD ayuda a aliviar los problemas derivados de la polisemia, palabras únicas que tienen múltiples significados, y la sinonimia, palabras diferentes con significado similar.

A partir de las matrices calculadas con los términos en las matrices documento-documento y término-término, el algoritmo LSA realiza la SVD en la matriz término-documento inicial. Esto produce nuevas matrices especiales de vectores propios que descomponen las relaciones originales entre el término y el documento en factores linealmente independientes. La más importante de ellas es la matriz diagonal de valores singulares producida a partir de las raíces cuadradas de los valores propios de la matriz documento-documento. En esta matriz diagonal, a menudo representada como Σ, los valores son siempre positivos y están dispuestos en orden decreciente en la diagonal de la matriz:

Ejemplo de matriz sigma dispersa

Como se muestra en este ejemplo de matriz Σ, muchos de los valores más bajos están cerca de cero. El desarrollador determina un valor de corte apropiado para su situación y reduce a cero todos los valores singulares en Σ por debajo de ese umbral. Esto significa eliminar todas las filas y columnas completamente ocupadas por ceros. A su vez, eliminamos filas y columnas de nuestras otras matrices originales hasta que tengan el mismo número de filas y columnas que Σ. Esto reduce las dimensiones del modelo4.

Comparación de documentos

Una vez que las dimensiones del modelo se han reducido mediante SVD, el algoritmo LSA compara los documentos en un espacio semántico de menor dimensión utilizando la similitud del coseno. El primer paso en esta etapa de comparación implica mapear documentos en espacio vectorial. Aquí, la LSA trata los textos como un modelo bag of words. El algoritmo traza cada texto del corpus o corpus como vector de documento, con palabras individuales de la matriz reducida como las dimensiones de ese vector. El trazado ignora el orden de las palabras y el contexto, centrándose en cambio en la frecuencia con la que aparecen las palabras y la frecuencia con la que coexisten en los documentos5.

Con los modelos estándar de bag of words, las palabras semánticamente irrelevantes (por ejemplo, palabras como the y some y otras palabras similares) pueden tener la mayor frecuencia de términos y, por lo tanto, el mayor peso en un modelo. El término frecuencia de documento de frecuencia inversa (TF-IDF) es una técnica para corregir esto. Para ello, tiene en cuenta la prevalencia de una palabra en todos los documentos de un conjunto de textos y pondera las palabras de cada documento en función de la prevalencia de la palabra en todo el corpus6.

Una vez que los documentos se trazan en el espacio vectorial, el algoritmo LSA utiliza la métrica de similitud del coseno para compararlos. La similitud de coseno significa la medida del ángulo entre dos vectores en el espacio vectorial. Puede ser cualquier valor entre -1 y 1. Cuanto mayor sea la puntuación del coseno, más parecidos se considerarán los dos documentos. La similitud de coseno se representa mediante esta fórmula, donde a y b significan dos vectores de documento:7

ecuación de puntuación de similitud coseno

Investigación reciente

Hay muchos casos de uso para los modelos temáticos, desde la crítica literaria8 hasta la bioinformática 9 y la detección del discurso de odio en las redes sociales10Al igual que con muchas tareas de PLN, una proporción significativa de la investigación sobre modelado de temas a lo largo de los años se refiere al inglés y a otros idiomas de escritura latina. Sin embargo, más recientemente, la investigación ha explorado enfoques de modelado de temas para el árabe y otros idiomas no latinos11La investigación también se ha centrado en cómo los modelos de lenguaje de gran tamaño (LLM) podrían avanzar y mejorar los modelos temáticos. Por ejemplo, un estudio sostiene que los LLM proporcionan un método automatizado para resolver problemas de larga data en el modelado de temas, a saber, cómo determinar el número adecuado de temas y cómo evaluar los temas generados12.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Soluciones relacionadas
IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate
Herramientas y API de procesamiento del lenguaje natural

Acelere el valor empresarial de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explore soluciones de PLN
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate Explore soluciones de PLN
Notas a pie de página

1 Daniel Jurafsky y James Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3ª edición. 2023. https://web.stanford.edu/~jurafsky/slp3/ (enlace externo a ibm.com). Jay Alammar y Maarten Grootendorst. Hands-On Large Language Models. O’Reilly. 2024.

2 Christopher Manning y Hinrich Schütze. Foundations of Statistical Natural Language Processing. MIT Press. 2000.

3 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer y Richard Harshman. “Indexing by Latent Semantic Analysis”. Journal of the American Society for Information Science. Vol. 41. N.º 6. 1990. pp. 391-407. https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (enlace externo a ibm.com). Alex Thomo. “Latent Semantic Analysis”. https://www.engr.uvic.ca/~seng474/svd.pdf (enlace externo a ibm.com).

4 Hana Nelson. Essential Math for AI. O’Reilly. 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer y Richard Harshman. “Indexing by Latent Semantic Analysis”. Journal of the American Society for Information Science. Vol. 41. N.º 6. 1990. pp. 391-407. https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (enlace externo a ibm.com).

5 Matthew Jockers. Text Analysis with R for Students of Literature. Springer. 2014.

6 Alice Zheng y Amanda Casari. Feature Engineering for Machine Learning. O’Reilly. 2018.

7 Elsa Negre. Information and Recommender Systems. Vol. 4. Wiley-ISTE. 2015. Hana Nelson. Essential Math for AI. O’Reilly. 2023.

8 Derek Greene, James O'Sullivan y Daragh O'Reilly. “Topic modelling literary interviews from The Paris Review”. Digital Scholarship in the Humanities. 2024.https://academic.oup.com/dsh/article/39/1/142/7515230?login=false(enlace externo a ibm.com).

9 Yichen Zhang, Mohammadali (Sam) Khalilitousi y Yongjin Park. “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling”. Cell Genomics. Vol. 3. N.º 9. 2023. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/ (enlace externo a ibm.com).

10 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu y Neil F. Johnson. “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives”. Intelligent Computing. 2022. https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38 (enlace externo a ibm.com).

11 Abeer Abuzayed y Hend Al-Khalifa. “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique”. Procedia Computer Science. 2021. pp. 191-194. https://www.sciencedirect.com/science/article/pii/S1877050921012199 (enlace externo a  ibm.com). Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity y Shahad Alshalan. “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach”. Journal of Medical Internet Research. Vol. 22. N.º 12. 2020. https://www.jmir.org/2020/12/e22609/ (enlace externo a ibm.com).

12 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan y Elliott Ash. “Revisiting Automated Topic Model Evaluation with Large Language Models”. Actas de la 2023 Conference on Empirical Methods in Natural Language Processing. 2023. https://aclanthology.org/2023.emnlp-main.581/ (enlace externo a ibm.com).