¿Qué es el modelado de temas?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

¿Qué es el modelado de temas?

En el procesamiento del lenguaje natural (PLN), el modelado de temas es una técnica de minería de textos que aplica el aprendizaje no supervisado en grandes conjuntos de textos para producir un conjunto resumido de términos que representan el conjunto principal general de temas de la colección1  .Los modelos temáticos ayudan en las tareas de clasificación de textos y recuperación de información.

Los modelos temáticos identifican específicamente palabras clave o frases comunes en un conjunto de datos de texto y agrupan esas palabras en una serie de temas. Su objetivo es descubrir los temas o temas latentes que caracterizan un conjunto de documentos. Así, los modelos de temas son una forma de análisis de texto basada en machine learning que se utiliza para anotar temáticamente grandes corpus de texto2.

Los usuarios pueden generar fácilmente modelos de temas con el kit de herramientas de lenguaje natural (NLTK) de scikit-learn y gensim en Python.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funciona el modelado de temas

Como método de aprendizaje no supervisado, los modelos de temas no requieren etiquetas generadas por el usuario de los datos de entrenamiento, como en las tareas de clasificación de texto supervisadas. En su lugar, los modelos de temas generan, y por extensión anotan, grandes colecciones de documentos con información temática en forma de grupos de palabras conocidos como temas3. Pero, ¿cómo producen los modelos de temas estos grupos de palabras?

El modelado de temas trata esencialmente cada documento individual de una colección de textos como un modelo de bag of words. Esto significa que el algoritmo de modelado de temas ignora el orden de las palabras y el contexto, centrándose simplemente en la frecuencia con la que aparecen las palabras y la frecuencia con la que coexisten dentro de cada documento individual4.

La mayoría de los enfoques de modelado de temas comienzan con la generación de una matriz documento-término. Esta matriz modela el conjunto de datos de texto con documentos como filas y palabras individuales como columnas, o viceversa. Los valores de la matriz indican la frecuencia con la que aparece una palabra determinada en cada documento. Esta matriz puede utilizarse para generar un espacio vectorial, donde n palabras equivalen a n dimensiones. El valor de una fila concreta indica la posición de ese documento en el espacio vectorial. Los documentos que utilizan palabras en grupos similares y con una frecuencia comparable estarán, por tanto, más cerca en el espacio vectorial. A partir de aquí, los modelos de temas tratan la proximidad en el espacio vectorial como documentos que comparten contenido conceptual o temas similares5.

Sin embargo, los modelos de temas no son sinónimo de bag of words. Mientras que esta última se limita a contar la presencia de palabras en una colección de documentos, los modelos de temas agrupan las palabras más comunes en conjuntos de temas. Cada tema se modela como una distribución de probabilidad en un vocabulario de palabras. Cada documento de la colección se representa entonces en términos de esos temas6. De esta manera, los modelos de temas intentan esencialmente aplicar ingeniería inversa a los discursos (es decir, los temas) que produjeron los documentos en cuestión7.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Tipos de algoritmos de modelado de temas

Los algoritmos de modelado de temas no son tanto métodos alternativos a una tarea como desarrollos secuenciales destinados a resolver los problemas encontrados inicialmente en los modelos de bag of words. La frecuencia de término-frecuencia inversa de documento (TF-IDF) es una modificación de la bag of words que pretende resolver los problemas derivados de las palabras comunes pero semánticamente irrelevantes, teniendo en cuenta la prevalencia de cada palabra en todos los documentos de un conjunto de textos. El análisis semántico latente (LSA) se basa en el TF-IDF con el objetivo principal de abordar la polisemia y la sinonimia. Esto dio origen al análisis semántico latente probabilístico, del cual surgió la asignación latente de Dirichlet. La característica distintiva de este último es que todos los documentos de una colección comparten el mismo conjunto de temas, aunque en diferentes proporciones8.

Análisis semántico latente

El análisis semántico latente (LSA) (también llamado indexación semántica latente) implementa una técnica conocida como descomposición de valor singular para reducir la dispersión en la matriz documento-término. Esto alivia los problemas derivados de la polisemia y la sinonimia, es decir, palabras únicas con múltiples significados o varias palabras con un único significado compartido.

La escasez de datos se refiere esencialmente a cuando la mayoría de los valores en un conjunto de datos determinado son nulos (es decir, están vacíos). Esto ocurre con frecuencia cuando se construyen matrices documento-término, para las que cada palabra individual es una fila separada y una dimensión de espacio vectorial, ya que los documentos carecerán regularmente de la mayoría de las palabras que pueden ser más frecuentes en otros documentos. Por supuesto, las técnicas de preprocesamiento de datos de texto, como la eliminación de palabras vacías o el stemming y la lematización, pueden ayudar a reducir el tamaño de la matriz. El LSA ofrece un enfoque más específico para reducir la dispersión y la dimensionalidad.

El LSA comienza con la matriz documento-término, que muestra el número de veces que aparece cada palabra en cada documento. A partir de aquí, el LSA produce una matriz documento-documento y otra término-término. Si las dimensiones de la matriz documento-término se definen como d documentos por w palabras, entonces la matriz documento-documento es d por d y la matriz término-término w por w. Cada valor de la matriz documento-documento indica el número de palabras que cada documento tiene en común. Cada valor de la matriz término-término indica el número de documentos en los que dos términos coexisten9.

Mediante estas dos matrices adicionales, el algoritmo LSA realiza una descomposición de valores singulares en la matriz inicial documento-término, lo que produce nuevas matrices especiales de vectores propios. Estas matrices especiales desglosan las relaciones originales documento-término en factores linealmente independientes. Como muchos de estos factores son casi nulos, se tratan como cero y se eliminan de las matrices. Esto reduce las dimensiones del modelo10.

Una vez que las dimensiones del modelo se han reducido mediante la descomposición en valores singulares, el algoritmo LSA compara los documentos en el espacio dimensional inferior mediante la similitud coseno. Dicha similitud representa la medida del ángulo entre dos vectores en el espacio vectorial. Puede ser cualquier valor entre -1 y 1. Cuanto mayor sea la puntuación del coseno, más parecidos se considerarán dos documentos. La similitud coseno se representa mediante esta fórmula, donde x e y significan dos vectores de elementos en el espacio vectorial11:

Ilustración de la fórmula de similitud del coseno

Asignación latente de Dirichlet

La asignación latente de Dirichlet (LDA) (que no debe confundirse con el análisis discriminante lineal), es un algoritmo de modelado probabilístico de temas. Esto significa que genera temas, clasificando palabras y documentos entre estos temas, según distribuciones de probabilidad. Con la matriz documento-término, el algoritmo LDA genera distribuciones de temas (es decir, listas de palabras clave con respectivas probabilidades) según la frecuencia de palabras y las coocurrencias. Se supone que las palabras que aparecen juntas probablemente forman parte de temas similares. El algoritmo asigna distribuciones documento-tema basadas en los grupos de palabras que aparecen en el documento dado12.

Por ejemplo, supongamos que generamos un modelo LDA para una colección de artículos de noticias que tiene la siguiente salida parcial:

Ilustración que representa un modelo LDA

Estos son dos temas que pueden describirse como inmigración (Tema 1) y astronomía (Tema 2). Las puntuaciones adjuntas a cada palabra son la probabilidad de que esa palabra clave aparezca en su tema dado. Las probabilidades adjuntas a cada documento son las probabilidades respectivas de que ese documento pertenezca a una mezcla de temas, dada la distribución y la coocurrencia de palabras de cada tema dentro de ese documento. Por ejemplo, la primera fila de la tabla enumera el borde bajo el Tema 1 con una probabilidad del 40 % y un espacio en el Tema 2 con una probabilidad del 60 %. Estos porcentajes indican la probabilidad de que sus respectivos términos aparezcan en ese tema a lo largo de todo el corpus. La primera fila del documento dice Documento 1: Tema 1: .95, Tema 2: .05. Esto significa que, basándose en la aparición de palabras en el Documento 1, el modelo proyecta que el Documento 1 se deriva en un 95 % del Tema 1 y un 5 % del Tema 2. En otras palabras, nuestro modelo hipotético LDA asume que estos son los temas y las proporciones de esos temas utilizados para generar el modelo.

Por supuesto, las palabras polisémicas en particular crean problemas para categorías tan discretas; por ejemplo, alienígena puede hacer referencia a un inmigrante humano o a una criatura extraterrestre. Si nuestro algoritmo encuentra un alienígena en un documento, ¿cómo determina a qué tema pertenece la palabra (y por extensión, el documento)?

Al asignar temas a las palabras, el algoritmo LDA utiliza lo que se conoce como muestreo de Gibbs. La fórmula de muestreo de Gibbs es:

Ilustración de la fórmula de Gibbs

Comprender las operaciones exactas de esta ecuación y sus hiperparámetros requiere conocimientos básicos de estadística y de las técnicas de Monte Carlo basadas en cadenas de Markov (estas últimas se emplean a menudo en el aprendizaje por refuerzo). No obstante, podemos resumir los componentes principales de la ecuación:

  • El primer ratio expresa la probabilidad del tema t en el documento d. El algoritmo calcula esta probabilidad según el número de palabras del documento d que pertenecen al tema t. Esto pregunta esencialmente: ¿cuál es la prevalencia del tema t en el documento d?
  • La segunda relación expresa la probabilidad de que la palabra w pertenezca al tema t. El algoritmo calcula esta probabilidad enumerando las ocurrencias de w en t sobre todos los tokens de palabras en t. Se pregunta: ¿con qué frecuencia aparece la palabra w en el tema t en el resto del corpus?

Tenga en cuenta que el muestreo de Gibbs es un proceso iterativo. Es decir, una palabra no se muestrea una vez, se le asigna un tema y se desecha. Más bien, el muestreo de Gibbs pasa cada palabra por múltiples iteraciones, actualizando las probabilidades tema-palabra en función de las demás13.

Investigación reciente

Hay muchos casos de uso para los modelos de temas, desde la crítica literaria14 hasta la bioinformática15 y la detección de discursos de odio en las redes sociales16. Como ocurre con muchas tareas de PLN, una proporción importante de la investigación sobre modelos de temas a lo largo de los años se refiere al inglés y otros lenguajes de escritura latina. Sin embargo, en los últimos años se han estudiado modelos de temas para el árabe y otras lenguas no latinas17.

La investigación en curso también aborda las métricas de evaluación de los modelos de temas. De hecho, no se utiliza ninguna métrica para evaluar los modelos de temas. Las métricas de evaluación anteriores han adoptado enfoques cualitativos y cuantitativos. El primero requiere un conocimiento significativo y específico del dominio para evaluar los términos clave del modo de tema para su interpretabilidad18. Las medidas cuantitativas consisten en puntuaciones de coherencia y de log-verosimilitud, que tienen como objetivo medir la probabilidad y la cohesión de los temas dentro de un modelo19. Sin embargo, un amplio conjunto de investigaciones sostiene que estas métricas cuantitativas pueden no ser fiables20.

En un intento por resolver problemas relacionados con la evaluación de modelos de temas, un estudio investiga las aplicaciones de inteligencia artificial , en particular los modelos de lenguaje de gran tamaño (LLM), como medio para diseñar y evaluar modelos LDA para objetivos de investigación específicos. Los LLM, sostiene el estudio, pueden ayudar a resolver problemas de larga data en el modelado de temas, a saber, cómo determinar y evaluar el número adecuado de temas21. Otros estudios también recurren a las aplicaciones de LLM como medio para abordar la brecha de evaluación en el modelado de temas22.

Soluciones relacionadas
IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate
Herramientas y API de procesamiento del lenguaje natural

Acelere el valor empresarial de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explore soluciones de PLN
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate Explore soluciones de PLN
Notas a pie de página

Daniel Jurafsky y James Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3ª edición. 2023. https://web.stanford.edu/~jurafsky/slp3/

2 Jay Alammar y Maarten Grootendorst. Hands-On Large Language Models [Modelos de lenguaje de gran tamaño prácticos]. O’Reilly. 2024.

3 David Blei. “Probabilistic Topic Models” [Modelos probabilísticos de temas]. Communications of the ACM. Vol. 55. Nº. 4. 2012. pp. 77-84.

4 Matthew Jockers. Text Analysis with R for Students of Literature [Análisis de texto con R para estudiantes de literatura]. Springer. 2014.

5 Cole Howard, Hobson Lane y Hannes Hapke. Natural Language Processing in Action [Procesamiento del lenguaje natural en acción]. Manning Publications. 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana. Practical Natural Language Processing [Procesamiento del lenguaje natural práctico]. O’Reilly. 2020.

6 Chandler Camille May. “Topic Modeling in Theory and Practice” [Modelado de temas en teoría y práctica]. Tesis doctoral. John Hopkins University. 2022.

7 Practical Natural Language Processing [Procesamiento del lenguaje natural práctico]. O’Reilly. David Blei. “Probabilistic Topic Models” [Modelos probabilísticos de temas]. Communications of the ACM. Vol. 55. Nº. 4. 2012. pp. 77-84.

8 Cole Howard, Hobson Lane y Hannes Hapke. Natural Language Processing in Action [Procesamiento del lenguaje natural en acción]. Manning Publications. Deerwester. “Indexing by Latent Semantic Analysis” [Indexación mediante análisis semántico latente]. David Blei. “Probabilistic Topic Models” [Modelos probabilísticos de temas]. Communications of the ACM. Vol. 55. Nº. 4. 2012. pp. 77-84.

9 Hana Nelson. Essential Math for AI. O’Reilly. 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer y Richard Harshman. “Indexing by Latent Semantic Analysis”. Journal of the American Society for Information Science. Vol. 41. N.º 6. 1990. pp. 391-407. https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

10 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer y Richard Harshman. “Indexing by Latent Semantic Analysis”. Journal of the American Society for Information Science. Vol. 41. N.º 6. 1990. pp. 391-407. https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

11 Elsa Negre. Information and Recommender Systems [Información y sistemas de recomendación]. Vol. 4. Wiley-ISTE. 2015. Hana Nelson. Essential Math for AI [Matemáticas esenciales para la IA]. O’Reilly. 2023.

12 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana. Practical Natural Language Processing [Procesamiento del lenguaje natural práctico]. O’Reilly, 2020. David Blei, Andrew Ng y Michael Jordan. “Lantent Dirichlet Allocation” [Asignación latente de Dirichlet]. Journal of Machine Learning Research. Vol. 3. 2003. pp. 993-1022.

13 Zhiyuan Chen y Bing Liu. “Topic Models for NLP Applications” [Modelos de temas para aplicaciones de PLN]. Encyclopedia of Machine Learning and Data Science. Springer. 2020.

14 Derek Greene, James O’Sullivan y Daragh O’Reilly. “Topic modelling literary interviews from The Paris Review”. Digital Scholarship in the Humanities. 2024. https://academic.oup.com/dsh/article/39/1/142/7515230?login=false

15 Yichen Zhang, Mohammadali (Sam) Khalilitousi y Yongjin Park. “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling”. Cell Genomics. Vol. 3. N.º 9. 2023. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/

16 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu y Neil F. Johnson. “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives”. Intelligent Computing. 2022. https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38

17 Abeer Abuzayed y Hend Al-Khalifa. “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique”. Procedia Computer Science. 2021. pp. 191-194. https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity y Shahad Alshalan. “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach”. Journal of Medical Internet Research. Vol. 22. N.º 12. 2020. https://www.jmir.org/2020/12/e22609.

18 Matthew Gillings y Andrew Hardie. “The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice”. Digital Scholarship in the Humanities. Vol. 38. N.º 2. 2023. Pp. 530–543. https://academic.oup.com/dsh/article-abstract/38/2/530/6957052.

19 Chandler Camille May. “Topic Modeling in Theory and Practice” [Modelado de temas en teoría y práctica]. Tesis doctoral. John Hopkins University. 2022.

20 Zachary Lipton. “The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery”. Queue. Vol. 13. N.º 3. 2018. Pp. 31-57. https://dl.acm.org/doi/10.1145/3236386.3241340. Caitlin Doogan y Wray Buntine. “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures”. Actas de la 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies”. 2021. Pp. 3824-3848. https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber y Philip Resnik. “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence”. Advances in Neural Processing Systems. Vol. 34. 2021. https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html.

21 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan y Elliott Ash. “Revisiting Automated Topic Model Evaluation with Large Language Models”. Actas de la 2023 Conference on Empirical Methods in Natural Language Processing. 2023. https://aclanthology.org/2023.emnlp-main.581

22 Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli y Daniela Ushizima. “Benchmarking topic models on scientific articles using BERTeley”. Natural Language Processing Journal. Vol. 6. 2024. Pp. 2949-7191. https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem y Roy Ka-Wei Lee. “Prompting Large Language Models for Topic Modeling”. Actas de la 2023 IEEE International Conference on Big Data. 2023. Pp. 1236-1241. https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy