Mi IBM Iniciar sesión Suscríbase

¿Qué es el modelado de temas?

30 de marzo de 2024

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Los modelos de temas son un método de PLN no supervisado para resumir datos de texto a través de grupos de palabras. Ayudan en las tareas de clasificación de textos y recuperación de información.

En el procesamiento de lenguaje natural (PLN), el modelado de temas es una técnica de minería de textos que aplica el aprendizaje no supervisado en grandes conjuntos de textos para producir un conjunto resumido de términos derivados de esos documentos que representan el conjunto principal general de temas de la colección.Los modelos de temas identifican específicamente palabras clave o frases comunes en un conjunto de datos de texto y agrupan esas palabras en una serie de temas. Por lo tanto, los modelos temáticos tienen como objetivo descubrir los temas latentes o temas que caracterizan un conjunto de documentos. De esta manera, los modelos de temas son una forma de análisis de texto basada en el machine learning que se emplea para anotar temáticamente grandes corpus de texto.2

Los usuarios pueden generar fácilmente modelos de temas utilizando el kit de herramientas de lenguaje natural (NLTK) de scikit-learn y gensim en Python.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA 


Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Cómo funciona el modelado de temas

Como método de aprendizaje no supervisado, los modelos de temas no requieren etiquetas de datos de entrenamiento generadas por el usuario, como en las tareas de clasificación de texto supervisado . Más bien, los modelos de temas generan y, por extensión, anotan grandes colecciones de documentos con información temática en forma de grupos de palabras conocidos como temas.3 Pero, ¿cómo producen los modelos temáticos estos grupos de palabras?

El modelado de temas esencialmente trata cada documento individual en una colección de textos como un modelo bag of words. Esto significa que el algoritmo de creación de modelos de temas ignora el orden de las palabras y el contexto, ya que simplemente se centra en la frecuencia con la que aparecen las palabras y la frecuencia con la que coexisten dentro de cada documento individual.4

La mayoría de los enfoques de creación de modelos de temas comienzan generando una matriz documento-término. Esta matriz modela el conjunto de datos de texto con documentos como filas y palabras individuales como columnas, o viceversa. Los valores de la matriz indican la frecuencia con la que una palabra determinada aparece en cada documento. Esta matriz se puede emplear luego para generar un espacio vectorial, donde n palabras equivalen a n dimensiones. El valor de una fila determinada indica la posición de ese documento en el espacio vectorial. Los documentos que emplean palabras en grupos similares y con una frecuencia comparable residirán más cerca unos de otros en el espacio vectorial. A partir de aquí, los modelos de temas tratan la proximidad en el espacio vectorial como documentos que comparten contenido conceptual o temas similares.5

Sin embargo, los modelos temáticos no son sinónimo de Bag of words. Mientras que este último simplemente cuenta la presencia de palabras dentro de una colección de documentos, los modelos de temas agrupan palabras que comúnmente coexisten en conjuntos de temas. Cada tema se modela como una distribución de probabilidad a través de un vocabulario de palabras. Cada documento de la colección se representa en términos de esos temas.6 De esta manera, los modelos de temas esencialmente intentan aplicar ingeniería inversa a los discursos (es decir, los temas) que produjeron los documentos en cuestión.7

Mixture of Experts | Podcast

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Tipos de algoritmos de modelado de temas

Los algoritmos de modelado de temas no son tanto métodos alternativos a una tarea como desarrollos secuenciales destinados a resolver problemas encontrados inicialmente en modelos de Bag of words. La recurrencia del término frecuencia inversa de documentos (TF-IDF) es una modificación de una Bag of words destinada a abordar los problemas resultantes de palabras comunes pero semánticamente irrelevantes al tener en cuenta la prevalencia de cada palabra en cada documento en un conjunto de texto. El análisis semántico latente se basa en TF-IDF con la intención principal de abordar la polisemia y la sinonimia. Esto dio origen al análisis semántico latente probabilístico, a partir del cual creció la asignación latente de Dirichlet. La característica distintiva de este último es que todos los documentos de una colección comparten el mismo conjunto de temas, aunque en proporciones diferentes.8

Análisis semántico latente

El análisis semántico latente (LSA) (también llamado indexación semántica latente) despliega una técnica conocida como descomposición de valores singulares para reducir la dispersión en la matriz documento-término. Esto alivia los problemas derivados de la polisemia y la sinonimia, es decir, palabras individuales con múltiples significados o varias palabras con un único significado compartido.

La escasez de datos significa que la mayoría de los valores de un conjunto de datos son nulos (es decir, están vacíos). Esto suele ocurrir cuando se construyen matrices documento-término, en las que cada palabra constituye una fila y una dimensión de espacio vectorial independiente, ya que los documentos suelen carecer de la mayoría de las palabras que pueden ser más frecuentes en otros documentos. Por supuesto, las técnicas de preprocesamiento de datos de texto, como la eliminación de palabras vacías o la derivación y lematización, pueden ayudar a reducir el tamaño de la matriz. LSA ofrece un enfoque más específico para reducir la escasez y la dimensionalidad.

La LSA comienza con la matriz documento-término, que muestra el número de veces que aparece cada palabra en cada documento. A partir de aquí, LSA produce una matriz documento a documento y una matriz término a término. Si las dimensiones de la matriz documento-término se definen como d documentos por w palabras, entonces la matriz documento-documento es d por d y la matriz término-término w por w. Cada valor de la matriz documento-documento indica el número de palabras que cada documento tiene en común. Cada valor de la matriz término a término indica el número de documentos en los que coexisten dos términos.9

Con estas dos matrices adicionales, el algoritmo LSA realiza una descomposición de valores singulares en la matriz documento-término inicial, produciendo nuevas matrices especiales de vectores propios. Estas matrices especiales desglosan las relaciones originales entre el documento y el término en factores linealmente independientes. Debido a que muchos de estos factores son cercanos a cero, se tratan como cero y se eliminan de las matrices. Esto reduce las dimensiones del modelo.10

Una vez reducidas las dimensiones del modelo mediante la descomposición del valor singular, el algoritmo LSA compara los documentos en el espacio dimensional inferior empleando la similitud del coseno. La similitud coseno significa la medida del ángulo entre dos vectores en el espacio vectorial. Puede ser cualquier valor entre -1 y 1. Cuanto mayor sea el puntaje del coseno, más parecidos se considerarán dos documentos. La similitud del coseno se representa mediante esta fórmula, donde x e y significan dos vectores de elementos en el espacio vectorial:11

Asignación latente de Dirichlet

La asignación latente de Dirichlet (LDA) —que no debe confundirse con análisis discriminante lineal — es un algoritmo de modelado de temas probabilístico. Esto significa que genera temas, clasificando palabras y documentos entre estos temas, de acuerdo con distribuciones de probabilidad. Empleando la matriz documento-término, el algoritmo LDA genera distribuciones de temas (es decir, listas de palabras clave con probabilidades respectivas) de acuerdo con la frecuencia de palabras y las co-ocurrencias. Esta suposición es que las palabras que ocurren juntas son probablemente parte de temas similares. El algoritmo asigna distribuciones de temas de documentos en función de los grupos de palabras que aparecen en el documento dado.12

Por ejemplo, supongamos que generamos un modelo LDA para una colección de artículos de noticias que tiene el siguiente resultado parcial:

Estos son dos temas que pueden describirse como inmigración (Tema 1) y astronomía (Tema 2). Las puntuaciones adjuntas a cada palabra son la probabilidad de que esa palabra clave aparezca en su tema dado. Las probabilidades adjuntas a cada documento son las probabilidades respectivas de que ese documento pertenezca a una mezcla de temas, dada la distribución y la coocurrencia de palabras de cada tema dentro de ese documento. Por ejemplo, la primera fila de la tabla enumera el borde bajo el Tema 1 con una probabilidad del 40 % y un espacio en el Tema 2 con una probabilidad del 60 %. Estos porcentajes indican la probabilidad de que sus respectivos términos aparezcan en ese tema a lo largo de todo el corpus. La primera fila del documento dice Documento 1: Tema 1: .95, Tema 2: .05. Esto significa que, basándose en la aparición de palabras en el Documento 1, el modelo proyecta que el Documento 1 se deriva en un 95 % del Tema 1 y un 5 % del Tema 2. En otras palabras, nuestro modelo hipotético LDA asume que estos son los temas y las proporciones de esos temas utilizados para generar el modelo.

Por supuesto, las palabras polisémicas en particular crean problemas para categorizaciones tan discretas; por ejemplo, 'alien' puede referirse a un inmigrante humano o una criatura extraterrestre. Si nuestro algoritmo encuentra 'alien' en un documento, ¿cómo determina a qué tema pertenece la palabra (y, por extensión, el documento)?

Al asignar temas a las palabras, el algoritmo LDA emplea lo que se conoce como ejemplificación de Gibbs. La fórmula de ejemplificación de Gibbs es:

Comprender las operaciones exactas de esta ecuación y sus hiperparámetros requiere conocimientos básicos de estadística y de las técnicas de Monte Carlo de cadenas de Markov (estas últimas se emplean a menudo en el aprendizaje por refuerzo). No obstante, podemos resumir los componentes principales de la ecuación:

  • El primer ratio expresa la probabilidad del tema t en el documento d. El algoritmo calcula esta probabilidad según el número de palabras del documento d que pertenece al tema t. Esto pegunta esencialmente: ¿cuál es la prevalencia del tema t en el documento d?
  • La segunda relación expresa la probabilidad de que la palabra w pertenezca al tema t. El algoritmo calcula esta probabilidad enumerando las ocurrencias de w en t sobre todos los tokens de palabras en t. Se pregunta: ¿con qué frecuencia aparece la palabra w en el tema t en el resto del corpus?

Tenga en cuenta que la ejemplificación de Gibbs es un proceso iterativo. Es decir, una palabra no se muestrea una vez, se le asigna un tema y se descarta. Más bien, la ejemplificación de Gibbs pasa cada palabra a través de múltiples iteraciones, actualizando las probabilidades de palabra temática a la luz de las demás.13

Investigación reciente

Hay muchos casos de uso para los modelos de temas, desde la crítica literaria14 hasta la bioinformática15 y la detección de discursos de odio en las redes sociales.16 Al igual que con muchas tareas de PLN, una proporción significativa de la investigación de modelado de temas a lo largo de los años se refiere al inglés y otros idiomas de escritura latina. Sin embargo, más recientemente, la investigación exploró enfoques de modelado de temas para el árabe y otros idiomas no latinos.17

La investigación en curso también aborda las métricas de evaluación para los modelos temáticos. De hecho, no se emplea ninguna métrica para evaluar los modelos temáticos. Las métricas de evaluación anteriores adoptaron enfoques cualitativos y cuantitativos. El primero requiere un conocimiento significativo específico del dominio para evaluar los términos clave del modo tópico para la interpretabilidad.18 Las medidas cuantitativas consisten en puntajes log-verosimilitud y coherencia, que tienen como objetivo medir la probabilidad y cohesión de los temas dentro de un modelo.19 Un amplio cuerpo de investigación argumenta, sin embargo, tales métricas cuantitativas pueden ser poco fiables.20

En un intento por resolver problemas relacionados con la evaluación de modelos de temas, un estudio investiga aplicaciones de inteligencia artificial , en particular modelos de lenguaje grandes (LLM), como un medio para diseñar y evaluar modelos LDA para objetivos de investigación específicos. Según el estudio, los LLM pueden ayudar a resolver problemas de larga data en el modelado temático, a saber, cómo determinar y evaluar el número adecuado de temas.21 Otros estudios también recurren a las aplicaciones de LLM como medio para abordar la laguna de evaluación en el modelado temático.22

Soluciones relacionadas

Soluciones relacionadas

IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate
Herramientas y API de procesamiento de lenguaje natural

Acelere el valor de negocio de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explorar las soluciones de PLN
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate Explorar las soluciones de PLN
Notas de pie de página

Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/

2 Jay Alammar y Maarten Grootendorst, Hands-On Large Language Models, O'Reilly, 2024.

3 David Blei, “Probabilistic Topic Models,” Communications of the ACM, vol. 55, No. 4, 2012, págs. 77-84.

4 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.

5 Cole Howard, Hobson Lane y Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O'Reilly, 2020.

6 Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022.

7 Procesamiento de lenguaje natural práctico, O’Reilly. David Blei, “Probabilistic Topic Models”, Communications of the ACM, vol. 55, No. 4, 2012, págs. 77-84.

8 Cole Howard, Hobson Lane y Hannes Hapke, Natural Language Processing in Action, Manning Publications, Deerwester, "Indexing by Latent Semantic Analysis", David Blei, "Probabilistic Topic Models", Communications of the ACM, Vol. 55, No. 4, 2012, págs. 77-84.

9 Hana Nelson, Matemáticas esenciales para la IA, O'Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer y Richard Harshman, “Indexing by Latent Semantic Analysis”, Journal of the American Society for Information Science, vol. 41, núm. 6, 1990, págs. 391-407, https:\/\/asistdl.onlinelibrary.wiley.com\/doi\/abs\/10.1002\/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 

10 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 

11 Elsa Negre, Information and Recommender Systems, vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O'Reilly, 2023.

12 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O'Reilly, 2020. David Blei, Andrew Ng y Michael Jordan, “Lantent Dirichlet Allocation”, Journal of Machine Learning Research, vol. 3, 2003, págs. 993-1022.

13 Zhiyuan Chen and Bing Liu, “Topic Models for NLP Applications,” Encyclopedia of Machine Learning and Data Science, Springer, 2020.

14 Derek Greene, James O'Sullivan, and Daragh O'Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024, https://academic.oup.com/dsh/article/39/1/142/7515230?login=false

15 Yichen Zhang, Mohammadali (Sam) Khalilitousi, and Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/ 

16 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, and Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38 

17 Abeer Abuzayed y Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique”, Procedia Computer Science, 2021, págs. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199. Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, and Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, vol. 22, núm. 12, 2020, https://www.jmir.org/2020/12/e22609

18 Matthew Gillings y Andrew Hardie, “The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice,” Digital Scholarship in the Humanities, Vol. 38, No. 2, 2023, págs. 530–543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052 

19 Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022.

20 Zachary Lipton, “El mito de la interpretabilidad de los modelos: En el machine learning, el concepto de interpretabilidad es tanto importante como resbaladizo,” Queue, Vol. 13, No. 3, 2018, pp. 31-57, https:\/\/dl.acm.org\/doi\/10.1145\/3236386.3241340 Caitlin Doogan and Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies” 2021, pp. 3824-3848, https:\/\/aclanthology.org\/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, and Philip Resnik, “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence,” Advances in Neural Processing Systems, vol. 34, 2021, https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2021\/hash\/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html 

21 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan y Elliott Ash, "Revisiting Automated Topic Model Evaluation with Large Language Models", Actas de la 2023 conferencia on Empirical Methods in procesamiento de lenguaje natural, 2023, https:\/\/aclanthology.org\/2023.emnlp-main.581.

22 Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli, and Daniela Ushizima, “Benchmarking topic models on scientific articles using BERTeley,” Natural Language Processing Journal, Vol. 6, 2024, pp. 2949-7191, https:\/\/www.sciencedirect.com\/science\/article\/pii\/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem, and Roy Ka-Wei Lee, “Prompting Large Language Models for Topic Modeling,” Proceedings of the 2023 IEEE International Conference on Big Data, 2023, pp. 1236-1241, 1236-1241, https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy