¿Qué es el modelado de temas?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

¿Qué es el modelado de temas?

En el procesamiento del lenguaje natural (PLN), el modelado de temas es una técnica de minería de textos que aplica el aprendizaje no supervisado en grandes conjuntos de textos para producir un conjunto resumido de términos que representan el conjunto principal general de temas de la colección¹.Los modelos temáticos ayudan en las tareas de clasificación de textos y recuperación de información.

Los modelos temáticos identifican específicamente palabras clave o frases comunes en un conjunto de datos de texto y agrupan esas palabras en una serie de temas. Su objetivo es descubrir los temas o temas latentes que caracterizan un conjunto de documentos. Así, los modelos de temas son una forma de análisis de texto basada en machine learning que se utiliza para anotar temáticamente grandes corpus de texto².

Los usuarios pueden generar fácilmente modelos de temas con el kit de herramientas de lenguaje natural (NLTK) de scikit-learn y gensim en Python.

Boletín del sector

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

Cómo funciona el modelado de temas

Como método de aprendizaje no supervisado, los modelos de temas no requieren etiquetas generadas por el usuario de los datos de entrenamiento, como en las tareas de clasificación de texto supervisadas. En su lugar, los modelos de temas generan, y por extensión anotan, grandes colecciones de documentos con información temática en forma de grupos de palabras conocidos como temas³. Pero, ¿cómo producen los modelos de temas estos grupos de palabras?

El modelado de temas trata esencialmente cada documento individual de una colección de textos como un modelo de bag of words. Esto significa que el algoritmo de modelado de temas ignora el orden de las palabras y el contexto, centrándose simplemente en la frecuencia con la que aparecen las palabras y la frecuencia con la que coexisten dentro de cada documento individual⁴.

La mayoría de los enfoques de modelado de temas comienzan con la generación de una matriz documento-término. Esta matriz modela el conjunto de datos de texto con documentos como filas y palabras individuales como columnas, o viceversa. Los valores de la matriz indican la frecuencia con la que aparece una palabra determinada en cada documento. Esta matriz puede utilizarse para generar un espacio vectorial, donde n palabras equivalen a n dimensiones. El valor de una fila concreta indica la posición de ese documento en el espacio vectorial. Los documentos que utilizan palabras en grupos similares y con una frecuencia comparable estarán, por tanto, más cerca en el espacio vectorial. A partir de aquí, los modelos de temas tratan la proximidad en el espacio vectorial como documentos que comparten contenido conceptual o temas similares⁵.

Sin embargo, los modelos de temas no son sinónimo de bag of words. Mientras que esta última se limita a contar la presencia de palabras en una colección de documentos, los modelos de temas agrupan las palabras más comunes en conjuntos de temas. Cada tema se modela como una distribución de probabilidad en un vocabulario de palabras. Cada documento de la colección se representa entonces en términos de esos temas⁶. De esta manera, los modelos de temas intentan esencialmente aplicar ingeniería inversa a los discursos (es decir, los temas) que produjeron los documentos en cuestión⁷.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Vea todos los episodios de Mixture of Experts

Tipos de algoritmos de modelado de temas

Los algoritmos de modelado de temas no son tanto métodos alternativos a una tarea como desarrollos secuenciales destinados a resolver los problemas encontrados inicialmente en los modelos de bag of words. La frecuencia de término-frecuencia inversa de documento (TF-IDF) es una modificación de la bag of words que pretende resolver los problemas derivados de las palabras comunes pero semánticamente irrelevantes, teniendo en cuenta la prevalencia de cada palabra en todos los documentos de un conjunto de textos. El análisis semántico latente (LSA) se basa en el TF-IDF con el objetivo principal de abordar la polisemia y la sinonimia. Esto dio origen al análisis semántico latente probabilístico, del cual surgió la asignación latente de Dirichlet. La característica distintiva de este último es que todos los documentos de una colección comparten el mismo conjunto de temas, aunque en diferentes proporciones⁸.

Análisis semántico latente

El análisis semántico latente (LSA) (también llamado indexación semántica latente) implementa una técnica conocida como descomposición de valor singular para reducir la dispersión en la matriz documento-término. Esto alivia los problemas derivados de la polisemia y la sinonimia, es decir, palabras únicas con múltiples significados o varias palabras con un único significado compartido.

La escasez de datos se refiere esencialmente a cuando la mayoría de los valores en un conjunto de datos determinado son nulos (es decir, están vacíos). Esto ocurre con frecuencia cuando se construyen matrices documento-término, para las que cada palabra individual es una fila separada y una dimensión de espacio vectorial, ya que los documentos carecerán regularmente de la mayoría de las palabras que pueden ser más frecuentes en otros documentos. Por supuesto, las técnicas de preprocesamiento de datos de texto, como la eliminación de palabras vacías o el stemming y la lematización, pueden ayudar a reducir el tamaño de la matriz. El LSA ofrece un enfoque más específico para reducir la dispersión y la dimensionalidad.

El LSA comienza con la matriz documento-término, que muestra el número de veces que aparece cada palabra en cada documento. A partir de aquí, el LSA produce una matriz documento-documento y otra término-término. Si las dimensiones de la matriz documento-término se definen como d documentos por w palabras, entonces la matriz documento-documento es d por d y la matriz término-término w por w. Cada valor de la matriz documento-documento indica el número de palabras que cada documento tiene en común. Cada valor de la matriz término-término indica el número de documentos en los que dos términos coexisten⁹.

Mediante estas dos matrices adicionales, el algoritmo LSA realiza una descomposición de valores singulares en la matriz inicial documento-término, lo que produce nuevas matrices especiales de vectores propios. Estas matrices especiales desglosan las relaciones originales documento-término en factores linealmente independientes. Como muchos de estos factores son casi nulos, se tratan como cero y se eliminan de las matrices. Esto reduce las dimensiones del modelo¹⁰.

Una vez que las dimensiones del modelo se han reducido mediante la descomposición en valores singulares, el algoritmo LSA compara los documentos en el espacio dimensional inferior mediante la similitud coseno. Dicha similitud representa la medida del ángulo entre dos vectores en el espacio vectorial. Puede ser cualquier valor entre -1 y 1. Cuanto mayor sea la puntuación del coseno, más parecidos se considerarán dos documentos. La similitud coseno se representa mediante esta fórmula, donde x e y significan dos vectores de elementos en el espacio vectorial¹¹:

Ilustración de la fórmula de similitud del coseno

Asignación latente de Dirichlet

La asignación latente de Dirichlet (LDA) (que no debe confundirse con el análisis discriminante lineal), es un algoritmo de modelado probabilístico de temas. Esto significa que genera temas, clasificando palabras y documentos entre estos temas, según distribuciones de probabilidad. Con la matriz documento-término, el algoritmo LDA genera distribuciones de temas (es decir, listas de palabras clave con respectivas probabilidades) según la frecuencia de palabras y las coocurrencias. Se supone que las palabras que aparecen juntas probablemente forman parte de temas similares. El algoritmo asigna distribuciones documento-tema basadas en los grupos de palabras que aparecen en el documento dado¹².

Por ejemplo, supongamos que generamos un modelo LDA para una colección de artículos de noticias que tiene la siguiente salida parcial:

Ilustración que representa un modelo LDA

Estos son dos temas que pueden describirse como inmigración (Tema 1) y astronomía (Tema 2). Las puntuaciones adjuntas a cada palabra son la probabilidad de que esa palabra clave aparezca en su tema dado. Las probabilidades adjuntas a cada documento son las probabilidades respectivas de que ese documento pertenezca a una mezcla de temas, dada la distribución y la coocurrencia de palabras de cada tema dentro de ese documento. Por ejemplo, la primera fila de la tabla enumera el borde bajo el Tema 1 con una probabilidad del 40 % y un espacio en el Tema 2 con una probabilidad del 60 %. Estos porcentajes indican la probabilidad de que sus respectivos términos aparezcan en ese tema a lo largo de todo el corpus. La primera fila del documento dice Documento 1: Tema 1: .95, Tema 2: .05. Esto significa que, basándose en la aparición de palabras en el Documento 1, el modelo proyecta que el Documento 1 se deriva en un 95 % del Tema 1 y un 5 % del Tema 2. En otras palabras, nuestro modelo hipotético LDA asume que estos son los temas y las proporciones de esos temas utilizados para generar el modelo.

Por supuesto, las palabras polisémicas en particular crean problemas para categorías tan discretas; por ejemplo, alienígena puede hacer referencia a un inmigrante humano o a una criatura extraterrestre. Si nuestro algoritmo encuentra un alienígena en un documento, ¿cómo determina a qué tema pertenece la palabra (y por extensión, el documento)?

Al asignar temas a las palabras, el algoritmo LDA utiliza lo que se conoce como muestreo de Gibbs. La fórmula de muestreo de Gibbs es:

Comprender las operaciones exactas de esta ecuación y sus hiperparámetros requiere conocimientos básicos de estadística y de las técnicas de Monte Carlo basadas en cadenas de Markov (estas últimas se emplean a menudo en el aprendizaje por refuerzo). No obstante, podemos resumir los componentes principales de la ecuación:

El primer ratio expresa la probabilidad del tema t en el documento d. El algoritmo calcula esta probabilidad según el número de palabras del documento d que pertenecen al tema t. Esto pregunta esencialmente: ¿cuál es la prevalencia del tema t en el documento d?
La segunda relación expresa la probabilidad de que la palabra w pertenezca al tema t. El algoritmo calcula esta probabilidad enumerando las ocurrencias de w en t sobre todos los tokens de palabras en t. Se pregunta: ¿con qué frecuencia aparece la palabra w en el tema t en el resto del corpus?

Tenga en cuenta que el muestreo de Gibbs es un proceso iterativo. Es decir, una palabra no se muestrea una vez, se le asigna un tema y se desecha. Más bien, el muestreo de Gibbs pasa cada palabra por múltiples iteraciones, actualizando las probabilidades tema-palabra en función de las demás¹³.

Investigación reciente

Hay muchos casos de uso para los modelos de temas, desde la crítica literaria¹⁴ hasta la bioinformática¹⁵ y la detección de discursos de odio en las redes sociales¹⁶. Como ocurre con muchas tareas de PLN, una proporción importante de la investigación sobre modelos de temas a lo largo de los años se refiere al inglés y otros lenguajes de escritura latina. Sin embargo, en los últimos años se han estudiado modelos de temas para el árabe y otras lenguas no latinas¹⁷.

La investigación en curso también aborda las métricas de evaluación de los modelos de temas. De hecho, no se utiliza ninguna métrica para evaluar los modelos de temas. Las métricas de evaluación anteriores han adoptado enfoques cualitativos y cuantitativos. El primero requiere un conocimiento significativo y específico del dominio para evaluar los términos clave del modo de tema para su interpretabilidad¹⁸. Las medidas cuantitativas consisten en puntuaciones de coherencia y de log-verosimilitud, que tienen como objetivo medir la probabilidad y la cohesión de los temas dentro de un modelo¹⁹. Sin embargo, un amplio conjunto de investigaciones sostiene que estas métricas cuantitativas pueden no ser fiables²⁰.

En un intento por resolver problemas relacionados con la evaluación de modelos de temas, un estudio investiga las aplicaciones de inteligencia artificial , en particular los modelos de lenguaje de gran tamaño (LLM), como medio para diseñar y evaluar modelos LDA para objetivos de investigación específicos. Los LLM, sostiene el estudio, pueden ayudar a resolver problemas de larga data en el modelado de temas, a saber, cómo determinar y evaluar el número adecuado de temas²¹. Otros estudios también recurren a las aplicaciones de LLM como medio para abordar la brecha de evaluación en el modelado de temas²².

¿Está preparada su organización para aprovechar la IA generativa?

Conozca las cinco capacidades clave de orquestación que pueden ayudar a las organizaciones a abordar los retos de la implantación eficaz de la IA generativa.

Recursos

Explore IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de idioma, código, series de tiempo y salvaguardas.

Guía sobre PLN para principiantes

Descubra cómo el procesamiento del lenguaje natural puede ayudarle a conversar de forma más natural con los ordenadores.

IA en Acción 2024

Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.

Mejore sus aplicaciones con la IA Mejore sus aplicaciones con la IA integrable de IBM de IBM

Explore el sitio web de IBM Developer para acceder a blogs, artículos, boletines y obtener más información sobre la IA integrable de IBM.

Manos a la obra con la IA generativa

Aprenda los conceptos fundamentales y desarrolle sus habilidades con laboratorios prácticos, cursos, proyectos guiados, pruebas y mucho más.

Soluciones relacionadas

IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate

Herramientas y API de procesamiento del lenguaje natural

Acelere el valor empresarial de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explore soluciones de PLN

Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA

Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate

Explore soluciones de PLN

Notas a pie de página

¹Daniel Jurafsky y James Martin. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3ª edición. 2023. https://web.stanford.edu/~jurafsky/slp3/

² Jay Alammar y Maarten Grootendorst. Hands-On Large Language Models [Modelos de lenguaje de gran tamaño prácticos]. O’Reilly. 2024.

³ David Blei. “Probabilistic Topic Models” [Modelos probabilísticos de temas]. Communications of the ACM. Vol. 55. Nº. 4. 2012. pp. 77-84.

⁴ Matthew Jockers. Text Analysis with R for Students of Literature [Análisis de texto con R para estudiantes de literatura]. Springer. 2014.

⁵ Cole Howard, Hobson Lane y Hannes Hapke. Natural Language Processing in Action [Procesamiento del lenguaje natural en acción]. Manning Publications. 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana. Practical Natural Language Processing [Procesamiento del lenguaje natural práctico]. O’Reilly. 2020.

⁶ Chandler Camille May. “Topic Modeling in Theory and Practice” [Modelado de temas en teoría y práctica]. Tesis doctoral. John Hopkins University. 2022.

⁷ Practical Natural Language Processing [Procesamiento del lenguaje natural práctico]. O’Reilly. David Blei. “Probabilistic Topic Models” [Modelos probabilísticos de temas]. Communications of the ACM. Vol. 55. Nº. 4. 2012. pp. 77-84.

⁸ Cole Howard, Hobson Lane y Hannes Hapke. Natural Language Processing in Action [Procesamiento del lenguaje natural en acción]. Manning Publications. Deerwester. “Indexing by Latent Semantic Analysis” [Indexación mediante análisis semántico latente]. David Blei. “Probabilistic Topic Models” [Modelos probabilísticos de temas]. Communications of the ACM. Vol. 55. Nº. 4. 2012. pp. 77-84.

⁹ Hana Nelson. Essential Math for AI. O’Reilly. 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer y Richard Harshman. “Indexing by Latent Semantic Analysis”. Journal of the American Society for Information Science. Vol. 41. N.º 6. 1990. pp. 391-407. https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

¹⁰ Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer y Richard Harshman. “Indexing by Latent Semantic Analysis”. Journal of the American Society for Information Science. Vol. 41. N.º 6. 1990. pp. 391-407. https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

¹¹ Elsa Negre. Information and Recommender Systems [Información y sistemas de recomendación]. Vol. 4. Wiley-ISTE. 2015. Hana Nelson. Essential Math for AI [Matemáticas esenciales para la IA]. O’Reilly. 2023.

¹² Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana. Practical Natural Language Processing [Procesamiento del lenguaje natural práctico]. O’Reilly, 2020. David Blei, Andrew Ng y Michael Jordan. “Lantent Dirichlet Allocation” [Asignación latente de Dirichlet]. Journal of Machine Learning Research. Vol. 3. 2003. pp. 993-1022.

¹³ Zhiyuan Chen y Bing Liu. “Topic Models for NLP Applications” [Modelos de temas para aplicaciones de PLN]. Encyclopedia of Machine Learning and Data Science. Springer. 2020.

¹⁴ Derek Greene, James O’Sullivan y Daragh O’Reilly. “Topic modelling literary interviews from The Paris Review”. Digital Scholarship in the Humanities. 2024. https://academic.oup.com/dsh/article/39/1/142/7515230?login=false

¹⁵ Yichen Zhang, Mohammadali (Sam) Khalilitousi y Yongjin Park. “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling”. Cell Genomics. Vol. 3. N.º 9. 2023. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/

¹⁶ Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu y Neil F. Johnson. “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives”. Intelligent Computing. 2022. https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38

¹⁷ Abeer Abuzayed y Hend Al-Khalifa. “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique”. Procedia Computer Science. 2021. pp. 191-194. https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity y Shahad Alshalan. “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach”. Journal of Medical Internet Research. Vol. 22. N.º 12. 2020. https://www.jmir.org/2020/12/e22609.

¹⁸ Matthew Gillings y Andrew Hardie. “The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice”. Digital Scholarship in the Humanities. Vol. 38. N.º 2. 2023. Pp. 530–543. https://academic.oup.com/dsh/article-abstract/38/2/530/6957052.

¹⁹ Chandler Camille May. “Topic Modeling in Theory and Practice” [Modelado de temas en teoría y práctica]. Tesis doctoral. John Hopkins University. 2022.

²⁰ Zachary Lipton. “The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery”. Queue. Vol. 13. N.º 3. 2018. Pp. 31-57. https://dl.acm.org/doi/10.1145/3236386.3241340. Caitlin Doogan y Wray Buntine. “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures”. Actas de la 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies”. 2021. Pp. 3824-3848. https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber y Philip Resnik. “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence”. Advances in Neural Processing Systems. Vol. 34. 2021. https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html.

²¹ Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan y Elliott Ash. “Revisiting Automated Topic Model Evaluation with Large Language Models”. Actas de la 2023 Conference on Empirical Methods in Natural Language Processing. 2023. https://aclanthology.org/2023.emnlp-main.581

²² Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli y Daniela Ushizima. “Benchmarking topic models on scientific articles using BERTeley”. Natural Language Processing Journal. Vol. 6. 2024. Pp. 2949-7191. https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem y Roy Ka-Wei Lee. “Prompting Large Language Models for Topic Modeling”. Actas de la 2023 IEEE International Conference on Big Data. 2023. Pp. 1236-1241. https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy

¿Qué es el modelado de temas?

Autores

¿Qué es el modelado de temas?

Las últimas tendencias en IA, presentadas por expertos

¡Gracias! Está suscrito.

Cómo funciona el modelado de temas

Descifrar la IA: resumen semanal de noticias

Tipos de algoritmos de modelado de temas

Análisis semántico latente

Asignación latente de Dirichlet

Investigación reciente

Recursos

Notas a pie de página