O que é modelagem de tópicos?

30 de março de 2024

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Os modelos de tópicos são um método de PNL não supervisionado para resumir dados de texto por meio de grupos de palavras. Eles auxiliam nas tarefas de classificação de texto e recuperação de informações.

No processamento de linguagem natural (NLP), a modelagem de tópicos é uma técnica de mineração de texto que aplica o aprendizado não supervisionado em grandes conjuntos de textos para produzir um conjunto resumido de termos derivados desses documentos que representam o conjunto primário geral de tópicos da coleção.Os modelos de tópicos identificam especificamente palavras-chave ou frases comuns em um conjunto de dados de texto e agrupam essas palavras em vários tópicos. Os modelos de tópicos, portanto, visam descobrir os tópicos ou temas latentes que caracterizam um conjunto de documentos. Dessa forma, os modelos de tópicos são uma forma de análise de texto baseada em aprendizado de máquina, usada para anotar tematicamente grandes corpora de texto.2

Os usuários podem gerar prontamente modelos de tópicos usando o Natural Language Toolkit (NLTK) do scikit-learn e o gensim no Python.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Como funciona a modelagem de tópicos

Como um método de aprendizado não supervisionado, os modelos de tópicos não exigem rótulos de dados de treinamento gerados pelo usuário, como em tarefas de classificação de texto supervisionadas. Em vez disso, os modelos de tópicos geram e, por extensão, anotam, grandes coleções de documentos com informações temáticas na forma de grupos de palavras conhecidos como tópicos.3 Mas como os modelos de tópicos produzem esses grupos de palavras?

A modelagem de tópicos essencialmente trata cada documento individual em uma coleção de textos como um modelo de bag of words. Isso significa que o algoritmo de modelagem de tópicos ignora a ordem e o contexto das palavras, concentrando-se simplesmente na frequência com que as palavras ocorrem e com que frequência elas ocorrem simultaneamente em cada documento individual.4

A maioria das abordagens de modelagem de tópicos começa pela geração de uma matriz de termos e documentos. Essa matriz modela o conjunto de dados de texto com documentos como linhas e palavras individuais como colunas, ou vice-versa. Os valores na matriz indicam a frequência com que uma determinada palavra aparece em cada documento. Então, essa matriz pode ser usada para gerar um espaço vetorial, onde n palavras são iguais a n dimensões. O valor de uma determinada linha indica a posição desse documento no espaço vetorial. Portanto, documentos que usam palavras em grupos semelhantes e com frequência comparável ficarão mais próximos no espaço vetorial. A partir daí, os modelos de tópicos tratam a proximidade no espaço vetorial como documentos que compartilham conteúdos ou tópicos conceituais semelhantes.5

No entanto, modelos de tópicos não são sinônimo de bag of words. Enquanto este último apenas contabiliza a presença de palavras em uma coleção de documentos, os modelos de tópicos agrupam palavras que ocorrem simultaneamente e de forma comum em conjuntos de tópicos. Cada tópico é modelado como uma distribuição de probabilidade em um vocabulário de palavras. Então, cada documento da coleção é representado nos termos desses tópicos.6 Dessa forma, os modelos de tópicos basicamente tentam fazer engenharia reversa dos discursos (ou seja, tópicos) que produziram os documentos em questão.7

Mistura de Especialistas | Podcast

Decodificando a IA: resumo semanal das notícias

Junte-se a nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Tipos de algoritmos de modelagem de tópicos

Os algoritmos de modelagem de tópicos se parecem menos com métodos alternativos para uma tarefa do que desenvolvimentos sequenciais destinados a resolver problemas inicialmente encontrados nos modelos de bag of words. A frequência do termo-inverso da frequência nos documentos(TF-IDF) é uma modificação de um bag of words destinada a lidar com os problemas resultantes de palavras comuns, mas semanticamente irrelevantes, ao contabilizar a prevalência de cada palavra em todos os documentos em um conjunto de texto. A análise semântica latente se baseia no TF-IDF com a intenção principal de abordar a polissemia e a sinonímia. Isso deu origem à análise semântica latente probabilística, da qual surgiu a alocação latente de Dirichlet. A característica diferenciadora desta última é que todos os documentos de uma coleção compartilham o mesmo conjunto de tópicos, embora em proporções diferentes.8

Análise semântica latente

A análise semântica latente (LSA) (também chamada de indexação semântica latente) utiliza uma técnica conhecida como decomposição de valor singular para reduzir a escassez na matriz documento-termo. Isso alivia problemas resultantes de polissemia e sinonímia, ou seja, palavras únicas com múltiplos significados ou múltiplas palavras com um único significado compartilhado.

A dispersão de dados denota essencialmente quando a maioria dos valores de dados em um determinado conjunto de dados é nula (ou seja, vazia). Isso acontece regularmente ao criar matrizes documento-termo, para as quais cada palavra individual é uma linha separada e uma dimensão de espaço vetorial, pois os documentos normalmente não terão a maioria das palavras que podem ser mais frequentes em outros documentos. É claro que técnicas de pré-processamento de dados de texto, como remoção de palavras de parada ou stemming e lematização, podem ajudar a reduzir o tamanho da matriz. A LSA oferece uma abordagem mais direcionada para reduzir a dispersão e a dimensionalidade.

A LSA começa com a matriz documento-termo, que exibe o número de vezes que cada palavra aparece em cada documento. A partir daí, a LSA produz uma matriz documento-documento e uma matriz termo-termo. Se as dimensões da matriz documento-termo forem definidas como d documentos vezes w palavras, então a matriz documento-documento será d vezes d e a matriz termo-termo será w vezes w. Cada valor na matriz documento-documento indica o número de palavras que cada documento tem em comum. Cada valor na matriz termo-termo indica o número de documentos em que dois termos coocorrem.9

Usando essas duas matrizes adicionais, o algoritmo LSA conduz a decomposição do valor singular na matriz documento-termo inicial, produzindo novas matrizes especiais de autovetores. Essas matrizes especiais decompõem as relações originais entre documentos e termos em fatores linearmente independentes. Como muitos desses fatores são próximos de zero, eles são tratados como zero e eliminados das matrizes. Isso reduz as dimensões do modelo.10

Depois que as dimensões do modelo tiverem sido reduzidas por meio da decomposição em valores singulares, o algoritmo LSA compara os documentos no espaço de dimensão inferior usando similaridade de cosseno. Similaridade de cosseno é a medição do ângulo entre dois vetores no espaço vetorial. Pode ser qualquer valor entre -1 e 1. Quanto maior o valor do cosseno, mais semelhantes são considerados dois documentos. A similaridade de cosseno é representada por esta fórmula, em que x e y significam dois itens-vetores no espaço vetorial:11

Alocação de Dirichlet latente

A alocação latente de Dirichlet (LDA) (que não deve ser confundida com análise discriminante linear ) é um algoritmo probabilístico de modelagem de tópicos. Isso significa que ela gera tópicos, classificando palavras e documentos entre esses tópicos, de acordo com a distribuição das probabilidades. Com a matriz documento-termo, o algoritmo LDA gera distribuições de tópicos (isto é, listas de palavras-chave com suas respectivas probabilidades) de acordo com a frequência de palavras e as coocorrências. Essa suposição é que as palavras que ocorrem juntas provavelmente fazem parte de tópicos semelhantes. O algoritmo atribui distribuições entre documentos e tópicos com base nos agrupamentos de palavras que aparecem no documento em questão.12

Por exemplo, digamos que geramos um modelo LDA para uma coleção de artigos de notícias com o seguinte resultado parcial:

Aqui, temos dois tópicos que provavelmente podem ser descritos como imigração (Tópico 1) e astronomia (Tópico 2). As pontuações associadas a cada palavra são a probabilidade dessa palavra-chave aparecer em um determinado tópico. As probabilidades anexadas a cada documento são as respectivas probabilidades desse documento de pertencer a uma mistura de tópicos, dada a distribuição e a coocorrência de palavras de cada tópico dentro desse documento. Por exemplo, a primeira linha da tabela lista a borda no Tópico 1 com 40% de probabilidade e o espaço no Tópico 2 com 60% de probabilidade. Essas porcentagens indicam a probabilidade de seus respectivos termos ocorrerem nesse tópico em todo o corpus. A primeira linha do documento diz Documento 1: Tópico 1: .95, Tópico 2: .05. Isso significa que, com base na ocorrência de palavras no Documento 1, o modelo projeta o Documento 1 como sendo 95% derivado do Tópico 1 e 5% derivado do Tópico 2. Em outras palavras, nosso modelo hipotético de LDA assume que esses são os tópicos e as proporções desses tópicos utilizados para gerar o modelo.

É claro que as palavras polissêmicas em particular criam problemas para categorizações tão discretas — por exemplo, alien, do inglês pode se referir tanto a um imigrante humano ou a uma criatura extraterrestre. Se o nosso algoritmo encontrar alien em um documento, como ele determina a qual tópico a palavra (e, por extensão, o documento) pertence?

Atribuindo tópicos às palavras, o algoritmo LDA usa o que é conhecido como amostragem de Gibbs. A fórmula de amostragem de Gibbs é:

Compreender as operações exatas e os hiperparâmetros dessa equação requer conhecimento fundamental em estatística e técnicas de Monte Carlo da cadeia de Markov (esta última frequentemente empregada no aprendizado por reforço). No entanto, podemos resumir os principais componentes da equação:

  • A primeira razão expressa a probabilidade do tópico t no documento d. O algoritmo calcula essa probabilidade de acordo com o número de palavras no documento d que pertencem ao tópico t. Isso essencialmente pergunta: quão prevalente é o tópico t no documento d?
  • A segunda proporção expressa a probabilidade da palavra w pertencer ao tópico t. O algoritmo calcula essa probabilidade enumerando as ocorrências de w in t sobre todos os tokens de palavra em t. Isso pergunta: com que frequência a palavra w aparece no tópico t em todo o resto do corpus?

Observe que a amostragem de Gibbs é um processo iterativo. Ou seja, uma palavra não é amostrada uma vez, atribuída a um tópico e jogada de lado. Em vez disso, a amostragem de Gibbs passa cada palavra por várias iterações, atualizando as probabilidades entre tópicos e palavras em relação uns aos outros.13

Pesquisa recente

Existem muitos casos de uso para modelos de tópicos, desde crítica literária14 até bioinformática15 e detecção de discurso de ódio nas redes sociais.16 Tal como acontece com muitas tarefas de NLP, uma proporção significativa das pesquisas de modelagem de tópicos ao longo dos anos diz respeito ao inglês e outras línguas de escrita latina. Mais recentemente, no entanto, pesquisas exploraram abordagens de modelagem de tópicos para o árabe e outras línguas não latinas.17

As pesquisas em andamento também abordam métricas de avaliação de modelos de tópicos. Na verdade, não há uma métrica usada para avaliar modelos de tópicos. As métricas de avaliação do passado adotavam abordagens qualitativas e quantitativas. A primeira requer um conhecimento significativo específico do domínio para avaliar os principais termos do modo de tópicos quanto à interpretabilidade.18 As medidas quantitativas consistem em pontuações de log-verossimilhança e coerência, que visam medir a probabilidade e a coesão dos tópicos em um modelo.19 No entanto, um grande número de pesquisas argumenta que essas métricas quantitativas podem não ser confiáveis.20

Na tentativa de resolver questões relacionadas à avaliação de modelos de tópicos, um estudo investigou aplicações de inteligência artificial, particularmente grandes modelos de linguagem (LLMs), como um meio de criar e avaliar modelos LDA para objetivos específicos de pesquisa. Os LLMs, argumenta o estudo, podem ajudar a resolver problemas de longa data na modelagem de tópicos, ou seja, como determinar e avaliar o número apropriado de tópicos.21 Outros estudos também se voltam para as aplicações de LLMs como um meio de lidar com a lacuna de avaliação na modelagem de tópicos.22

Soluções relacionadas
IBM watsonx Orchestrate

Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.

Conheça o watsonx Orchestrate
Ferramentas e APIs de processamento de linguagem natural

Acelere o valor comercial da inteligência artificial com um portfólio poderoso e flexível de bibliotecas, serviços e aplicativos.

Explore as soluções de PNL
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.

Conheça o watsonx Orchestrate Explore as soluções de PLN
Notas de rodapé

Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/

2 Jay Alammar and Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

3 David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, pp. 77-84.

4 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.

5 Cole Howard, Hobson Lane, and Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020.

6 Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022.

7 Practical Natural Language Processing, O’Reilly. David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, pp. 77-84.

8 Cole Howard, Hobson Lane, and Hannes Hapke, Natural Language Processing in Action, Manning Publications, Deerwester, “Indexing by Latent Semantic Analysis,” David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, pp. 77-84.

9 Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 

10 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 

11 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.

12 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020. David Blei, Andrew Ng, and Michael Jordan, “Lantent Dirichlet Allocation,” Journal of Machine Learning Research, Vol. 3, 2003, pp. 993-1022.

13 Zhiyuan Chen and Bing Liu, “Topic Models for NLP Applications,” Encyclopedia of Machine Learning and Data Science, Springer, 2020.

14 Derek Greene, James O'Sullivan, and Daragh O'Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024, https://academic.oup.com/dsh/article/39/1/142/7515230?login=false

15 Yichen Zhang, Mohammadali (Sam) Khalilitousi, and Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/ 

16 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, and Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38 

17 Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, pp. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, and Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609

18 Matthew Gillings and Andrew Hardie, “The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice,” Digital Scholarship in the Humanities, Vol. 38, No. 2, 2023, pp. 530–543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052 

19 Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022.

20 Zachary Lipton, “The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery,” Queue, Vol. 13, No. 3, 2018, pp. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 Caitlin Doogan and Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies” 2021, pp. 3824-3848, https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, and Philip Resnik, “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence,” Advances in Neural Processing Systems, vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html 

21 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, and Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, https://aclanthology.org/2023.emnlp-main.581

22 Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli, and Daniela Ushizima, “Benchmarking topic models on scientific articles using BERTeley,” Natural Language Processing Journal, Vol. 6, 2024, pp. 2949-7191, https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem, and Roy Ka-Wei Lee, “Prompting Large Language Models for Topic Modeling,” Proceedings of the 2023 IEEE International Conference on Big Data, 2023, pp. 1236-1241, https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy