Les modèles thématiques sont une méthode NLP non supervisée qui permet de résumer des données textuelles par le biais de groupes de mots. Ils facilitent les tâches de classification de texte et de recherche d’informations.
En traitement automatique du langage naturel (NLP), la modélisation thématique est une technique de fouille de textes qui s’appuie sur l’apprentissage non supervisé pour extraire des termes à partir de grandes collections de textes. Ces termes représentent les thèmes principaux de la collection.1 Les modèles thématiques identifient spécifiquement les mots-clés ou les expressions courants dans un jeu de données textuelles et regroupent ces mots sous un certain nombre de thèmes. Ainsi, les modèles thématiques visent à découvrir les thèmes ou sujets latents qui caractérisent un ensemble de documents. Ils constituent donc une forme d’analyse de texte qui s’appuie sur le machine learning et qui permet d’annoter de manière thématique les grands corpus textuels.2
Les utilisateurs peuvent facilement générer des modèles thématiques grâce aux outils de traitement du langage naturel scikit-learn (NLTK) ou à gensim dans Python.
Parce qu’ils s’appuient sur l’apprentissage non supervisé, les modèles thématiques ne requièrent pas d’étiquettes de données d’entraînement générées par l’utilisateur, comme dans le cas des tâches de classification de texte supervisée. Les modèles thématiques génèrent et, par extension, annotent de grandes collections de documents contenant des informations thématiques sous forme de groupes de mots appelés « thèmes ».3 Mais comment les modèles thématiques produisent-ils ces groupes de mots ?
La modélisation thématique traite chaque document de la collection de textes comme un modèle de sac de mots. Cela signifie que l’algorithme de modélisation thématique ignore l’ordre des mots et le contexte pour se concentrer sur la fréquence d’occurrence et de cooccurrence dans chaque document.4
Dans la plupart des approches de modélisation thématique, on commence par générer une matrice terme-document. Celle-ci permet de modéliser le jeu de données textuelles : les documents y sont représentés sous forme de lignes, et les différents mots sous forme de colonnes, ou vice-versa. Les valeurs de la matrice indiquent la fréquence d’occurrence d’un mot donné dans chaque document. Cette matrice peut ensuite être utilisée pour générer un espace vectoriel, où n mots correspondent à n dimensions. La valeur d’une ligne donnée indique la position de ce document dans l’espace vectoriel. Les documents dans lesquels les mots figurent dans des groupes similaires et avec une fréquence comparable seront donc plus proches dans l’espace vectoriel. À partir de là, les modèles thématiques traitent la proximité dans l’espace vectoriel comme des documents partageant un contenu conceptuel ou des thèmes similaires.5
Les modèles thématiques diffèrent toutefois des sacs de mots. Alors que ces derniers se contentent de comptabiliser la présence des mots dans une collection de documents, les modèles thématiques regroupent les mots cooccurrents en ensembles de thèmes. Chaque thème est modélisé comme une probabilité de distribution des thèmes sur les termes du vocabulaire utilisé. Chaque document de la collection est ensuite représenté en fonction de ces thèmes.6 Les modèles thématiques procèdent ainsi à une rétro-ingénierie des discours (c’est-à-dire des thèmes) qui ont produit les documents en question.7
Bien plus que de simples méthodes alternatives à une tâche, les algorithmes de modélisation thématique constituent des développements séquentiels destinés à résoudre les problèmes initialement trouvés dans les modèles de sac de mots. La méthode TF-IDF (fréquence du terme/fréquence inverse de document) consiste à modifier le sac de mots pour résoudre les problèmes liés aux mots courants, mais sémantiquement non pertinents. Pour ce faire, on prend en compte la prévalence de chaque mot dans chaque document d’une collection de textes. L’analyse sémantique latente s’appuie sur la méthode TF-IDF pour traiter principalement la polysémie et la synonymie. C’est ainsi que l’analyse sémantique probabiliste latente a vu le jour. Développée à partir de cette dernière, l’allocation latente de Dirichlet se distingue par le fait que tous les documents d’une collection partagent le même ensemble de thèmes, bien que dans des proportions différentes.8
L’analyse sémantique latente (LSA) (également appelée « indexation sémantique latente ») déploie une technique connue sous le nom de « décomposition des valeurs singulières » afin de réduire la parcimonie de la matrice terme-document. Cela permet d’atténuer les problèmes liés à la polysémie et à la synonymie, c’est-à-dire les mots qui présentent chacun plusieurs sens, et ceux qui ont le même sens qu’un autre.
On parle de parcimonie des données lorsque la plupart des valeurs dans un jeu de données sont nulles (c’est-à-dire vides). Cela se produit régulièrement lors de la création des matrices terme-document, où chaque mot correspond à une ligne distincte et à une dimension de l’espace vectoriel, car la plupart des mots qui sont fréquents dans un document seront absents dans un autre. Bien entendu, les techniques de prétraitement des données textuelles comme la suppression des mots vides, ou encore la racinisation et la lemmatisation, permettent de réduire la taille de la matrice. La LSA offre une approche plus ciblée pour réduire la parcimonie et la dimensionnalité.
La LSA commence par la matrice terme-document, qui indique le nombre de fois où chaque mot figure dans chaque document. Elle produit ensuite une matrice document-document et une matrice terme-terme. Si les dimensions de la matrice terme-document sont définies comme d documents multipliés par w mots, alors la matrice document-document est d fois d, et la matrice terme-terme w fois w. Chaque valeur de la matrice document-document indique le nombre de mots que chaque document a en commun. Chaque valeur de la matrice terme-terme indique le nombre de documents dans lesquels deux termes coexistent.9
S’appuyant sur ces deux matrices, l’algorithme LSA procède à une décomposition en valeurs singulières de la matrice terme-document initiale, afin de produire des matrices de vecteurs propres. Ces matrices spéciales décomposent les relations terme-document initiales en facteurs linéaires indépendants. Comme bon nombre de ces facteurs sont proches de zéro, ils sont traités comme zéro et éliminés des matrices. Cela permet de réduire les dimensions du modèle.10
Une fois que les dimensions du modèle ont été réduites par la décomposition en valeurs singulières, l’algorithme LSA s’appuie sur la similarité cosinus pour comparer les documents dans l’espace dimensionnel inférieur. La similarité cosinus permet de mesurer l’angle formé par deux vecteurs dans l’espace vectoriel. Cette valeur est comprise entre -1 et 1. Plus le cosinus est élevé, plus les deux documents sont considérés comme similaires. La similarité cosinus est représentée par cette formule, où x et y représentent deux vecteurs d’éléments dans l’espace vectoriel :11
L’allocation de Dirichlet latente (LDA), à ne pas confondre avec l’analyse discriminante linéaire, est un algorithme de modélisation thématique probabiliste. Cela signifie qu’il génère des thèmes en classant les mots et les documents parmi ces thèmes, en fonction des distributions de probabilités. Grâce à la matrice terme-document, l’algorithme LDA génère des distributions de thèmes (c’est-à-dire des listes de mots-clés avec leurs probabilités respectives), en fonction de la fréquence d’occurrence des mots et des cooccurrences. Il part du principe que les mots qui figurent ensemble sont susceptibles d’appartenir à des thèmes similaires. L’algorithme attribue les distributions thème-document en fonction des groupes de mots qui figurent dans le document en question.12
Supposons que nous générions un modèle LDA pour une collection d’articles d’actualité dont la sortie partielle est la suivante :
Ici, nous avons deux sujets que l’on peut probablement décrire comme l’immigration (Sujet 1) et l’astronomie (Sujet 2). Les scores associés à chaque mot correspondent à la probabilité que ce mot-clé apparaisse dans son sujet donné. Les probabilités attachées à chaque document sont les probabilités respectives de ce document d’appartenir à un mélange de sujets compte tenu de la distribution et de la co-occurrence des mots de chaque sujet dans ce document. Par exemple, la première ligne du tableau répertorie frontière sous le Sujet 1 avec une probabilité de 40 % et l’espace dans le Sujet 2 avec une probabilité de 60 %. Ces pourcentages indiquent la probabilité que leurs termes respectifs apparaissent pour ce sujet dans l’ensemble du corpus. La première ligne de document indique Document 1: Sujet 1: 0,95, Sujet 2: 0,05. Cela signifie que, sur la base de l'occurrence des mots dans le document 1, le modèle prévoit que le document 1 est composé à 95 % du sujet 1 et à 5 % du sujet 2. En d'autres termes, notre modèle LDA hypothétique suppose qu'il s'agit des sujets et des proportions de ces sujets utilisés pour générer le modèle.
Bien entendu, les mots polysémiques en particulier posent des problèmes pour ces catégorisations distinctes, par exemple, alien peut faire référence à une personne étrangère à un milieu/environnement ou à une créature extra-terrestre. Si notre algorithme rencontre un alien dans un document, comment détermine-t-il à quel sujet le mot (et par extension, le document) se rapporte-t-il ?
Pour attribuer des sujets aux mots, l’algorithme LDA s’appuie sur ce que l’on appelle l’échantillonnage de Gibbs. La formule de l'échantillonnage Gibbs est la suivante :
La compréhension des opérations exactes et des hyperparamètres de cette équation nécessite des connaissances de base en statistiques et en techniques de Monte Carlo par chaîne de Markov (ces dernières étant souvent utilisées dans l’apprentissage par renforcement). Néanmoins, nous pouvons résumer les principales composantes de l’équation :
Notez que l’échantillonnage de Gibbs est un processus itératif. Autrement dit, un mot n’est pas échantillonné une seule fois, attribué à un sujet et mis de côté. Au contraire, l’échantillonnage de Gibbs fait passer chaque mot par plusieurs itérations, mettant à jour les probabilités sujet-mot les unes par rapport aux autres.13
Il existe de nombreux cas d’utilisation des modèles thématiques, de la critique littéraire14 à la bioinformatique15 en passant par la détection des discours haineux sur les réseaux sociaux.16 Comme c’est souvent le cas en NLP, une grande partie de la recherche sur la modélisation thématique concerne l’anglais et d’autres langues utilisant l’alphabet latin. Plus récemment, cependant, on a commencé à explorer les approches de modélisation thématique pour l’arabe et d’autres langues utilisant des caractères non latins.17
Les études en cours portent également sur les indicateurs employés pour évaluer les modèles thématiques. En effet, il n’existe pas d’indicateur universel à cet effet. Les indicateurs traditionnels suivent des approches qualitatives et quantitatives. La première nécessite de solides connaissances spécialisées pour évaluer l’interprétabilité des termes clés du mode sujet.18 Les mesures quantitatives consistent en scores de log-vraisemblance et de cohérence, qui visent à mesurer la probabilité et la cohésion des sujets au sein d’un modèle.19 Un grand nombre d’études soutiennent toutefois que ces indicateurs quantitatifs peuvent ne pas être fiables.20
Afin de résoudre les problèmes liés à l’évaluation des modèles thématiques, une étude s’est tournée vers les applications de l’intelligence artificielle, notamment les grands modèles de langage (LLM), comme méthode de création et d’évaluation des modèles LDA à des fins de recherche spécifiques. Selon cette étude, les LLM permettraient de résoudre des défis de longue date liés à la modélisation thématique, à savoir la manière de déterminer et d’évaluer le nombre approprié de thèmes.21 D’autres études se tournent également vers les applications LLM pour combler les lacunes en matière d’évaluation de la modélisation thématique.22
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Découvrez comment le traitement automatique du langage naturel peut vous aider à interagir de manière plus naturelle avec les ordinateurs.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
Explorez le site web IBM Developer pour accéder à des blogs, des articles et des newsletters et pour en savoir plus sur l’IA intégrable d’IBM.
Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.
Accélérez la valeur métier de l’intelligence artificielle grâce à un portefeuille puissant et flexible de bibliothèques, de services et d’applications.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
1 Daniel Jurafsky et James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3e édition, 2023, https://web.stanford.edu/~jurafsky/slp3/
2 Jay Alammar et Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.
3 David Blei, « Probabilistic Topic Models », Communications of the ACM, vol. 55, n° 4, 2012, pages 77 à 84.
4 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.
5 Cole Howard, Hobson Lane et Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Practical Natural Language Processing, O’Reilly, 2020.
6 Chandler Camille May, « Topic Modeling in Theory and Practice », thèse, John Hopkins University, 2022.
7 Practical Natural Language Processing, O’Reilly. David Blei, « Probabilistic Topic Models », Communications of the ACM, vol. 55, n° 4, 2012, pages 77 à 84.
8 Cole Howard, Hobson Lane et Hannes Hapke, Natural Language Processing in Action, Manning Publications, Deerwester, « Indexing by Latent Semantic Analysis », David Blei, « Probabilistic Topic Models », Communications of the ACM, vol. 55, n° 4, 2012, pages 77 à 84.
9 Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer et Richard Harshman, « Indexing by Latent Semantic Analysis », Journal of the American Society for Information Science, vol. 41, n° 6, 1990, pages 391 à 407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9
10 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer et Richard Harshman, « Indexing by Latent Semantic Analysis », Journal of the American Society for Information Science, vol. 41, n° 6, 1990, pages 391 à 407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9
11 Elsa Negre, Information and Recommender Systems, vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.
12 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Practical Natural Language Processing, O’Reilly, 2020. David Blei, Andrew Ng et Michael Jordan, « Latent Dirichlet Allocation », Journal of Machine Learning Research, vol. 3, 2003, pages 993 à 1022.
13 Zhiyuan Chen et Bing Liu, « Topic Models for NLP Applications », Encyclopedia of Machine Learning and Data Science, Springer, 2020.
14 Derek Greene, James O’Sullivan et Daragh O’Reilly, « Topic modelling literary interviews from The Paris Review », Digital Scholarship in the Humanities, 2024, https://academic.oup.com/dsh/article/39/1/142/7515230?login=false
15 Yichen Zhang, Mohammadali (Sam) Khalilitousi et Yongjin Park, « Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling », Cell Genomics, vol. 3, n° 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/
16 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu et Neil F. Johnson, « Dynamic Topic Modeling Reveals Variations in Online Hate Narratives », Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38
17 Abeer Abuzayed et Hend Al-Khalifa, « BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique », Procedia Computer Science, 2021, pages 191 à 194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity et Shahad Alshalan, « Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region : Deep Learning and Topic Modeling Approach », Journal of Medical Internet Research, vol. 22, n° 12, 2020, https://www.jmir.org/2020/12/e22609
18 Matthew Gillings et Andrew Hardie, « The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice », Digital Scholarship in the Humanities, vol. 38, n° 2, 2023, pages 530 à 543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052
19 Chandler Camille May, « Topic Modeling in Theory and Practice », thèse, John Hopkins University, 2022.
20 Zachary Lipton, « The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery », Queue, vol. 13, n° 3, 2018, pages 31 à 57, https://dl.acm.org/doi/10.1145/3236386.3241340 Caitlin Doogan et Wray Buntine, « Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures », Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics : Human Language Technologies, 2021, pages 3824 à 3848, https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber et Philip Resnik, « Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence », Advances in Neural Processing Systems, vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html
21 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan et Elliott Ash, « Revisiting Automated Topic Model Evaluation with Large Language Models », actes de la conférence 2023 sur les méthodes empiriques en traitement automatique du langage naturel, 2023, https://aclanthology.org/2023.emnlp-main.581
22 Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli et Daniela Ushizima, « Benchmarking topic models on scientific articles using BERTeley », Natural Language Processing Journal, vol. 6, 2024, pages 2949 à 7191, https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem et Roy Ka-Wei Lee, « Prompting Large Language Models for Topic Modeling », actes de la conférence internationale 2023 de l’IEEE sur le big data, 2023, pages 1236 à 1241, https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy