Qu'est-ce que la modélisation de sujets ?

Auteurs

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

Qu’est-ce que la modélisation de sujets ?

Dans le traitement automatique du langage naturel (NLP), la modélisation thématique est une technique de fouille de texte qui applique un apprentissage non supervisé sur de grands jeux de textes pour produire un ensemble récapitulatif de termes représentant l’ensemble principal de thèmes de la collection.¹Les modèles thématiques facilitent les tâches de classification de texte et de recherche d’information.

Les modèles thématiques identifient spécifiquement les mots-clés ou les expressions courants dans un jeu de données textuelles et regroupent ces mots sous un certain nombre de thèmes. Ils visent à découvrir les sujets ou les thèmes latents qui caractérisent un ensemble de documents. Ils constituent donc une forme d’analyse de texte qui s’appuie sur le machine learning et qui permet d’annoter de manière thématique les grands corpus textuels.²

Les utilisateurs peuvent facilement générer des modèles thématiques grâce aux outils de traitement du langage naturel Scikit-learn (NLTK) ou à gensim dans Python.

Newsletter sectorielle

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Modélisation thématique : comment ça marche ?

Parce qu’ils s’appuient sur l’apprentissage non supervisé, les modèles thématiques ne requièrent pas d’étiquettes de données d’entraînement générées par l’utilisateur, comme dans le cas des tâches de classification de texte supervisée. Les modèles thématiques génèrent et, par extension, annotent de grandes collections de documents contenant des informations thématiques sous forme de groupes de mots appelés « thèmes ».³ Mais comment les modèles thématiques produisent-ils ces groupes de mots ?

La modélisation thématique traite chaque document de la collection de textes comme un modèle de sac de mots. Cela signifie que l’algorithme de modélisation thématique ignore l’ordre des mots et le contexte pour se concentrer sur la fréquence d’occurrence et de cooccurrence dans chaque document.⁴

Dans la plupart des approches de modélisation thématique, on commence par générer une matrice terme-document. Celle-ci permet de modéliser le jeu de données textuelles : les documents y sont représentés sous forme de lignes, et les différents mots sous forme de colonnes, ou vice-versa. Les valeurs de la matrice indiquent la fréquence d’occurrence d’un mot donné dans chaque document. Cette matrice peut ensuite être utilisée pour générer un espace vectoriel, où n mots correspondent à n dimensions. La valeur d’une ligne donnée indique la position de ce document dans l’espace vectoriel. Les documents dans lesquels les mots figurent dans des groupes similaires et avec une fréquence comparable seront donc plus proches dans l’espace vectoriel. À partir de là, les modèles thématiques traitent la proximité dans l’espace vectoriel comme des documents partageant un contenu conceptuel ou des thèmes similaires.⁵

Les modèles thématiques diffèrent toutefois des sacs de mots. Alors que ces derniers se contentent de comptabiliser la présence des mots dans une collection de documents, les modèles thématiques regroupent les mots cooccurrents en ensembles de thèmes. Chaque thème est modélisé comme une probabilité de distribution des thèmes sur les termes du vocabulaire utilisé. Chaque document de la collection est ensuite représenté en fonction de ces thèmes.⁶ Les modèles thématiques procèdent ainsi à une rétro-ingénierie des discours (c’est-à-dire des thèmes) qui ont produit les documents en question.⁷

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Regardez tous les épisodes de Mixture of Experts

Types d’algorithmes de modélisation thématique

Bien plus que de simples méthodes alternatives à une tâche, les algorithmes de modélisation thématique constituent des développements séquentiels destinés à résoudre les problèmes initialement trouvés dans les modèles de sac de mots. La méthode TF-IDF (fréquence du terme/fréquence inverse de document) consiste à modifier le sac de mots pour résoudre les problèmes liés aux mots courants, mais sémantiquement non pertinents. Pour ce faire, on prend en compte la prévalence de chaque mot dans chaque document d’une collection de textes. L’analyse sémantique latente s’appuie sur la méthode TF-IDF pour traiter principalement la polysémie et la synonymie. C’est ainsi que l’analyse sémantique probabiliste latente a vu le jour. Développée à partir de cette dernière, l’allocation latente de Dirichlet se distingue par le fait que tous les documents d’une collection partagent le même ensemble de thèmes, bien que dans des proportions différentes.⁸

Analyse sémantique latente

L’analyse sémantique latente (LSA) (également appelée « indexation sémantique latente ») déploie une technique connue sous le nom de « décomposition des valeurs singulières » afin de réduire la parcimonie de la matrice terme-document. Cela permet d’atténuer les problèmes liés à la polysémie et à la synonymie, c’est-à-dire les mots qui présentent chacun plusieurs sens, et ceux qui ont le même sens qu’un autre.

On parle de parcimonie des données lorsque la plupart des valeurs dans un jeu de données sont nulles (c’est-à-dire vides). Cela se produit régulièrement lors de la création des matrices terme-document, où chaque mot correspond à une ligne distincte et à une dimension de l’espace vectoriel, car la plupart des mots qui sont fréquents dans un document seront absents dans un autre. Bien entendu, les techniques de prétraitement des données textuelles comme la suppression des mots vides, ou encore la racinisation et la lemmatisation, permettent de réduire la taille de la matrice. La LSA offre une approche plus ciblée pour réduire la parcimonie et la dimensionnalité.

La LSA commence par la matrice terme-document, qui indique le nombre de fois où chaque mot figure dans chaque document. Elle produit ensuite une matrice document-document et une matrice terme-terme. Si les dimensions de la matrice terme-document sont définies comme d documents multipliés par w mots, alors la matrice document-document est d fois d, et la matrice terme-terme w fois w. Chaque valeur de la matrice document-document indique le nombre de mots que chaque document a en commun. Chaque valeur de la matrice terme-terme indique le nombre de documents dans lesquels deux termes coexistent.⁹

S’appuyant sur ces deux matrices, l’algorithme LSA procède à une décomposition en valeurs singulières de la matrice terme-document initiale, afin de produire des matrices de vecteurs propres. Ces matrices spéciales décomposent les relations terme-document initiales en facteurs linéaires indépendants. Comme bon nombre de ces facteurs sont proches de zéro, ils sont traités comme zéro et éliminés des matrices. Cela permet de réduire les dimensions du modèle.¹⁰

Une fois que les dimensions du modèle ont été réduites par la décomposition en valeurs singulières, l’algorithme LSA s’appuie sur la similarité cosinus pour comparer les documents dans l’espace dimensionnel inférieur. La similarité cosinus permet de mesurer l’angle formé par deux vecteurs dans l’espace vectoriel. Cette valeur est comprise entre -1 et 1. Plus le cosinus est élevé, plus les deux documents sont considérés comme similaires. La similarité cosinus est représentée par cette formule, où x et y représentent deux vecteurs d’éléments dans l’espace vectoriel :¹¹

Illustration de la formule de similarité cosinus

Allocation de Dirichlet latente

L’allocation de Dirichlet latente (LDA), à ne pas confondre avec l’analyse discriminante linéaire, est un algorithme de modélisation thématique probabiliste. Cela signifie qu’il génère des thèmes en classant les mots et les documents parmi ces thèmes, en fonction des distributions de probabilités. Grâce à la matrice terme-document, l’algorithme LDA génère des distributions de thèmes (c’est-à-dire des listes de mots-clés avec leurs probabilités respectives), en fonction de la fréquence d’occurrence des mots et des cooccurrences. Il part du principe que les mots qui figurent ensemble sont susceptibles d’appartenir à des thèmes similaires. L’algorithme attribue les distributions thème-document en fonction des groupes de mots qui figurent dans le document en question.¹²

Supposons que nous générions un modèle LDA pour une collection d’articles d’actualité dont la sortie partielle est la suivante :

Ici, nous avons deux sujets que l’on peut probablement décrire comme l’immigration (Sujet 1) et l’astronomie (Sujet 2). Les scores associés à chaque mot correspondent à la probabilité que ce mot-clé apparaisse dans son sujet donné. Les probabilités attachées à chaque document sont les probabilités respectives de ce document d’appartenir à un mélange de sujets compte tenu de la distribution et de la co-occurrence des mots de chaque sujet dans ce document. Par exemple, la première ligne du tableau répertorie frontière sous le Sujet 1 avec une probabilité de 40 % et l’espace dans le Sujet 2 avec une probabilité de 60 %. Ces pourcentages indiquent la probabilité que leurs termes respectifs apparaissent pour ce sujet dans l’ensemble du corpus. La première ligne de document indique Document 1: Sujet 1: 0,95, Sujet 2: 0,05. Cela signifie que, sur la base de l'occurrence des mots dans le document 1, le modèle prévoit que le document 1 est composé à 95 % du sujet 1 et à 5 % du sujet 2. En d'autres termes, notre modèle LDA hypothétique suppose qu'il s'agit des sujets et des proportions de ces sujets utilisés pour générer le modèle.

Bien entendu, les mots polysémiques en particulier posent des problèmes pour ces catégorisations distinctes, par exemple, alien peut faire référence à une personne étrangère à un milieu/environnement ou à une créature extra-terrestre. Si notre algorithme rencontre un alien dans un document, comment détermine-t-il à quel sujet le mot (et par extension, le document) se rapporte-t-il ?

Pour attribuer des sujets aux mots, l’algorithme LDA s’appuie sur ce que l’on appelle l’échantillonnage de Gibbs. La formule de l'échantillonnage Gibbs est la suivante :

La compréhension des opérations exactes et des hyperparamètres de cette équation nécessite des connaissances de base en statistiques et en techniques de Monte Carlo par chaîne de Markov (ces dernières étant souvent utilisées dans l’apprentissage par renforcement). Néanmoins, nous pouvons résumer les principales composantes de l’équation :

Le premier rapport exprime la probabilité du sujet t dans le document d. L’algorithme calcule cette probabilité en fonction du nombre de mots dans le document d qui appartiennent au sujet t. Il s’agit essentiellement de la question suivante : quelle est l’importance du sujet t dans le document d ?
Le second ratio exprime la probabilité que le mot w appartienne au sujet t. L’algorithme calcule cette probabilité en énumérant les occurrences de w in t sur tous les mots-jetons de t. Il pose la question suivante : à quelle fréquence le mot w apparaît-il dans le sujet t dans le reste du corpus ?

Notez que l’échantillonnage de Gibbs est un processus itératif. Autrement dit, un mot n’est pas échantillonné une seule fois, attribué à un sujet et mis de côté. Au contraire, l’échantillonnage de Gibbs fait passer chaque mot par plusieurs itérations, mettant à jour les probabilités sujet-mot les unes par rapport aux autres.¹³

Recherches récentes

Il existe de nombreux cas d’utilisation des modèles thématiques, de la critique littéraire¹⁴ à la bioinformatique¹⁵ en passant par la détection des discours haineux sur les réseaux sociaux.¹⁶ Comme c’est souvent le cas en NLP, une grande partie de la recherche sur la modélisation thématique concerne l’anglais et d’autres langues utilisant l’alphabet latin. Plus récemment, cependant, on a commencé à explorer les approches de modélisation thématique pour l’arabe et d’autres langues utilisant des caractères non latins.¹⁷

Les études en cours portent également sur les indicateurs employés pour évaluer les modèles thématiques. En effet, il n’existe pas d’indicateur universel à cet effet. Les indicateurs traditionnels suivent des approches qualitatives et quantitatives. La première nécessite de solides connaissances spécialisées pour évaluer l’interprétabilité des termes clés du mode sujet.¹⁸ Les mesures quantitatives consistent en scores de log-vraisemblance et de cohérence, qui visent à mesurer la probabilité et la cohésion des sujets au sein d’un modèle.¹⁹ Un grand nombre d’études soutiennent toutefois que ces indicateurs quantitatifs peuvent ne pas être fiables.²⁰

Afin de résoudre les problèmes liés à l’évaluation des modèles thématiques, une étude s’est tournée vers les applications de l’intelligence artificielle, notamment les grands modèles de langage (LLM), comme méthode de création et d’évaluation des modèles LDA à des fins de recherche spécifiques. Selon cette étude, les LLM permettraient de résoudre des défis de longue date liés à la modélisation thématique, à savoir la manière de déterminer et d’évaluer le nombre approprié de thèmes.²¹ D’autres études se tournent également vers les applications LLM pour combler les lacunes en matière d’évaluation de la modélisation thématique.²²

Votre entreprise est-elle prête à tirer parti de l’IA générative ?

Découvrez les cinq principales capacités d’orchestration pouvant aider les organisations à relever les défis d’une mise en œuvre efficace de l’IA générative.

Ressources

Découvrir IBM Granite

IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.

Guide du débutant sur le NLP

Découvrez comment le traitement automatique du langage naturel peut vous aider à interagir de manière plus naturelle avec les ordinateurs.

L’IA en action 2024

Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.

Améliorez vos applications avec l’IA intégrable d’IBM

Explorez le site web IBM Developer pour accéder à des blogs, des articles et des newsletters et pour en savoir plus sur l’IA intégrable d’IBM.

L’IA générative en pratique

Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.

Solutions connexes

IBM watsonx Orchestrate

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate

Outils et API de traitement automatique du langage naturel

Accélérez la valeur métier de l’intelligence artificielle grâce à un portefeuille puissant et flexible de bibliothèques, de services et d’applications.

Découvrir les solutions NLP

Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA

Passez à l’étape suivante

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate

Découvrir les solutions NLP

Notes de bas de page

¹Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/

² Jay Alammar et Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

³ David Blei, « Probabilistic Topic Models », Communications of the ACM, vol. 55, n° 4, 2012, pages 77 à 84.

⁴ Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.

⁵ Cole Howard, Hobson Lane et Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Practical Natural Language Processing, O’Reilly, 2020.

⁶ Chandler Camille May, « Topic Modeling in Theory and Practice », thèse, John Hopkins University, 2022.

⁷ Practical Natural Language Processing, O’Reilly. David Blei, « Probabilistic Topic Models », Communications of the ACM, vol. 55, n° 4, 2012, pages 77 à 84.

⁸ Cole Howard, Hobson Lane et Hannes Hapke, Natural Language Processing in Action, Manning Publications, Deerwester, « Indexing by Latent Semantic Analysis », David Blei, « Probabilistic Topic Models », Communications of the ACM, vol. 55, n° 4, 2012, pages 77 à 84.

⁹ Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

¹⁰ Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, and Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, pp. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

¹¹ Elsa Negre, Information and Recommender Systems, vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.

¹² Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Practical Natural Language Processing, O’Reilly, 2020. David Blei, Andrew Ng et Michael Jordan, « Latent Dirichlet Allocation », Journal of Machine Learning Research, vol. 3, 2003, pages 993 à 1022.

¹³ Zhiyuan Chen et Bing Liu, « Topic Models for NLP Applications », Encyclopedia of Machine Learning and Data Science, Springer, 2020.

¹⁴ Derek Greene, James O’Sullivan, and Daragh O’Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024, https://academic.oup.com/dsh/article/39/1/142/7515230?login=false

¹⁵ Yichen Zhang, Mohammadali (Sam) Khalilitousi, and Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/

¹⁶ Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, and Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38

¹⁷ Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, pp. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, and Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609

¹⁸ Matthew Gillings and Andrew Hardie, “The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice,” Digital Scholarship in the Humanities, Vol. 38, No. 2, 2023, pp. 530–543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052

¹⁹ Chandler Camille May, « Topic Modeling in Theory and Practice », thèse, John Hopkins University, 2022.

²⁰ Zachary Lipton, “The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery,” Queue, Vol. 13, No. 3, 2018, pp. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 Caitlin Doogan and Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies” 2021, pp. 3824-3848, https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, and Philip Resnik, “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence », Advances in Neural Processing Systems, vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html

²¹ Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, and Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, 2023, https://aclanthology.org/2023.emnlp-main.581

²² Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli, and Daniela Ushizima, “Benchmarking topic models on scientific articles using BERTeley,” Natural Language Processing Journal, Vol. 6, 2024, pp. 2949-7191, https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem, and Roy Ka-Wei Lee, “Prompting Large Language Models for Topic Modeling,” Proceedings of the 2023 IEEE International Conference on Big Data, 2023, pp. 1236-1241, https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy