Accueil Thèmes Allocation de Dirichlet latente Qu’est-ce que l’allocation latente Dirichlet (LDA) ? | IBM
Découvrir l’allocation de Latent Dirichlet avec watsonx.ai S’inscrire pour recevoir les dernières informations sur l’IA
Illustration représentant les données d'une page triées et réparties dans différents groupes

Publication : le 22 avril 2024
Contributeurs : Jacob Murel Murel, Eda Kavlakoglu

 

L’allocation de Dirichlet latente est une technique de modélisation thématique permettant de découvrir les sujets centraux et leurs distributions dans un ensemble de documents.

L’allocation de Dirichlet latente (LDA), à ne pas confondre avec l’analyse discriminante linéaire dans le machine learning, est une approche bayésienne de la modélisation thématique. En d’autres termes, la LDA est une forme conditionnelle et probabiliste de modélisation thématique.

La modélisation thématique est une technique de traitement automatique du langage naturel (NLP) qui applique un apprentissage non supervisé sur de grands jeux de données textuelles afin de produire un ensemble récapitulatif de termes dérivés de ces documents. Ces termes sont censés représenter l’ensemble des sujets principaux de la collection. Ainsi, les modèles thématiques visent à découvrir les sujets ou les thèmes latents qui caractérisent une collection de documents.1

Les utilisateurs peuvent facilement générer des modèles de sujets LDA en utilisant l'outils de langage naturel (NLTK) (lien externe à ibm.com) de scikit-learn (ou sklearn) et gensim (lien externe à ibm.com) dans Python. Les paquets topicmodels (lien externe à ibm.com) et lda (lien externe à ibm.com) dans R contiennent également des fonctions permettant de générer des modèles de sujets LDA.

Pourquoi la gouvernance de l’IA constitue un impératif pour déployer l’intelligence artificielle dans les entreprises

Découvrez les obstacles à l’adoption de l’IA, en particulier le manque de solutions de gouvernance de l’IA et de gestion des risques.

Contenu connexe

Obtenir le guide sur les modèles de fondation

Hypothèse de génération de texte

La LDA est un modèle probabiliste. Cela signifie que l'algorithme LDA génère des thèmes, classant les mots et les documents dans ces différents thèmes, selon des distributions de probabilité. Mais pourquoi cette méthode est-elle appropriée pour découvrir des structures thématiques cachées dans des données textuelles ? La LDA part essentiellement du principe que les documents ont été générés à partir d'un échantillonnage aléatoire de sujets pré-documentaires et tente d'inverser cet échantillonnage.

Le processus de génération de texte imaginé par LDA commence par des sujets pré-documentaires. Chaque sujet est un vocabulaire de mots fixe, dans lequel chaque mot a une probabilité qu’il appartienne à ce sujet. Notez que les mots se voient attribuer des probabilités plutôt qu’une catégorie discrète pour tenir compte de la pluralité potentielle de sens et d’utilisation. Ensuite, pour créer un document texte, la machine génère aléatoirement une distribution sur des sujets tels que 85 % de politique, 10 % de finance, 5 % d’histoire. Pour chaque mot de ce document, la machine sélectionne au hasard l’un des sujets choisis et émet au hasard un mot de ce sujet. Notez que la LDA ne génère pas elle-même de documents de cette façon. Il s’agit plutôt du processus par lequel la LDA suppose que les documents sont générés. La LDA elle-même tente d’inverser ce processus pour découvrir les sujets généraux et cachés qui envahissent un corpus de documents.

Cette figure illustre le processus de génération de texte supposé sous-jacent à la LDA :

Au bas de cette image se trouve un assortiment aléatoire de sujets composés d’une distribution de mots. Ces sujets existent pour tous les documents de la collection. Pour générer un document donné (dans cet exemple, Othello de Shakespeare), la machine génère une distribution de sujets, qui est le graphique situé à l'extrême droite. Cette distribution correspond aux sujets (et à la proportion de chacun) qui comprendront le document. Pour chaque mot du document, la machine sélectionne au hasard l'un des sujets choisis (la colonne de points colorés), parmi lesquels elle choisit à son tour au hasard un mot (les termes surlignés).2 Notez que cette visualisation n’est qu’un exemple, et n’est pas le résultat d’une modélisation de sujet réelle ou d’une génération de texte. Toutefois, comme nous l'avons mentionné, la méthode LDA part du principe que chaque document est généré par ce processus génératif général, que la méthode LDA tente d'inverser.

Comment fonctionne l'allocation latente Dirichlet

Tout comme d’autres approches de modélisation de sujets, telles que l’analyse sémantique latente (LSA), la LDA aborde les documents à travers les corpus comme un sac de mots. Cela signifie que la LDA ignore l’ordre des mots et le contexte. Elle se concentre plutôt sur la fréquence à laquelle les mots apparaissent et co-apparaissent dans chaque document individuel.3 La fréquence et la co-occurrence des mots sont modélisées dans la matrice document-terme. Ici, les documents sont des lignes et les mots individuels sont des colonnes, ou vice-versa. La valeur de chaque cellule indique la fréquence à laquelle un mot donné apparaît dans chaque document.4

Génération de sujets

En utilisant la matrice document-terme, l'algorithme LDA génère des distributions de sujets (c'est-à-dire des listes de mots-clés avec leurs probabilités respectives) en fonction de la fréquence des mots et des co-occurrences. En suivant la fréquence de cooccurrence, la LDA suppose que les mots qui se produisent ensemble font probablement partie de sujets similaires. L’algorithme attribue ensuite des distributions aux sujets des documents en fonction des groupes de mots qui apparaissent dans le document donné.5

Supposons, par exemple, que nous générions un modèle LDA pour une collection d’articles d’actualité dont le résultat partiel est le suivant

Ici, nous avons deux sujets que l’on peut probablement décrire comme l’immigration (Sujet 1) et l’astronomie (Sujet 2). Les scores associés à chaque mot correspondent à la probabilité que ce mot-clé apparaisse dans son sujet donné. Les probabilités attachées à chaque document sont les probabilités respectives de ce document d’appartenir à un mélange de sujets compte tenu de la distribution et de la co-occurrence des mots de chaque sujet dans ce document. Par exemple, la première ligne du tableau répertorie frontière sous le Sujet 1 avec une probabilité de 40 % et l’espace dans le Sujet 2 avec une probabilité de 60 %. Ces pourcentages indiquent la probabilité que leurs termes respectifs apparaissent pour ce sujet dans l’ensemble du corpus. La première ligne de document indique Document 1: Sujet 1: 0,95, Sujet 2: 0,05. Cela signifie que, sur la base de l'occurrence des mots dans le document 1, le modèle prévoit que le document 1 est composé à 95 % du sujet 1 et à 5 % du sujet 2. En d'autres termes, notre modèle LDA hypothétique suppose qu'il s'agit des sujets et des proportions de ces sujets utilisés pour générer le modèle.

Bien entendu, les mots polysémiques en particulier posent des problèmes pour ces catégorisations distinctes, par exemple, alien peut faire référence à une personne étrangère à un milieu/environnement ou à une créature extra-terrestre. Dans ce cas, comment l’algorithme LDA détermine-t-il à quel sujet le mot (et par extension, le document) appartient-il ?

Formule de Gibbs

Lorsqu’il attribue des sujets aux mots, l’algorithme LDA utilise ce que l’on appelle l’échantillonnage de Gibbs. La formule de l'échantillonnage Gibbs est :

La compréhension des opérations exactes et des hyperparamètres de cette équation nécessite des connaissances de base en statistiques et en techniques de Monte Carlo par chaîne de Markov (ces dernières étant souvent utilisées dans l'apprentissage par renforcement). Néanmoins, nous pouvons résumer les principales composantes de l’équation :

  • Le premier rapport exprime la probabilité du sujet t dans le document d. L’algorithme calcule cette probabilité en fonction du nombre de mots dans le document d qui appartiennent au sujet t. Il s’agit essentiellement de la question suivante : quelle est l’importance du sujet t dans le document d ?
  • Le second ratio exprime la probabilité que le mot w appartienne au sujet t. L’algorithme calcule cette probabilité en énumérant les occurrences de w in t sur tous les mots-jetons de t. Il pose la question suivante : à quelle fréquence le mot w apparaît-il dans le sujet t dans le reste du corpus ?

Notez que l’échantillonnage de Gibbs est un processus itératif. Autrement dit, un mot n’est pas échantillonné une seule fois, attribué à un sujet et mis de côté. Au contraire, l’échantillonnage de Gibbs fait passer chaque mot par plusieurs itérations, mettant à jour les probabilités sujet-mot les unes par rapport aux autres.6

Classification de texte

La LDA se distingue par sa distribution probabiliste de chaque document sur un ensemble de sujets partagés. Comme pour d’autres approches de modélisation de sujets, ces sujets et leur distribution dans chaque document ne sont pas connus. La modélisation de sujet n'est pas supervisée ; aucune donnée étiquetée manuellement ne guide l’analyse. En découvrant des structures thématiques cachées, la LDA annote les documents d’une collection. Ces annotations (c’est-à-dire les sujets découverts) peuvent être utilisées pour classer les textes. Ainsi, la LDA facilite les systèmes de recherche d’informations en automatisant l’annotation et l’organisation de grands ensembles de documents.7

Optimisation

Comme pour de nombreuses techniques de fouille de texte en science des données, le prétraitement du texte améliore considérablement les résultats du modèle LDA. L'élimination des mots parasites permet de supprimer les mots courants qui ne sont pas pertinents d'un point de vue sémantique. Le stemming ou lemmatisation permet de réduire les variantes morphologiques à des formes de base, ce qui permet de regrouper les variations d'un mot que la machine pourrait autrement séparer, par exemple, danse, danser, danseur, etc.

Étant donné que les modèles LDA sont probabilistes et non déterministes, l’optimisation des modèles peut être un processus difficile. Il n'y a pas de nombre fixe de sujets qui donnent les meilleurs résultats, et il ne semble pas exister de principe directeur, tel qu'un certain nombre de sujets adaptés à un nombre donné de documents. En effet, l'ajustement des paramètres du modèle pour produire des sujets interprétables et cohérents implique de nombreux essais et erreurs.

Indicateurs d’évaluation

Quels outils ou indicateurs sont disponibles pour aider les utilisateurs à affiner un modèle LDA ? Pour les novices en matière de modélisation thématique, il peut être frustrant d'apprendre qu'il n'existe pas d'indicateurs de performance unique, ou même d'ensemble d'indicateurs de performance, adoptée dans la littérature.

Approche qualitative. Croyez-le ou non, l'évaluation qualitative n'est pas rare, en particulier dans les applications réelles. Il s’agit souvent d’examiner les cinq ou dix premiers mots clés de chaque sujet. Ils sont ensuite utilisés pour évaluer les sujets en fonction de leur interprétation par les utilisateurs humains.8 Cette sorte de « vision », pour ainsi dire, nécessite une connaissance approfondie du domaine et une familiarité avec les documents considérés.9

Cohérence. La cohérence des sujets est une méthode quantitative populaire pour évaluer les sujets générés. Un score de cohérence thématique mesure la fréquence à laquelle les mots les plus probables d’un sujet donné coexistent dans les mêmes documents tout au long du corpus. Plus précisément, il calcule la fréquence de co-occurrence de chaque paire de mots parmi les n premiers mots d’un sujet par rapport à la fréquence de chaque mot dans le corpus. Cela vise à quantifier la cohérence d'un sujet donné. Le score de cohérence global d’un modèle correspond à la moyenne du score de cohérence appartenant à chaque sujet individuel. En effet, ce score global signifie la cohérence moyenne du sujet au sein d’un modèle donné. Comme son nom l’indique, la cohérence évalue les modèles uniquement en fonction de la cohérence de leurs sujets. Les sujets doivent également conserver un certain degré d’exclusivité, pour lequel il n’existe actuellement aucune mesure quantitative.10

Des recherches récentes montrent que les indicateurs quantitatifs, tels que le score de cohérence, ne sont pas fiables pour l'évaluation des modèles thématiques. Cela est dû en partie à l'ambiguïté de l'objectif évaluatif déclaré de l'interprétabilité, qu'est-ce qui fait qu'un modèle et ses résultats sont interprétables ?11 De plus, les indicateurs automatisés conçus pour les systèmes plus anciens peuvent ne pas bien extrapoler aux systèmes plus récents. Ce problème est compliqué par le manque de transparence dans de nombreuses expériences publiées qui empêche la généralisation des méthodes d’évaluation à d’autres jeux de données ou domaines.12 La recherche s’est récemment tournée vers les applications de l’intelligence artificielle, notamment les grands modèles de langage (LLM), comme moyen de concevoir et d’évaluer des modèles LDA pour un objectif de recherche spécifique.13 Bien que cela présente des résultats prometteurs, des recherches supplémentaires sont nécessaires.

Ressources connexes Qu'est-ce que la modélisation de sujets ?

Les modèles thématiques sont une méthode NLP non supervisée qui permet de résumer des données textuelles par le biais de groupes de mots. Ils facilitent les tâches de classification de texte et de recherche d’informations.

Entraînez un modèle de sujet LDA pour l’analyse de texte dans Python

Entraînez et affinez un modèle de sujet LDA avec NLTK et Gensim de Python.

IBM TechXchange : modélisation des sujets

Découvrez la modélisation et son fonctionnement dans cet article de la communauté IBM.

Passer à l’étape suivante

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

1 Daniel Jurafsky et James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3ème édition, 2023,https://web.stanford.edu/~jurafsky/slp3/(lien externe à ibm.com).Jay Alammar et Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

2 David Blei, « Probabilistic Topic Models », Communications of the ACM, Vol. 55, n° 4, 2012, pp. 77-84. Zhiyuan Chen et Bing Liu, « Topic Models for NLP Applications », Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

3 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.

4 Cole Howard, Hobson Lane et Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Practical Natural Language Processing, O’Reilly, 2020.

5 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Practical Natural Language Processing, O’Reilly, 2020. David Blei, Andrew Ng, and Michael Jordan, « Lantent Dirichlet Allocation, » Journal of Machine Learning Research, Vol. 3, 2003, pp. 993-1022.

6 Zhiyuan Chen et Bing Liu, « Topic Models for NLP Applications, » Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

7 David Blei, « Probabilistic Topic Models, » Communications of the ACM, Vol. 55, n° 4, 2012, pp. 77-84.

8 Chandler Camille May, « Topic Modeling in Theory and Practice », Dissertation, John Hopkins University, 2022.

9 Matthew Gillings et Andrew Hardie, « The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice, » Digital Scholarship in the Humanities, Vol. 38, n° 2, 2023, pp. 530-543,https://academic.oup.com/dsh/article-abstract/38/2/530/6957052(lien externe à ibm.com).

10 Chandler Camille May, « Topic Modeling in Theory and Practice, » Dissertation, John Hopkins University, 2022.https://aclanthology.org/D11-1024/ (lien externe à ibm.com).

11 Zachary Lipton, « The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery, » Queue, Vol. 16, N° 3, pp. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 (lien externe à ibm.com). Caitlin Doogan et Wray Buntine, « Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures », Actes de la conférence 2021 de la section nord-américaine de l'Association for Computational Linguistics : Human Language Technologies, 2021, p. 3824-3848, https://aclanthology.org/2021.naacl-main.300 (lien externe à ibm.com).

12 Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, Philip Resnik, « Is Automated Topic Model Evaluation Breaked? The Incohérence of Coherence », Advances in Neural Information Processing Systems, 2021, pp. 2018-2033, https://procédedings.neurips.cc/paper_files/paper/2021/hach/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html (lien externe à ibm.com). Caitlin Doogan et Wray Buntine, « Topic Model or Topic Twaddle? Réévaluation des mesures d'interprétabilité sémantique », Actes de la conférence 2021 de la section nord-américaine de l'Association for Computational Linguistics : Human Language Technologies, 2021, p. 3824-3848, https://aclanthology.org/2021.naacl-main.300 (lien externe à ibm.com).

13 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan et Elliott Ash, « Revisiting Automated Topic Model Evaluation with Large Language Models », Actes de la conférence 2023 sur les méthodes empiriques dans le traitement automatique du langage naturel, 2023, pp. 9348-9357, https://aclanthology.org/2023.emnlp-main.581/ (lien externe à ibm.com).