Quels outils ou indicateurs sont disponibles pour aider les utilisateurs à affiner un modèle LDA ? Pour les novices en matière de modélisation thématique, il peut être frustrant d'apprendre qu'il n'existe pas d'indicateurs de performance unique, ou même d'ensemble d'indicateurs de performance, adoptée dans la littérature.
Approche qualitative. Croyez-le ou non, l’évaluation qualitative n’est pas rare, en particulier dans les applications réelles. Il s’agit souvent d’examiner les cinq ou dix premiers mots-clés de chaque sujet. Ils sont ensuite utilisés pour évaluer les sujets en fonction de leur interprétation par les utilisateurs humains.8 Cette sorte de « vision », pour ainsi dire, nécessite une connaissance approfondie du domaine et une familiarité avec les documents considérés.9
Cohérence. La cohérence des sujets est une méthode quantitative populaire pour évaluer les sujets générés. Un score de cohérence thématique mesure la fréquence à laquelle les mots les plus probables d’un sujet donné coexistent dans les mêmes documents tout au long du corpus. Plus précisément, il calcule la fréquence de cooccurrence de chaque paire de mots parmi les n premiers mots d’un sujet par rapport à la fréquence de chaque mot dans le corpus. Cela vise à quantifier la cohérence d’un sujet donné. Le score de cohérence global d’un modèle correspond à la moyenne du score de cohérence appartenant à chaque sujet individuel. En effet, ce score global signifie la cohérence moyenne du sujet au sein d’un modèle donné. Comme son nom l’indique, la cohérence évalue les modèles uniquement en fonction de la cohérence de leurs sujets. Les sujets doivent également conserver un certain degré d’exclusivité, pour lequel il n’existe actuellement aucune mesure quantitative.10
Des recherches récentes montrent que les indicateurs quantitatifs, tels que le score de cohérence, ne sont pas fiables pour l’évaluation des modèles thématiques. Cela est dû en partie à l’ambiguïté de l’objectif évaluatif déclaré de l’interprétabilité : qu’est-ce qui fait qu’un modèle et ses résultats sont interprétables ?11 De plus, les indicateurs automatisés conçus pour les systèmes plus anciens peuvent ne pas bien extrapoler aux systèmes plus récents. Ce problème est compliqué par le manque de transparence dans de nombreuses expériences publiées qui empêche la généralisation des méthodes d’évaluation à d’autres jeux de données ou domaines.12 La recherche s’est récemment tournée vers les applications de l’intelligence artificielle, notamment les grands modèles de langage (LLM), comme moyen de concevoir et d’évaluer des modèles LDA pour un objectif de recherche spécifique.13 Bien que les premiers résultats sont prometteurs, des recherches supplémentaires sont nécessaires.