Quais ferramentas ou métricas há disponíveis para ajudar um usuário a ajustar um modelo LDA? Para aqueles que são novos na modelagem de tópicos, pode ser frustrante saber que não há uma métrica de desempenho, nem mesmo uma coleção adotada na literatura.
Qualitativa. Acredite ou não, a avaliação qualitativa não é incomum, especialmente em aplicações do mundo real. Muitas vezes, pode envolver o exame das cinco ou dez principais palavras-chave de cada tópico. Então, elas são utilizadas para avaliar tópicos de acordo com a interpretação dos tópicos pelos usuários humanos.8 Esse tipo de "avaliação visual", por assim dizer, requer uma quantidade significativa de conhecimento especializado no domínio e familiaridade com os documentos em consideração.9
Coerência. A coerência de tópicos é um método quantitativo popular para avaliar tópicos gerados. Uma pontuação de coerência de tópicos mede a frequência com que as palavras mais prováveis de um determinado tópico ocorrem simultaneamente nos mesmos documentos em todo o corpus. Mais especificamente, calcula a frequência de coocorrência de cada par de palavras das n principais palavras de um tópico em relação à frequência de palavras de cada indivíduo em todo o corpus. Isso visa quantificar o quanto um determinado tópico é coerente. A pontuação geral de coerência de um modelo calcula a média da pontuação de coerência pertencente a cada tópico individual. Na verdade, essa pontuação geral significa a coerência média do tópico em um determinado modelo. Por seu nome, a coerência avalia os modelos apenas de acordo com a coesão de seus tópicos. Os tópicos também devem manter um grau de exclusividade, entretanto, para o qual atualmente não há medida quantitativa.10
Pesquisas recentes mostram que métricas quantitativas, como pontuação de coerência, não são confiáveis para avaliação de modelos de tópicos. Isso se deve, em parte, à ambiguidade no objetivo avaliativo professado de interpretabilidade—o que torna um modelo e seus resultados interpretáveis?11 Além disso, métricas automatizadas projetadas para sistemas mais antigos podem não ser bem extrapoladas para sistemas mais novos. Essa questão é complicada pela falta de transparência em muitos experimentos publicados, o que impede a generalização dos métodos de avaliação para outros conjuntos de dados ou domínios.12 Recentemente, as pesquisas se voltaram para aplicações de inteligência artificial, principalmente grandes modelos de linguagem (LLMs), como um meio de projetar e avaliar modelos LDA para um objetivo de pesquisa específico.13 Embora isso mostre resultados promissores, são necessárias mais pesquisas.