¿Qué herramientas o métricas están disponibles para ayudar a un usuario a ajustar un modelo LDA? Para los que son nuevos en la modelización de temas, puede resultar frustrante saber que no hay una métrica de rendimiento única, ni siquiera una colección de, adoptada en la literatura.
Cualitativo. Lo crea o no, la evaluación cualitativa no es infrecuente, especialmente en aplicaciones del mundo real. A menudo, esto puede implicar el examen de las cinco o diez palabras clave principales para cada tema. A continuación, se emplean para evaluar los temas en función de la interpretabilidad de los temas por parte de los usuarios humanos.8 Este tipo de "observación", por así decirlo, requiere una cantidad significativa de conocimiento experto del dominio y familiaridad con los documentos bajo consideración.9
Coherencia. La coherencia de temas es un método cuantitativo popular para evaluar los temas generados. Un puntaje de coherencia temática mide la frecuencia con la que las palabras más probables de un tema determinado aparecen conjuntamente en los mismos documentos a lo largo del corpus. Más específicamente, calcula la frecuencia de ocurrencia simultánea de cada par de palabras de las n palabras principales de un tema contra la frecuencia de cada palabra individual en el corpus. El objetivo es cuantificar la coherencia de un tema determinado. El puntaje de coherencia general de un modelo promedia el puntaje de coherencia perteneciente a cada tema individual. En efecto, este puntaje general significa la coherencia temática promedio dentro de un modelo dado. Como su nombre lo indica, la coherencia evalúa los modelos únicamente en función de cuán cohesivos son sus temas. Los temas también deben mantener un grado de exclusividad, para lo cual, actualmente no existe una medida cuantitativa.10
Investigaciones recientes muestran que las métricas cuantitativas, como el puntaje de coherencia, no son confiables para la evaluación de modelos temáticos. Esto se debe, en parte, a la ambigüedad en el objetivo evaluativo profesado de la interpretabilidad: ¿qué hace que un modelo y sus resultados sean interpretables?11 Además, es posible que las métricas automatizadas diseñadas para sistemas más antiguos no se extrapolen bien a los sistemas más nuevos. Este problema se complica por la falta de transparencia en muchos experimentos publicados que impiden la generalización de los métodos de evaluación a otros conjuntos de datos o dominios.12 La investigación se centró recientemente en las aplicaciones de la inteligencia artificial, en particular los modelos de lenguaje grandes (LLM), como medio para diseñar y evaluar modelos LDA para un objetivo de investigación específico.13 Si bien esto muestra resultados prometedores, se necesita más investigación.