¿Qué herramientas o métricas están disponibles para ayudar a un usuario a ajustar un modelo LDA? Para los que son nuevos en la modelización de temas, puede resultar frustrante saber que no hay una métrica de rendimiento única, ni siquiera una colección de, adoptada en la literatura.
Cualitativo. Lo crea o no, la evaluación cualitativa no es infrecuente, especialmente en aplicaciones del mundo real. A menudo, esto puede implicar el examen de las cinco o diez palabras clave principales para cada tema. Se utilizan después para evaluar los temas según su interpretación por parte de los usuarios humanos8. Este tipo de "globo ocular", así que para hablar, requiere una cantidad significativa de conocimiento de dominio experto y familiaridad con los documentos en consideración9.
Coherencia. La coherencia de temas es un método cuantitativo popular para evaluar los temas generados. Una puntuación de coherencia temática mide la frecuencia con la que las palabras más probables de un tema determinado coexisten en los mismos documentos a lo largo del corpus. Más concretamente, calcula la frecuencia de coocurrencia de cada par de palabras de las n palabras principales de un tema frente a la frecuencia de palabras de cada individuo en todo el corpus. Su objetivo es cuantificar la coherencia de un tema determinado. La puntuación de coherencia global de un modelo promedia la puntuación de coherencia de cada tema individual. En efecto, esta puntuación global significa la coherencia media de los temas dentro de un modelo dado. Como su nombre indica, la coherencia evalúa los modelos únicamente en función de la cohesión de sus temas. Sin embargo, los temas también deben mantener un grado de exclusividad, para el que actualmente no existe una medida cuantitativa10.
Investigaciones recientes demuestran que las métricas cuantitativas, como la puntuación de coherencia, no son fiables para la evaluación de modelos temáticos. Esto se debe, en parte, a la ambigüedad del objetivo evaluativo declarado de interpretabilidad: ¿qué hace que un modelo y sus resultados sean interpretables?11 Además, es posible que las métricas automatizadas diseñadas para sistemas más antiguos no se extrapolen bien a los sistemas más nuevos. Este problema se complica por la falta de transparencia en muchos experimentos publicados que impiden la generalización de los métodos de evaluación a otros conjuntos de datos o dominios12. Las investigaciones se han centrado recientemente en las aplicaciones de la inteligencia artificial, en particular los modelos de lenguaje de gran tamaño (LLM), como medio para diseñar y evaluar modelos LDA para un objetivo de investigación específico13. Si bien esto muestra resultados prometedores, se necesita más investigación.