Quali strumenti o metriche sono disponibili per aiutare un utente a ottimizzare un modello LDA? Per chi è nuovo nella modellazione degli argomenti, può essere frustrante apprendere che non esiste una, e nemmeno una raccolta di metriche prestazionali adottate in letteratura.
Qualitativa. Che ci si creda o no, la valutazione qualitativa non è rara, in particolare nelle applicazioni del mondo reale. Spesso questo può comportare l'esame delle cinque o dieci parole chiave principali per ogni argomento. Queste vengono poi utilizzate per valutare gli argomenti in base a quanto siano interpretabili dagli utenti umani.8 Questo tipo di "osservazione", per così dire, richiede una notevole quantità di conoscenze di dominio e familiarità con i documenti in esame.9
Coerenza. La coerenza tematica è un metodo quantitativo popolare per valutare gli argomenti generati. Un punteggio di coerenza tematica misura la frequenza con cui le parole più probabili di un determinato argomento ricorrono negli stessi documenti in tutto il corpus. Più specificamente, calcola con quale frequenza ogni coppia di parole (tra le parole più utilizzate di un argomento) n compare insieme rispetto alla frequenza delle singole parole nel corpus. Questo serve a quantificare la coerenza di un determinato argomento. Il punteggio complessivo della coerenza di un modello fa la media del punteggio della coerenza appartenente a ogni singolo argomento. In effetti, questo punteggio complessivo indica la coerenza media degli argomenti all'interno di un determinato modello. Secondo il nome, la coerenza valuta i modelli esclusivamente in base alla coesione dei loro argomenti. Gli argomenti devono anche mantenere un certo grado di esclusività, per cui attualmente non vi è alcuna misura quantitativa.10
Ricerche recenti dimostrano che le metriche quantitative, come ad esempio il punteggio di coerenza, sono inaffidabili per quanto riguarda la valutazione del modello tematico. Questo è dovuto in parte all'ambiguità nell'obiettivo di valutazione dichiarato dell'interpretazione: cosa rende un modello e i suoi risultati interpretabili?11 Inoltre, le metriche automatizzate progettate per i sistemi più datati potrebbero non essere estrapolate correttamente nei sistemi più recenti. Questo problema è ulteriormente complicato dalla mancanza di trasparenza in numerosi esperimenti pubblicati che impediscono la generalizzazione dei metodi di valutazione ad altri set di dati o domini.12 La ricerca si è recentemente rivolta alle applicazioni dell'AI, in particolare ai modelli linguistici di grandi dimensioni (LLM), come mezzo per progettare e valutare modelli LDA per uno specifico obiettivo di ricerca.13 Sebbene questo dimostri risultati promettenti, sono necessarie ulteriori ricerche.