Alat atau metrik apa yang tersedia untuk membantu pengguna menyempurnakan model LDA? Mereka yang baru mengenal pemodelan topik mungkin akan merasa frustrasi ketika mengetahui bahwa tidak ada satu pun, atau bahkan kumpulan, metrik kinerja yang diadopsi dalam literatur.
Kualitatif. Percaya atau tidak, evaluasi kualitatif tidak jarang terjadi, terutama dalam aplikasi dunia nyata. Ini mungkin sering melibatkan pemeriksaan lima atau sepuluh kata kunci teratas untuk setiap topik. Ini selanjutnya digunakan untuk mengevaluasi topik sesuai dengan seberapa mudah topik ditafsirkan oleh pengguna manusia.8 "Pengamatan" seperti ini, dapat dikatakan, membutuhkan sejumlah besar pengetahuan domain pakar dan keakraban dengan dokumen yang sedang dipertimbangkan.9
Koherensi. Koherensi topik adalah salah satu metode kuantitatif populer untuk mengevaluasi topik yang dihasilkan. Skor koherensi topik mengukur seberapa sering kata-kata yang paling mungkin dari suatu topik muncul bersama dalam dokumen yang sama di seluruh korpus. Lebih khusus lagi, fitur ini menghitung frekuensi kemunculan bersama dari setiap pasangan kata dari n kata teratas sebuah topik terhadap frekuensi kata masing-masing individu di seluruh korpus. Ini bertujuan untuk mengukur seberapa koheren topik yang diberikan. Skor koherensi keseluruhan model merupakan rata-rata dari skor koherensi yang dimiliki oleh masing-masing topik. Akibatnya, skor keseluruhan ini menandakan koherensi topik rata-rata dalam model tertentu. Sesuai dengan namanya, koherensi mengevaluasi model semata-mata berdasarkan pada seberapa kohesif topik-topiknya. Topik juga harus mempertahankan tingkat eksklusivitas, tetapi saat ini belum ada ukuran kuantitatifnya.10
Penelitian terbaru menunjukkan bahwa metrik kuantitatif, seperti skor koherensi, tidak dapat diandalkan untuk evaluasi model topik. Hal ini, sebagian disebabkan oleh ambiguitas dalam tujuan evaluatif yang diakui yaitu interpretabilitas—hal yang membuat model dan hasilnya dapat diinterpretasikan?11 Selain itu, metrik otomatis yang dirancang untuk sistem yang lebih lama mungkin tidak dapat diekstrapolasi dengan baik ke sistem yang lebih baru. Masalah ini diperumit dengan kurangnya transparansi dalam banyak eksperimen yang dipublikasikan yang mencegah generalisasi metode evaluasi ke kumpulan data atau domain lain.12 Penelitian baru-baru ini beralih ke aplikasi kecerdasan buatan, terutama model bahasa besar (LLM), sebagai sarana untuk merancang dan mengevaluasi model LDA untuk tujuan penelitian tertentu.13 Meskipun hal ini menunjukkan Hasil yang menjanjikan, penelitian lebih lanjut masih diperlukan.