Diterbitkan: 22 April 2024
Kontributor: Jacob Murel Ph.D., Eda Kavlakoglu
Alokasi Latent Dirichlet adalah teknik pemodelan topik untuk mengungkap topik-topik utama dan distribusinya di seluruh kumpulan dokumen.
Alokasi Dirichlet Latent (LDA)—jangan salah mengartikan dengan analisis diskriminan linier dalam machine learning—adalah pendekatan Bayesian untuk pemodelan topik. Sederhananya, LDA adalah bentuk pemodelan topik bersyarat dan probabilistik.
Pemodelan topik adalah teknik pemrosesan bahasa alami (NLP) yang menerapkan pembelajaran tanpa pengawasan pada kumpulan data teks besar untuk menghasilkan serangkaian ringkasan istilah yang berasal dari dokumen tersebut. Istilah-istilah ini dimaksudkan untuk mewakili keseluruhan kumpulan topik utama koleksi. Dengan cara ini, model topik bertujuan untuk mengungkap topik laten atau tema yang menjadi ciri kumpulan dokumen.1
Pengguna dapat dengan mudah membuat model topik LDA menggunakan toolkit bahasa alami scikit-learn (atau sklearn) (tautan berada di luar ibm.com)(NLTK) dan gensim (tautan berada di luar ibm.com) dalam Python. Paket topicmodels (tautan berada di luar ibm.com) dan lda (tautan berada di luar ibm.com) di R juga berisi fungsi untuk menghasilkan model topik LDA.
Pelajari tentang hambatan adopsi AI, terutama kurangnya tata kelola AI dan solusi manajemen risiko.
Daftar untuk mendapatkan panduan tentang model dasar
LDA adalah model probabilistik. Ini berarti algoritme LDA menghasilkan topik, mengklasifikasikan kata-kata dan dokumen di antara berbagai topik ini, sesuai dengan distribusi probabilitas. Namun, mengapa ini merupakan metode yang tepat untuk mengungkap struktur tematik tersembunyi dalam data teks? Pada dasarnya, LDA mengasumsikan dokumen telah dihasilkan melalui pengambilan sampel acak dari topik pra-dokumen, dan LDA mencoba merekayasa balik pengambilan sampel ini.
Proses teks generatif imajiner LDA dimulai dengan topik pra-dokumen. Setiap topik adalah kosakata kata yang telah ditetapkan, di mana setiap kata memiliki kemungkinan/probabilitas bahwa kata tersebut termasuk dalam topik. Perhatikan bahwa kata-kata diberi probabilitas, bukan kategori terpisah untuk memperhitungkan potensi keragaman makna dan penggunaan. Kemudian, untuk membuat dokumen teks, mesin secara acak menghasilkan distribusi topik—misalnya, delapan puluh lima persen politik, sepuluh persen keuangan, lima persen sejarah. Untuk setiap kata dalam dokumen ini, mesin secara acak menyeleksi salah satu topik yang dipilih dan secara acak mengeluarkan kata dari topik tersebut. Perhatikan bahwa LDA sendiri tidak menghasilkan dokumen dengan cara ini. Sebaliknya, ini adalah proses dimana LDA mengasumsikan dokumen telah dibuat. LDA sendiri mencoba membalikkan proses ini untuk mengungkap topik-topik yang menyeluruh dan tersembunyi yang ada di dalam sebuah korpus dokumen.
Gambar ini mengilustrasikan proses pembuatan teks yang diasumsikan mendasari LDA:
Di bagian bawah gambar ini adalah berbagai topik acak yang terdiri dari distribusi kata. Topik-topik ini ada untuk setiap dokumen dalam kumpulan. Untuk menghasilkan dokumen tertentu (dalam contoh ini, Othello karya Shakespeare), mesin menghasilkan distribusi topik, yang ditunjukkan oleh grafik di ujung kanan. Distribusi ini adalah topik (dan proporsi untuk masing-masing) yang akan membentuk dokumen. Untuk setiap kata dalam dokumen, mesin secara acak memilih salah satu topik yang dipilih (kolom titik-titik berwarna), dan kemudian secara acak memilih kata (istilah yang disorot).2 Perhatikan bahwa visualisasi ini hanyalah contoh ilustrasi, bukan hasil dari pemodelan topik atau pembuatan teks yang sebenarnya. Namun demikian, seperti yang telah disebutkan, LDA mengasumsikan bahwa setiap dokumen dihasilkan oleh proses generatif umum ini, yang mana LDA mencoba untuk melakukan rekayasa balik.
Layaknya pendekatan pemodelan topik lainnya, seperti analisis semantik laten (LSA), LDA melakukan pendekatan dokumen lintas korpus sebagai kumpulan kata. Ini artinya LDA mengabaikan urutan kata dan konteks. Sebaliknya, LDA berfokus pada seberapa sering kata-kata muncul dan muncul bersamaan dalam setiap dokumen individu.3 Frekuensi kata dan kejadian bersamaan dimodelkan dalam matriks istilah dokumen. Di sini, dokumen berbentuk baris dan setiap kata-kata adalah kolom, atau sebaliknya. Nilai setiap sel menunjukkan frekuensi kemunculan kata tertentu di setiap dokumen.4
Dengan menggunakan matriks istilah dokumen, algoritme LDA menghasilkan distribusi topik (yaitu daftar kata kunci dengan probabilitasnya masing-masing) sesuai dengan frekuensi kata dan kemunculan bersama. Dengan melacak frekuensi kejadian bersama, LDA mengasumsikan kata-kata yang terjadi bersama kemungkinan merupakan bagian dari topik serupa. Algoritme ini selanjutnya menetapkan distribusi topik dokumen berdasarkan kelompok kata yang muncul dalam dokumen yang diberikan.5
Misalnya, katakanlah kita membuat model LDA untuk kumpulan artikel berita yang memiliki output parsial berikut
Di sini, kita memiliki dua topik yang mungkin digambarkan sebagai imigrasi (Topik 1) dan astronomi (Topik 2). Skor yang diberikan pada setiap kata adalah probabilitas munculnya kata kunci tersebut pada topik yang ditentukan. Probabilitas yang melekat pada setiap dokumen merupakan probabilitas masing-masing dokumen untuk termasuk dalam campuran topik yang diberikan distribusi dan kemunculan kata dari masing-masing topik dalam dokumen tersebut. Misalnya, baris pertama tabel mencantumkan batas di bawah Topik 1 dengan probabilitas 40% dan spasi di Topik 2 dengan probabilitas 60%. Persentase ini menunjukkan kemungkinan munculnya istilah masing-masing dalam topik tersebut di seluruh korpus. Baris dokumen pertama bertuliskan Dokumen 1: Topik 1: .95, Topik 2: .05. Artinya, berdasarkan kemunculan kata-kata dalam Dokumen 1, model memproyeksikan Dokumen 1 sebagai 95% berasal dari Topik 1 dan 5% berasal dari Topik 2. Dengan kata lain, model LDA hipotetis kami mengasumsikan bahwa ini adalah topik dan proporsi topik tersebut yang digunakan untuk menghasilkan model.
Tentu saja, kata-kata polisemi secara khusus menimbulkan masalah untuk kategorisasi yang terpisah—misalnya, alien dapat merujuk pada orang pendatang atau makhluk luar angkasa. Dalam kasus tersebut, bagaimana algoritma LDA menentukan pada topik mana kata (dan lebih jauh lagi, dokumen tersebut) berada?
Saat menetapkan topik ke kata-kata, algoritme LDA menggunakan hal yang dikenal sebagai pengambilan sampel Gibbs. Rumus pengambilan sampel Gibbs adalah:
Memahami operasi pasti dan hiperparameter persamaan ini memerlukan pengetahuan dasar dalam statistik dan teknik Markov Chain Monte Carlo (Monte Carlo sering digunakan dalam pembelajaran penguatan). Meskipun demikian, kita dapat meringkas komponen utama persamaan tersebut:
Perhatikan bahwa pengambilan sampel Gibbs adalah proses berulang. Artinya, sebuah kata tidak diambil sampelnya sekali, diberi topik, dan dibuang. Sebaliknya, pengambilan sampel Gibbs melewatkan setiap kata melalui beberapa iterasi, memperbarui probabilitas kata topik berdasarkan satu sama lain.6
Fitur pembeda LDA adalah distribusi probabilistik setiap dokumen atas serangkaian topik bersama. Seperti pendekatan pemodelan topik lainnya, topik ini dan distribusinya di setiap dokumen tidak diketahui. Pemodelan topik tidak diawasi; tidak ada data berlabel manual yang memandu analisis. Dengan mengungkap struktur topik tersembunyi, LDA akhirnya membuat anotasi dokumen di seluruh koleksi. Anotasi ini (yaitu topik yang tidak terungkap) dapat digunakan untuk mengklasifikasikan teks. Dengan cara ini, LDA membantu sistem pencarian informasi dengan mengotomatiskan anotasi dan pengaturan koleksi dokumen yang besar.7
Seperti halnya berbagai teknik penggalian teks dalam ilmu data, prapemrosesan teks sangat meningkatkan hasil model LDA. Penghapusan stopword menghilangkan kata-kata umum yang tidak relevan secara semantik. Stemming atau lematisasi membantu mereduksi varian morfologi menjadi bentuk dasar, sehingga menggabungkan variasi kata yang mungkin dipisahkan oleh mesin, misalnya, dance, dancing, dancer, dan seterusnya.
Karena model LDA bersifat probabilistik dan bukan deterministik, optimasi model bisa menjadi proses yang sulit. Tidak ada jumlah topik tertentu yang memberikan hasil terbaik, dan tampaknya tidak ada prinsip panduan, seperti serangkaian topik yang cocok untuk sejumlah dokumen tertentu. Memang, menyempurnakan parameter model untuk menghasilkan topik yang dapat ditafsirkan dan koheren melibatkan banyak uji coba dan kesalahan.
Alat atau metrik apa yang tersedia untuk membantu pengguna menyempurnakan model LDA? Mereka yang baru mengenal pemodelan topik mungkin akan merasa frustrasi ketika mengetahui bahwa tidak ada satu pun, atau bahkan kumpulan, metrik kinerja yang diadopsi dalam literatur.
Kualitatif. Percaya atau tidak, evaluasi kualitatif tidak jarang terjadi, terutama dalam aplikasi dunia nyata. Ini mungkin sering melibatkan pemeriksaan lima atau sepuluh kata kunci teratas untuk setiap topik. Ini selanjutnya digunakan untuk mengevaluasi topik sesuai dengan seberapa mudah topik ditafsirkan oleh pengguna manusia.8 "Pengamatan" semacam ini, dapat dikatakan, membutuhkan sejumlah besar pengetahuan domain pakar dan keakraban dengan dokumen yang sedang dipertimbangkan.9
Koherensi. Koherensi topik adalah salah satu metode kuantitatif populer untuk mengevaluasi topik yang dihasilkan. Skor koherensi topik mengukur seberapa sering kata-kata yang paling mungkin dari suatu topik muncul bersama dalam dokumen yang sama di seluruh korpus. Lebih khusus lagi, fitur ini menghitung frekuensi kemunculan bersama dari setiap pasangan kata dari n kata teratas sebuah topik terhadap frekuensi kata masing-masing individu di seluruh korpus. Ini bertujuan untuk mengukur seberapa koheren topik yang diberikan. Skor koherensi keseluruhan model merupakan rata-rata dari skor koherensi yang dimiliki oleh masing-masing topik. Akibatnya, skor keseluruhan ini menandakan koherensi topik rata-rata dalam model tertentu. Sesuai dengan namanya, koherensi mengevaluasi model semata-mata berdasarkan pada seberapa kohesif topik-topiknya. Topik juga harus mempertahankan tingkat eksklusivitas, tetapi saat ini belum ada ukuran kuantitatifnya.10
Penelitian terbaru menunjukkan bahwa metrik kuantitatif, seperti skor koherensi, tidak dapat diandalkan untuk evaluasi model topik. Hal ini, sebagian disebabkan oleh ambiguitas dalam tujuan evaluatif yang diakui yaitu interpretabilitas—hal yang membuat model dan hasilnya dapat diinterpretasikan?11 Selain itu, metrik otomatis yang dirancang untuk sistem yang lebih lama mungkin tidak dapat diekstrapolasi dengan baik ke sistem yang lebih baru. Masalah ini kian rumit dengan kurangnya transparansi dalam banyak eksperimen yang dipublikasikan yang mencegah generalisasi metode evaluasi ke kumpulan data atau domain lain.12 Penelitian baru-baru ini beralih ke aplikasi kecerdasan buatan, terutama model bahasa besar (LLM), sebagai sarana untuk merancang dan mengevaluasi model LDA untuk tujuan penelitian tertentu.13 Meskipun hal ini menunjukkan hasil yang menjanjikan, penelitian lebih lanjut masih diperlukan.
Model topik adalah metode NLP tanpa pengawasan untuk meringkas data teks melalui kelompok kata. Model ini membantu dalam klasifikasi teks dan tugas pencarian informasi.
Latih dan sempurnakan model topik LDA dengan NLTK dan Gensim Python.
Jelajahi pemodelan topik dan cara kerjanya di artikel Komunitas IBM ini.
1 Daniel Jurafsky dan James Martin, Pemrosesan Ucapan dan Bahasa: Pengantar Pemrosesan Bahasa Alami, Linguistik Komputasi, dan Pengenalan Ucapan, edisi ke-3, 2023,https://web.stanford.edu/~jurafsky/slp3/(tautan berada di luar ibm.com). Jay Alammar dan Maarten Grootendorst, Model Bahasa Besar yang Dapat Dipraktikkan Langsung, O'Reilly, 2024.
2 David Blei, “Model Topik Probabilistik,” Komunikasi ACM, Vol. 55, No. 4, 2012, hlm. 77-84. Zhiyuan Chen dan Bing Liu, "Model Topik untuk Aplikasi NLP," Ensiklopedia Machine Learning dan Penambangan Data, Springer, 2017.
3 Matthew Jockers, Analisis Teks dengan R untuk Mahasiswa Sastra, Springer, 2014.
4 Cole Howard, Hobson Lane, dan Hannes Hapke, Pemrosesan Bahasa Alami dalam Tindakan, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Pemrosesan Bahasa Alami Praktis, O'Reilly, 2020.
5 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Pemrosesan Bahasa Alami Praktis, O'Reilly, 2020. David Blei, Andrew Ng, dan Michael Jordan, "Alokasi Dirichlet Laten," Jurnal Penelitian Machine Learning, Vol. 3, 2003, hlm. 993-1022.
6 Zhiyuan Chen dan Bing Liu, "Model Topik untuk Aplikasi NLP," Ensiklopedia Machine Learning dan Penambangan Data, Springer, 2017.
7 David Blei, “Model Topik Probabilistik,” Komunikasi ACM, Vol. 55, No. 4, 2012, hlm. 77-84.
8 Chandler Camille May, "Pemodelan Topik dalam Teori dan Praktik," Disertasi, Universitas John Hopkins, 2022.
9 Matthew Gillings dan Andrew Hardie, “Interpretasi model topik untuk analisis ilmiah: Evaluasi dan kritik praktik saat ini,” Beasiswa Digital dalam Humaniora, Vol. 38, No. 2, 2023, hlm. 530-543,https://academic.oup.com/dsh/article-abstract/38/2/530/6957052(tautan berada di luar ibm.com).
10 Chandler Camille May, "Pemodelan Topik dalam Teori dan Praktik," Disertasi, Universitas John Hopkins, 2022.https://aclanthology.org/D11-1024/ (tautan berada di luar ibm.com).
11 Zachary Lipton, "Mitos Interpretabilitas Model: Dalam machine learning, konsep interpretabilitas merupakan hal yang penting sekaligus rawan," Queue, Vol. 16, No. 3, hal. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 (tautan berada di luar ibm.com). Caitlin Doogan dan Wray Buntine, “Model Topik atau Topik Twaddle? Mengevaluasi Kembali Langkah Interpretabilitas Semantik," Prosiding Konferensi 2021 dari Asosiasi Linguistik Komputasi Bab Amerika Utara: Teknologi Bahasa Manusia, 2021, hlm. 3824-3848, https://aclanthology.org/2021.naacl-main.300 (tautan berada di luar ibm.com).
12 Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, Philip Resnik, "Apakah Evaluasi Model Topik Otomatis Rusak? Ketidakkonsistenan Koherensi," Kemajuan dalam Sistem Pemrosesan Informasi Saraf, 2021, hlm. 2018-2033, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html (tautan berada di luar ibm.com). Caitlin Doogan dan Wray Buntine, “Model Topik atau Topik Twaddle? Mengevaluasi Kembali Ukuran Interpretabilitas Semantik," Prosiding Konferensi 2021 dari Asosiasi Linguistik Komputasi Bab Amerika Utara: Teknologi Bahasa Manusia, 2021, hlm. 3824-3848, https://aclanthology.org/2021.naacl-main.300 (tautan berada di luar ibm.com).
Bahasa Indonesia: 13 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, dan Elliott Ash, “Meninjau Kembali Evaluasi Model Topik Otomatis dengan Model Bahasa Besar,” Prosiding Konferensi 2023 tentang Metode Empiris dalam Pemrosesan Bahasa Alami, 2023, hlm. 9348-9357, https://aclanthology.org/2023.emnlp-main.581/ (tautan berada di luar ibm.com).