Apa yang dimaksud alokasi Dirichlet Latent?

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Apa itu alokasi Dirichlet laten?

Alokasi Latent Dirichlet adalah teknik pemodelan topik untuk mengungkap topik-topik utama dan distribusinya di seluruh kumpulan dokumen.

Alokasi Dirichlet Latent (LDA)—jangan salah mengartikan dengan analisis diskriminan linier dalam machine learning—adalah pendekatan Bayesian untuk pemodelan topik. Sederhananya, LDA adalah bentuk pemodelan topik bersyarat dan probabilistik.

Pemodelan topik adalah teknik pemrosesan bahasa alami (NLP) yang menerapkan pembelajaran tanpa pengawasan pada kumpulan data teks besar untuk menghasilkan serangkaian ringkasan istilah yang berasal dari dokumen tersebut. Istilah-istilah ini dimaksudkan untuk mewakili keseluruhan kumpulan topik utama koleksi. Dengan cara ini, model topik bertujuan untuk mengungkap topik laten atau tema yang menjadi ciri kumpulan dokumen.1

Pengguna dapat dengan mudah membuat model topik LDA menggunakan Toolkit Bahasa Alami (NLTK) dari scikit-learn (atau sklearn) dan gensim di Python. Paket topicmodels  dan lda  di R juga berisi fungsi untuk menghasilkan model topik LDA.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Asumsi pembuatan teks

LDA adalah model probabilistik. Ini berarti algoritme LDA menghasilkan topik, mengklasifikasikan kata-kata dan dokumen di antara berbagai topik ini, sesuai dengan distribusi probabilitas. Namun, mengapa ini merupakan metode yang tepat untuk mengungkap struktur tematik tersembunyi dalam data teks? Pada dasarnya, LDA mengasumsikan dokumen telah dihasilkan melalui pengambilan sampel acak dari topik pra-dokumen, dan LDA mencoba merekayasa balik pengambilan sampel ini.

Proses teks generatif imajiner LDA dimulai dengan topik pra-dokumen. Setiap topik adalah kosakata kata yang telah ditetapkan, di mana setiap kata memiliki kemungkinan/probabilitas bahwa kata tersebut termasuk dalam topik. Perhatikan bahwa kata-kata diberi probabilitas, bukan kategori terpisah untuk memperhitungkan potensi keragaman makna dan penggunaan. Kemudian, untuk membuat dokumen teks, mesin secara acak menghasilkan distribusi topik—misalnya, delapan puluh lima persen politik, sepuluh persen keuangan, lima persen sejarah. Untuk setiap kata dalam dokumen ini, mesin secara acak menyeleksi salah satu topik yang dipilih dan secara acak mengeluarkan kata dari topik tersebut. Perhatikan bahwa LDA sendiri tidak menghasilkan dokumen dengan cara ini. Sebaliknya, ini adalah proses dimana LDA mengasumsikan dokumen telah dibuat. LDA sendiri mencoba membalikkan proses ini untuk mengungkap topik-topik yang menyeluruh dan tersembunyi yang ada di dalam sebuah korpus dokumen.

Gambar ini mengilustrasikan proses pembuatan teks yang diasumsikan mendasari LDA:

Ilustrasi yang menunjukkan asumsi proses pembuatan teks yang mendasari LDA

Di bagian bawah gambar ini adalah berbagai topik acak yang terdiri atas distribusi kata. Topik-topik ini ada untuk setiap dokumen dalam kumpulan. Untuk menghasilkan dokumen tertentu (dalam contoh ini, Othello karya Shakespeare), mesin menghasilkan distribusi topik, yang ditunjukkan oleh grafik di ujung kanan. Distribusi ini adalah topik (dan proporsi untuk masing-masing) yang akan membentuk dokumen. Untuk setiap kata dalam dokumen, mesin secara acak memilih salah satu topik yang dipilih (kolom titik-titik berwarna), dan kemudian secara acak memilih kata (istilah yang disorot).2 Perhatikan bahwa visualisasi ini hanyalah contoh ilustrasi, bukan hasil dari pemodelan topik atau pembuatan teks yang sebenarnya. Namun demikian, seperti yang telah disebutkan, LDA mengasumsikan bahwa setiap dokumen dihasilkan oleh proses generatif umum ini, yang mana LDA mencoba untuk melakukan rekayasa balik.

Cara kerja alokasi Dirichlet laten

Layaknya pendekatan pemodelan topik lainnya, seperti analisis semantik laten (LSA), LDA melakukan pendekatan dokumen lintas korpus sebagai bag of words. Ini artinya LDA mengabaikan urutan kata dan konteks. Sebaliknya, LDA berfokus pada seberapa sering kata-kata muncul dan muncul bersamaan dalam setiap dokumen individu.3 Frekuensi kata dan kejadian bersamaan dimodelkan dalam matriks istilah dokumen. Di sini, dokumen berbentuk baris dan setiap kata-kata adalah kolom, atau sebaliknya. Nilai setiap sel menunjukkan frekuensi kemunculan kata tertentu di setiap dokumen.4

Pembuatan topik

Dengan menggunakan matriks istilah dokumen, algoritme LDA menghasilkan distribusi topik (yaitu daftar kata kunci dengan probabilitasnya masing-masing) sesuai dengan frekuensi kata dan kemunculan bersama. Dengan melacak frekuensi kejadian bersama, LDA mengasumsikan kata-kata yang terjadi bersama kemungkinan merupakan bagian dari topik serupa. Algoritme ini selanjutnya menetapkan distribusi topik dokumen berdasarkan kelompok kata yang muncul dalam dokumen yang diberikan.5

Misalnya, katakanlah kita membuat model LDA untuk kumpulan artikel berita yang memiliki output parsial berikut

Ilustrasi yang mewakili model LDA

Di sini, kita memiliki dua topik yang mungkin digambarkan sebagai imigrasi (Topik 1) dan astronomi (Topik 2). Skor yang diberikan pada setiap kata adalah probabilitas munculnya kata kunci tersebut pada topik yang ditentukan. Probabilitas yang melekat pada setiap dokumen merupakan probabilitas masing-masing dokumen untuk termasuk dalam campuran topik yang diberikan distribusi dan kemunculan kata dari masing-masing topik dalam dokumen tersebut. Misalnya, baris pertama tabel mencantumkan batas di bawah Topik 1 dengan probabilitas 40% dan spasi di Topik 2 dengan probabilitas 60%. Persentase ini menunjukkan kemungkinan munculnya istilah masing-masing dalam topik tersebut di seluruh korpus. Baris dokumen pertama bertuliskan Dokumen 1: Topik 1: .95, Topik 2: .05. Artinya, berdasarkan kemunculan kata-kata dalam Dokumen 1, model memproyeksikan Dokumen 1 sebagai 95% berasal dari Topik 1 dan 5% berasal dari Topik 2. Dengan kata lain, model LDA hipotetis kami mengasumsikan bahwa ini adalah topik dan proporsi topik tersebut yang digunakan untuk menghasilkan model.

Tentu saja, kata-kata polisemi secara khusus menimbulkan masalah untuk kategorisasi yang terpisah—misalnya, alien dapat merujuk pada orang pendatang atau makhluk luar angkasa. Dalam kasus tersebut, bagaimana algoritma LDA menentukan pada topik mana kata (dan lebih jauh lagi, dokumen tersebut) berada?

Rumus Gibbs

Saat menetapkan topik ke kata-kata, algoritme LDA menggunakan hal yang dikenal sebagai pengambilan sampel Gibbs. Rumus pengambilan sampel Gibbs adalah:

Ilustrasi rumus Gibbs

Memahami operasi pasti dan hiperparameter persamaan ini memerlukan pengetahuan dasar dalam statistik dan teknik Markov Chain Monte Carlo (Monte Carlo sering digunakan dalam pembelajaran penguatan). Meskipun demikian, kita dapat meringkas komponen utama persamaan tersebut:

  • Rasio pertama menyatakan probabilitas topik t dalam dokumen d. Algoritme menghitung probabilitas ini berdasarkan jumlah kata dalam dokumen d yang termasuk dalam topik t. Pada dasarnya, hal ini menimbulkan pertanyaan: seberapa umum topik t dalam dokumen d?
  • Rasio kedua menyatakan probabilitas kata w yang termasuk dalam topik t. Algoritme menghitung probabilitas ini dengan menghitung kemunculan w dalam t atas semua token kata dalam t. Ini menimbulkan pertanyaan: dengan frekuensi berapa kata w muncul di topik t di seluruh korpus lainnya?

Perhatikan bahwa pengambilan sampel Gibbs adalah proses berulang. Artinya, sebuah kata tidak diambil sampelnya sekali, diberi topik, dan dibuang. Sebaliknya, pengambilan sampel Gibbs melewatkan setiap kata melalui beberapa iterasi, memperbarui probabilitas kata topik berdasarkan satu sama lain.6

Klasifikasi teks

Fitur pembeda LDA adalah distribusi probabilistik setiap dokumen atas serangkaian topik bersama. Seperti pendekatan pemodelan topik lainnya, topik ini dan distribusinya di setiap dokumen tidak diketahui. Pemodelan topik tidak diawasi; tidak ada data berlabel manual yang memandu analisis. Dengan mengungkap struktur topik tersembunyi, LDA akhirnya membuat anotasi dokumen di seluruh koleksi. Anotasi ini (yaitu topik yang tidak terungkap) dapat digunakan untuk mengklasifikasikan teks. Dengan cara ini, LDA membantu sistem pencarian informasi dengan mengotomatiskan anotasi dan pengaturan koleksi dokumen yang besar.7

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Optimisasi

Seperti halnya berbagai teknik penggalian teks dalam ilmu data, prapemrosesan teks sangat meningkatkan hasil model LDA. Penghapusan stopword menghilangkan kata-kata umum yang tidak relevan secara semantik. Stemming atau lematisasi membantu mereduksi varian morfologi menjadi bentuk dasar, sehingga menggabungkan variasi kata yang mungkin dipisahkan oleh mesin, misalnya, dance, dancing, dancer, dan seterusnya.

Karena model LDA bersifat probabilistik dan bukan deterministik, optimasi model bisa menjadi proses yang sulit. Tidak ada jumlah topik tertentu yang memberikan hasil terbaik, dan tampaknya tidak ada prinsip panduan, seperti serangkaian topik yang cocok untuk sejumlah dokumen tertentu. Memang, menyempurnakan parameter model untuk menghasilkan topik yang dapat ditafsirkan dan koheren melibatkan banyak uji coba dan kesalahan.

Metrik evaluasi

Alat atau metrik apa yang tersedia untuk membantu pengguna menyempurnakan model LDA? Mereka yang baru mengenal pemodelan topik mungkin akan merasa frustrasi ketika mengetahui bahwa tidak ada satu pun, atau bahkan kumpulan, metrik kinerja yang diadopsi dalam literatur.

Kualitatif. Percaya atau tidak, evaluasi kualitatif tidak jarang terjadi, terutama dalam aplikasi dunia nyata. Ini mungkin sering melibatkan pemeriksaan lima atau sepuluh kata kunci teratas untuk setiap topik. Ini selanjutnya digunakan untuk mengevaluasi topik sesuai dengan seberapa mudah topik ditafsirkan oleh pengguna manusia.8 "Pengamatan" seperti ini, dapat dikatakan, membutuhkan sejumlah besar pengetahuan domain pakar dan keakraban dengan dokumen yang sedang dipertimbangkan.9

Koherensi. Koherensi topik adalah salah satu metode kuantitatif populer untuk mengevaluasi topik yang dihasilkan. Skor koherensi topik mengukur seberapa sering kata-kata yang paling mungkin dari suatu topik muncul bersama dalam dokumen yang sama di seluruh korpus. Lebih khusus lagi, fitur ini menghitung frekuensi kemunculan bersama dari setiap pasangan kata dari n kata teratas sebuah topik terhadap frekuensi kata masing-masing individu di seluruh korpus. Ini bertujuan untuk mengukur seberapa koheren topik yang diberikan. Skor koherensi keseluruhan model merupakan rata-rata dari skor koherensi yang dimiliki oleh masing-masing topik. Akibatnya, skor keseluruhan ini menandakan koherensi topik rata-rata dalam model tertentu. Sesuai dengan namanya, koherensi mengevaluasi model semata-mata berdasarkan pada seberapa kohesif topik-topiknya. Topik juga harus mempertahankan tingkat eksklusivitas, tetapi saat ini belum ada ukuran kuantitatifnya.10

Penelitian terbaru menunjukkan bahwa metrik kuantitatif, seperti skor koherensi, tidak dapat diandalkan untuk evaluasi model topik. Hal ini, sebagian disebabkan oleh ambiguitas dalam tujuan evaluatif yang diakui yaitu interpretabilitas—hal yang membuat model dan hasilnya dapat diinterpretasikan?11 Selain itu, metrik otomatis yang dirancang untuk sistem yang lebih lama mungkin tidak dapat diekstrapolasi dengan baik ke sistem yang lebih baru. Masalah ini diperumit dengan kurangnya transparansi dalam banyak eksperimen yang dipublikasikan yang mencegah generalisasi metode evaluasi ke kumpulan data atau domain lain.12 Penelitian baru-baru ini beralih ke aplikasi kecerdasan buatan, terutama model bahasa besar (LLM), sebagai sarana untuk merancang dan mengevaluasi model LDA untuk tujuan penelitian tertentu.13 Meskipun hal ini menunjukkan Hasil yang menjanjikan, penelitian lebih lanjut masih diperlukan.

Solusi terkait
IBM watsonx Orchestrate

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate
Alat dan API pemrosesan bahasa alami

Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.

Jelajahi solusi NLP
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate Jelajahi solusi NLP
Catatan kaki

1 Daniel Jurafsky dan James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/. Jay Alammar dan Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

2 David Blei, “Model Topik Probabilistik,” Komunikasi ACM, Vol. 55, No. 4, 2012, hlm. 77-84. Zhiyuan Chen dan Bing Liu, “Model Topik untuk Aplikasi NLP,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017.

3 Matthew Jockers, Analisis Teks dengan R untuk Mahasiswa Sastra, Springer, 2014.

4 Cole Howard, Hobson Lane, dan Hannes Hapke, Pemrosesan Bahasa Alami dalam Tindakan, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Pemrosesan Bahasa Alami Praktis, O'Reilly, 2020.

5 Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana, Practical Natural Language Processing, O'Reilly, 2020 .David Blei, Andrew Ng, dan Michael Jordan, “Alokasi Dirichlet Laten,” Jurnal Penelitian Machine Learning , Vol. 3, 2003, hlm. 993-1022.

6 Zhiyuan Chen dan Bing Liu, “Topic Models for NLP Applications,” Encyclopedia of Machine Learning dan Data Mining, Springer, 2017.

7 David Blei, “Probabilistic Topic Models,” Komunikasi ACM, Vol. 55, No. 4, 2012, hlm. 77-84.

8 Chandler Camille May, "Pemodelan Topik dalam Teori dan Praktik," Disertasi, Universitas John Hopkins, 2022.

9 Matthew Gillings dan Andrew Hardie, “The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice,” Digital Scholarship in the Humanities, Vol. 38, No. 2, 2023, hal. 530-543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052

10 Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022. https://aclanthology.org/D11-1024/

11 Zachary Lipton, “The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery,” Queue, Vol. 16, No. 3, hal. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 . Caitlin Doogan dan Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Prosiding Konferensi Asosiasi Linguistik Komputasi Cabang Amerika Utara 2021: Human Language Technologies, 2021, hal. 3824-3848, https://aclanthology.org/2021.naacl-main.300 .

12 Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, Philip Resnik, “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence,” Advances in Neural Information Processing Systems, 2021, hal. 2018-2033, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html . Caitlin Doogan dan Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Prosiding Konferensi Asosiasi Linguistik Komputasi Cabang Amerika Utara 2021: Human Language Technologies, 2021, hal. 3824-3848, https://aclanthology.org/2021.naacl-main.300 .

13 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, dan Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Prosiding Konferensi tentang Metode Empiris dalam Pemrosesan Bahasa Alami 2023, 2023, hal. 9348-9357, https://aclanthology.org/2023.emnlp-main.581/ .