Apa itu pemodelan topik?

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

Apa itu pemodelan topik?

Dalam pemrosesan bahasa alami (NLP), pemodelan topik adalah teknik penambangan teks yang menerapkan pembelajaran tanpa pengawasan pada kumpulan besar teks untuk menghasilkan kumpulan ringkasan istilah yang menunjukkan kumpulan topik utama secara keseluruhan dari kumpulan teks tersebut.¹Model topik membantu dalam tugas klasifikasi teks dan pengambilan informasi.

Model topik secara khusus mengidentifikasi kata kunci atau frasa yang umum dalam kumpulan data teks dan mengelompokkan kata-kata tersebut ke dalam berbagai topik. Mereka bertujuan untuk mengungkap topik atau tema laten yang mencirikan satu kumpulan dokumen. Dengan cara ini, model topik merupakan bentuk analisis teks berbasis machine learning yang digunakan untuk membuat anotasi tematik pada korpus teks yang besar.²

Pengguna dapat dengan mudah membuat model topik menggunakan Toolkit Bahasa Alami (NLTK) dari scikit-learn dan gensim di Python.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Cara kerja pemodelan topik

Sebagai metode pembelajaran tanpa pengawasan, model topik tidak memerlukan label data pelatihan yang dibuat pengguna, seperti pada tugas klasifikasi teks yang diawasi. Sebaliknya, model topik menghasilkan, dan dengan demikian memberi anotasi, koleksi besar dokumen dengan informasi tematik dalam bentuk kelompok kata yang dikenal sebagai topik.³ Namun, bagaimana model topik menghasilkan kelompok kata-kata ini?

Pemodelan topik pada dasarnya memperlakukan setiap dokumen individu dalam kumpulan teks sebagai model bag of words. Ini berarti bahwa algoritma pemodelan topik mengabaikan urutan kata dan konteks, dan hanya berfokus pada seberapa sering kata-kata muncul, dan seberapa sering kata-kata tersebut muncul bersama, dalam setiap dokumen.⁴

Sebagian besar pendekatan pemodelan topik dimulai dengan membuat matriks istilah dokumen. Matriks ini memodelkan kumpulan data teks dengan dokumen sebagai baris dan kata per kata sebagai kolom, atau sebaliknya. Nilai dalam matriks menunjukkan frekuensi kemunculan kata tertentu dalam setiap dokumen. Matriks ini kemudian dapat digunakan untuk menghasilkan ruang vektor, di mana n kata sama dengan n dimensi. Nilai baris yang diberikan menunjukkan posisi dokumen tersebut dalam ruang vektor. Dokumen yang menggunakan kata-kata dalam kelompok yang sama dan dengan frekuensi yang sebanding akan berada lebih dekat satu sama lain dalam ruang vektor. Dari sini, model topik memperlakukan kedekatan dalam ruang vektor sebagai dokumen yang memiliki konten konseptual atau topik yang sama.⁵

Namun, model topik tidak identik dengan bag of words. Sementara yang terakhir hanya menghitung keberadaan kata dalam kumpulan dokumen, model topik mengelompokkan kata-kata yang sering muncul bersama ke dalam kumpulan topik. Setiap topik dimodelkan sebagai distribusi probabilitas di seluruh kosakata. Setiap dokumen dalam koleksi kemudian direpresentasikan berdasarkan topik-topik tersebut.⁶ Dengan cara ini, model topik pada dasarnya mencoba untuk merekayasa balik wacana (yaitu, topik) yang menghasilkan dokumen yang dimaksud.⁷

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Jenis algoritma pemodelan topik

Algoritma pemodelan topik bukanlah metode alternatif untuk satu tugas, melainkan pengembangan berurutan yang dimaksudkan untuk menyelesaikan masalah yang awalnya ditemukan pada model bag of words. Term frequency-inverse document frequency (TF-IDF) adalah modifikasi dari bag of words yang dimaksudkan untuk mengatasi masalah yang dihasilkan dari kata-kata yang umum namun secara semantik tidak relevan dengan memperhitungkan prevalensi setiap kata di setiap dokumen dalam kumpulan teks. Analisis semantik laten dibangun di atas TF-IDF dengan tujuan utama untuk mengatasi polisemi dan sinonimi. Hal ini melahirkan analisis semantik laten probabilistik, yang kemudian berkembang menjadi alokasi laten Dirichlet. Karakteristik yang membedakan yang terakhir adalah bahwa semua dokumen dalam koleksi memiliki topik yang sama, meskipun dalam proporsi yang berbeda.⁸

Analisis semantik laten

Analisis semantik laten (LSA) (juga disebut pengindeksan semantik laten) menerapkan teknik yang dikenal sebagai dekomposisi nilai tunggal untuk mengurangi sparsitas dalam matriks istilah dokumen. Hal ini mengurangi masalah yang diakibatkan oleh polisemi dan sinonimi—yaitu, satu kata dengan banyak arti atau beberapa kata dengan satu arti yang sama.

Pada dasarnya, sparsitas data menunjukkan ketika sebagian besar nilai data dalam kumpulan data tertentu adalah nol (dengan kata lain, kosong). Hal ini sering terjadi ketika membuat matriks istilah dokumen, di mana setiap kata merupakan baris dan dimensi ruang vektor yang terpisah, karena dokumen sering kali tidak memiliki sebagian besar kata yang mungkin lebih sering muncul di dokumen lain. Tentu saja, teknik prapemrosesan data teks, seperti penghapusan stopword atau stemming dan lematisasi, dapat membantu mengurangi ukuran matriks. LSA menawarkan pendekatan yang lebih bertarget untuk mengurangi sparsitas dan dimensi.

LSA dimulai dengan matriks istilah dokumen, yang menampilkan berapa kali setiap kata muncul di setiap dokumen. Dari sini, LSA menghasilkan matriks dokumen-dokumen dan matriks istilah-istilah. Jika dimensi matriks dokumen-istilah didefinisikan sebagai d dokumen dikali w kata, maka matriks dokumen-dokumen adalah d dikali d dan matriks istilah-istilah w dikali w. Setiap nilai dalam matriks dokumen-dokumen menunjukkan jumlah kata yang dimiliki oleh setiap dokumen. Setiap nilai dalam matriks istilah-istilah menunjukkan jumlah dokumen yang memiliki dua istilah yang sama.⁹

Dengan menggunakan dua matriks tambahan ini, algoritme LSA melakukan dekomposisi nilai singular pada matriks istilah dokumen awal, menghasilkan matriks khusus vektor eigen yang baru. Matriks khusus ini memecah hubungan dokumen-istilah asli menjadi faktor-faktor independen secara linier. Karena banyak dari faktor-faktor ini mendekati nol, nilai ini diperlakukan sebagai nol dan dikeluarkan dari matriks. Hal ini mengurangi dimensi model.¹⁰

Setelah dimensi model dikurangi melalui dekomposisi nilai tunggal, algoritme LSA membandingkan dokumen dalam ruang dimensi yang lebih rendah menggunakan kesamaan kosinus. Kesamaan kosinus menandakan pengukuran sudut antara dua vektor dalam ruang vektor. Ini mungkin nilai antara -1 dan 1. Semakin tinggi skor kosinus, semakin mirip dua item yang dipertimbangkan. Kesamaan cosinus diwakili oleh rumus ini, di mana x dan y menunjukkan dua vektor item dalam ruang vektor:¹¹

Alokasi Dirichlet Laten

Alokasi Dirichlet laten (LDA) — jangan disamakan dengan analisis diskriminan linier — adalah algoritme pemodelan topik probabilistik. Ini berarti algoritme ini menghasilkan topik, mengklasifikasikan kata-kata dan dokumen di antara topik-topik tersebut, sesuai dengan distribusi probabilitas. Dengan menggunakan matriks istilah dokumen, algoritme LDA menghasilkan distribusi topik (yaitu daftar kata kunci dengan probabilitasnya masing-masing) sesuai dengan frekuensi kata dan kemunculan bersamaan. Asumsi ini adalah bahwa kata-kata yang muncul bersama kemungkinan merupakan bagian dari topik yang sama. Algoritme menetapkan distribusi topik dokumen berdasarkan kelompok kata yang muncul dalam dokumen yang diberikan.¹²

Misalnya, katakanlah kita membuat model LDA untuk kumpulan artikel berita yang memiliki output parsial berikut:

Di sini, kita memiliki dua topik yang mungkin digambarkan sebagai imigrasi (Topik 1) dan astronomi (Topik 2). Skor yang diberikan pada setiap kata adalah probabilitas munculnya kata kunci tersebut pada topik yang ditentukan. Probabilitas yang melekat pada setiap dokumen merupakan probabilitas masing-masing dokumen untuk termasuk dalam campuran topik yang diberikan distribusi dan kemunculan kata dari masing-masing topik dalam dokumen tersebut. Misalnya, baris pertama tabel mencantumkan batas di bawah Topik 1 dengan probabilitas 40% dan spasi di Topik 2 dengan probabilitas 60%. Persentase ini menunjukkan kemungkinan munculnya istilah masing-masing dalam topik tersebut di seluruh korpus. Baris dokumen pertama bertuliskan Dokumen 1: Topik 1: .95, Topik 2: .05. Artinya, berdasarkan kemunculan kata-kata dalam Dokumen 1, model memproyeksikan Dokumen 1 sebagai 95% berasal dari Topik 1 dan 5% berasal dari Topik 2. Dengan kata lain, model LDA hipotetis kami mengasumsikan bahwa ini adalah topik dan proporsi topik tersebut yang digunakan untuk menghasilkan model.

Tentu saja, kata-kata polisemi secara khusus menimbulkan masalah untuk kategorisasi yang terpisah—misalnya, alien dapat merujuk pada orang pendatang atau makhluk luar angkasa. Jika algoritme kami menemukan kata asing dalam sebuah dokumen, bagaimana algoritme tersebut menentukan ke dalam topik mana kata tersebut (dan dengan demikian, dokumen tersebut) berada?

Saat menetapkan topik ke kata-kata, algoritme LDA menggunakan hal yang dikenal sebagai pengambilan sampel Gibbs. Rumus pengambilan sampel Gibbs adalah:

Memahami operasi pasti dan hiperparameter persamaan ini memerlukan pengetahuan dasar dalam statistik dan teknik Markov Chain Monte Carlo (Monte Carlo sering digunakan dalam pembelajaran penguatan). Meskipun demikian, kita dapat meringkas komponen utama persamaan tersebut:

Rasio pertama menyatakan probabilitas topik t dalam dokumen d. Algoritme menghitung probabilitas ini berdasarkan jumlah kata dalam dokumen d yang termasuk dalam topik t. Pada dasarnya, hal ini menimbulkan pertanyaan: seberapa umum topik t dalam dokumen d?
Rasio kedua menyatakan probabilitas kata w yang termasuk dalam topik t. Algoritme menghitung probabilitas ini dengan menghitung kemunculan w dalam t atas semua token kata dalam t. Ini menimbulkan pertanyaan: dengan frekuensi berapa kata w muncul di topik t di seluruh korpus lainnya?

Perhatikan bahwa pengambilan sampel Gibbs adalah proses berulang. Artinya, sebuah kata tidak diambil sampelnya sekali, diberi topik, dan dibuang. Sebaliknya, pengambilan sampel Gibbs melewatkan setiap kata melalui beberapa iterasi, memperbarui probabilitas kata topik berdasarkan satu sama lain.¹³

Penelitian terbaru

Ada banyak contoh penggunaan untuk model topik, mulai dari kritik sastra¹⁴ hingga bioinformatika¹⁵ hingga deteksi ujaran kebencian di media sosial.¹⁶ Seperti banyak tugas NLP, proporsi yang signifikan dari penelitian pemodelan topik selama bertahun-tahun menyangkut bahasa Inggris dan bahasa aksara Latin lainnya. Namun, baru-baru ini, penelitian telah mengeksplorasi pendekatan pemodelan topik untuk bahasa Arab dan bahasa non-Latin lainnya.¹⁷

Penelitian yang sedang berlangsung juga membahas metrik evaluasi untuk model topik. Memang, tidak ada satu metrik yang digunakan untuk mengevaluasi model topik. Metrik evaluasi masa lalu telah mengadopsi pendekatan kualitatif dan kuantitatif. Yang pertama memerlukan pengetahuan spesifik domain yang signifikan untuk mengevaluasi istilah kunci mode topik untuk interpretabilitas.¹⁸ Pengukuran kuantitatif terdiri atas skor log-likelihood dan coherence, yang bertujuan untuk mengukur kemungkinan dan kohesi topik dalam suatu model.¹⁹ Namun, banyak penelitian berpendapat bahwa metrik kuantitatif tersebut mungkin tidak dapat diandalkan.²⁰

Dalam upaya untuk menyelesaikan masalah yang berkaitan dengan evaluasi model topik, satu studi menyelidiki aplikasi kecerdasan buatan, terutama model bahasa besar (LLM), sebagai sarana merancang dan mengevaluasi model LDA untuk tujuan penelitian tertentu. LLM, menurut penelitian tersebut, dapat membantu menyelesaikan masalah yang sudah lama ada dalam pemodelan topik, yaitu, bagaimana menentukan dan mengevaluasi jumlah topik yang tepat.²¹ Penelitian lain juga beralih ke aplikasi LLM sebagai sarana untuk mengatasi kesenjangan evaluasi dalam pemodelan topik.²²

Apakah organisasi Anda siap memanfaatkan Gen AI?

Pelajari tentang lima kemampuan orkestrasi utama yang dapat membantu organisasi mengatasi tantangan penerapan AI generatif secara efektif.

Sumber daya

Jelajahi IBM Granite

IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.

Panduan pemula untuk NLP

Temukan bagaimana pemrosesan bahasa alami dapat membantu Anda berkomunikasi lebih alami dengan komputer.

Aksi AI 2024

Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.

Tingkatkan aplikasi Anda dengan AI IBM yang dapat disematkan

Jelajahi situs web IBM Developer untuk mengakses blog, artikel, buletin, dan mempelajari lebih lanjut tentang AI yang dapat disematkan IBM.

Praktik langsung dengan AI generatif

Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.

Solusi terkait

IBM watsonx Orchestrate

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate

Alat dan API pemrosesan bahasa alami

Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.

Jelajahi solusi NLP

Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI

Ambil langkah selanjutnya

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate

Jelajahi solusi NLP

Catatan kaki

¹Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/

² Jay Alammar dan Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

³ David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, hlm. 77-84.

⁴ Matthew Jockers, Analisis Teks dengan R untuk Mahasiswa Sastra, Springer, 2014.

⁵ Cole Howard, Hobson Lane, dan Hannes Hapke, Natural Language Processing in Action, Manning Publications, 2019. Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020.

⁶ Chandler Camille May, “Topic Modeling in Theory and Practice,” Dissertation, John Hopkins University, 2022.

⁷ Pemrosesan Bahasa Alami Praktis, O’Reilly. David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, hlm. 77-84.

⁸ Cole Howard, Hobson Lane, dan Hannes Hapke, Natural Language Processing in Action, Manning Publications, Deerwester, “Indexing by Latent Semantic Analysis,” David Blei, “Probabilistic Topic Models,” Communications of the ACM, Vol. 55, No. 4, 2012, hlm. 77-84.

⁹ Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, dan Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, hal. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

¹⁰ Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, dan Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, hal. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9

¹¹ Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.

¹² Sowmya Vajjala, Bodhisattwa Majumder, Anuj Gupta, Harshit Surana Practical Natural Language Processing, O’Reilly, 2020. David Blei, Andrew Ng, dan Michael Jordan, “Lantent Dirichlet Allocation,” Journal of Machine Learning Research, Vol. 3, 2003, hlm. 993-1022.

¹³ Zhiyuan Chen dan Bing Liu, “Topic Models for NLP Applications,” Encyclopedia of Machine Learning and Data Science, Springer, 2020.

¹⁴ Derek Greene, James O’Sullivan, dan Daragh O’Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024, https://academic.oup.com/dsh/article/39/1/142/7515230?login=false

¹⁵ Yichen Zhang, Mohammadali (Sam) Khalilitousi, dan Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/

¹⁶ Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, dan Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38

¹⁷ Abeer Abuzayed dan Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, hal. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 . Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, dan Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609

¹⁸ Matthew Gillings dan Andrew Hardie, “The interpretation of topic models for scholarly analysis: An evaluation and critique of current practice,” Digital Scholarship in the Humanities, Vol. 38, No. 2, 2023, hal. 530–543, https://academic.oup.com/dsh/article-abstract/38/2/530/6957052

¹⁹ Chandler Camille May, "Pemodelan Topik dalam Teori dan Praktik," Disertasi, Universitas John Hopkins, 2022.

²⁰ Zachary Lipton, “The Mythos of Model Interpretability: In machine learning, the concept of interpretability is both important and slippery,” Queue, Vol. 13, No. 3, 2018, hal. 31-57, https://dl.acm.org/doi/10.1145/3236386.3241340 Caitlin Doogan dan Wray Buntine, “Topic Model or Topic Twaddle? Re-evaluating Semantic Interpretability Measures,” Prosiding Konferensi Asosiasi untuk Linguistik Komputasi Cabang Amerika Utara 2021: Human Language Technologies” 2021, hal. 3824-3848, https://aclanthology.org/2021.naacl-main.300.pdf . Alexander Hoyle, Pranav Goel, Andrew Hian-Cheong, Denis Peskov, Jordan Boyd-Graber, dan Philip Resnik, “Is Automated Topic Model Evaluation Broken? The Incoherence of Coherence,” Advances in Neural Processing Systems, vol. 34, 2021, https://proceedings.neurips.cc/paper_files/paper/2021/hash/0f83556a305d789b1d71815e8ea4f4b0-Abstract.html

²¹ Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, dan Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Prosiding Konferensi tentang Metode Empiris dalam Pemrosesan Bahasa Alami 2023, 2023, https://aclanthology.org/2023.emnlp-main.581

²² Eric Chagnon, Ronald Pandolfi, Jeffrey Donatelli, dan Daniela Ushizima, “Benchmarking topic models on scientific articles using BERTeley,” Natural Language Processing Journal, Vol. 6, 2024, hal. 2949-7191, https://www.sciencedirect.com/science/article/pii/S2949719123000419 . Han Wang, Nirmalendu Prakash, Nguyen Khoi Hoang, Ming Shan Hee, Usman Naseem, dan Roy Ka-Wei Lee, “Prompting Large Language Models for Topic Modeling,” Prosiding Konferensi Internasional IEEE 2023 tentang Big Data, 2023, hal. 1236-1241, https://www.computer.org/csdl/proceedings-article/bigdata/2023/10386113/1TUOz14EiBy

Apa itu pemodelan topik?

Penyusun

Apa itu pemodelan topik?

Tren AI terbaru, dipersembahkan oleh para pakar

Terima kasih! Anda telah berlangganan.

Cara kerja pemodelan topik

Decoding AI: Rangkuman Berita Mingguan

Jenis algoritma pemodelan topik

Analisis semantik laten

Alokasi Dirichlet Laten

Penelitian terbaru

Sumber daya

Catatan kaki