Tren AI terbaru, dipersembahkan oleh para pakar
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Dalam machine learning, analisis semantik laten (LSA) adalah teknik pemodelan topik yang menganalisis kemunculan bersama kata untuk mengungkap topik laten dalam dokumen. LSA menggunakan reduksi dimensi untuk membuat data terstruktur dari teks tidak terstruktur untuk membantu klasifikasi dan pengambilan teks.
LSA adalah salah satu dari dua teknik pemodelan topik utama, yang lainnya adalah alokasi Dirichlet laten (LDA). Pemodelan topik adalah teknik pemrosesan bahasa alami (NLP) yang menerapkan pembelajaran tanpa pengawasan pada kumpulan data teks besar untuk menghasilkan kumpulan ringkasan istilah yang berasal dari dokumen tersebut. Semua istilah ini dimaksudkan untuk menunjukkan keseluruhan kumpulan topik utama dari kumpulan dokumen. Dengan demikian, model topik bertujuan untuk mengungkap topik atau tema laten yang menjadi ciri dari sejumlah dokumen.1
Pengguna dapat menghasilkan model topik LSA menggunakan toolkit bahasa alami (NLTK) dari scikit-learn (biasanya disebut sklearn) dan gensim di Python. Model topik dan paket lsa di R juga berisi fungsi untuk menghasilkan model topik LSA.
Analisis semantik laten dikaitkan dengan pengindeksan semantik laten (LSI) yang merupakan teknik pengambilan informasi. Dalam sistem pengambilan informasi, LSI menggunakan prosedur matematis yang sama yang mendasari LSA untuk memetakan kueri pengguna ke dokumen berdasarkan kemunculan bersama kata. Jika pengguna menanyakan sistem untuk waltz dan foxtrot, mereka mungkin tertarik dengan dokumen yang tidak berisi salah satu dari istilah tersebut, namun berisi istilah yang sering muncul bersamaan dengan istilah kueri mereka. Misalnya, tango dan bolero mungkin sering muncul bersama dengan istilah kueri dan harus menunjukkan dokumen tentang topik yang sama. LSI mengindeks dokumen menurut kelompok kata semantik laten yang terdiri dari kata-kata yang biasa muncul bersamaan. Dengan cara ini, teknik ini dapat meningkatkan hasil mesin pencari. LSA menerapkan prosedur matematis yang sama dengan LSI untuk menangkap struktur semantik tersembunyi yang mendasari koleksi dokumen yang besar.2
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
LSA dimulai dengan matriks dokumen-istilah atau terkadang matriks istilah-dokumen. Matriks ini menampilkan jumlah kemunculan setiap kata di semua dokumen. Di Python, misalnya, pengguna dapat membuat matriks ini menggunakan dataframe pandas. Berikut adalah contoh matriks dokumen-istilah menggunakan tiga untai teks sebagai dokumen terpisah:
d1: Cintaku seperti merah, mawar merah
d2: Mawar berwarna merah, violet berwarna biru
d3: Musa mengira jari kakinya adalah mawar
Matriks ini menunjukkan frekuensi kata dari setiap kata di ketiga dokumen setelah tokenisasi dan penghapusan stopword. Setiap kolom berhubungan dengan dokumen, sementara setiap baris berhubungan dengan kata tertentu yang ditemukan di seluruh korpus teks. Nilai dalam matriks menandakan berapa kali satu istilah tertentu muncul dalam dokumen tertentu. Jika istilah w muncul sebanyak n kali dalam dokumen d, maka [w,d] = n. Jadi, misalnya, dokumen 1 menggunakan 'merah' dua kali sehingga [merah, d1] = 2.
Dari matriks dokumen-istilah, LSA menghasilkan matriks dokumen-dokumen dan matriks istilah-istilah. Jika dimensi matriks dokumen-istilah ditetapkan sebagai d dokumen dikali w kata, maka matriks dokumen-dokumen adalah d dikali d dan matriks istilah-istilah w dikali w. Setiap nilai dalam matriks dokumen-dokumen menunjukkan jumlah kata yang dimiliki bersama-sama oleh setiap dokumen. Setiap nilai dalam matriks istilah-istilah menunjukkan jumlah dokumen di mana kedua istilah muncul bersamaan.3
Keterbatasan data yang menyebabkan overfitting pada model terjadi ketika sebagian besar nilai data dalam kumpulan data tertentu adalah nol (atau kosong). Hal ini sering terjadi ketika membuat matriks dokumen-istilah, di mana setiap kata adalah dimensi baris dan ruang vektor terpisah, karena satu dokumen akan sering tidak memiliki sebagian besar kata yang lebih sering muncul di dokumen lain. Memang, contoh matriks dokumen-istilah yang digunakan di sini berisi banyak penggunaan kata-kata seperti Musa, violet, dan biru yang hanya muncul dalam satu dokumen. Tentu saja, teknik prapemrosesan teks, seperti penghapusan stopword, stemming, dan lematisasi dapat membantu mengurangi sparsitas. Namun, LSA menawarkan pendekatan yang lebih ditargetkan.
LSA menerapkan teknik reduksi dimensi yang dikenal sebagai dekomposisi nilai tunggal (SVD) untuk mengurangi sparsitas dalam matriks dokumen-istilah. SVD mendukung banyak pendekatan reduksi dimensi lainnya, seperti analisis komponen utama. SVD membantu meringankan masalah yang diakibatkan oleh polisemi, satu kata dengan banyak arti, dan sinonimi yaitu kata berbeda yang memiliki arti sama.
Dengan menggunakan matriks yang dihitung dari istilah di seluruh matriks dokumen-dokumen dan istilah-istilah, algoritma LSA melakukan SVD pada matriks istilah-dokumen awal. Hal ini menghasilkan matriks vektor eigen khusus baru yang memecah hubungan istilah-dokumen asli menjadi berbagai faktor yang independen secara linier. Yang paling penting dari semuanya ini adalah bahwa matriks diagonal dari nilai tunggal dihasilkan dari akar kuadrat nilai eigen matriks dokumen-dokumen. Dalam matriks diagonal ini yang sering ditunjukkan sebagai Σ, nilainya selalu positif dan disusun dalam urutan menurun ke bawah diagonal matriks:
Seperti yang ditunjukkan dalam contoh matriks Σ ini, banyak nilai yang lebih rendah mendekati nol. Pengembang menentukan nilai minimal yang sesuai dengan situasi mereka dan mengurangi semua nilai tunggal dalam Σ di bawah ambang batas tersebut menjadi nol. Ini berarti pada dasarnya menghapus semua baris dan kolom yang sepenuhnya ditempati oleh nol. Selanjutnya, kita menghapus baris dan kolom dari matriks asli kita yang lain sampai matriks tersebut memiliki jumlah baris dan kolom yang sama seperti Σ. Tindakan ini mengurangi dimensi model.4
Setelah dimensi model direduksi melalui SVD, algoritma LSA membandingkan dokumen dalam ruang semantik berdimensi lebih rendah menggunakan kemiripan kosinus. Langkah pertama dalam tahap perbandingan ini melibatkan pemetaan dokumen dalam ruang vektor. Di sini, LSA memperlakukan teks sebagai model bag of words. Algoritma ini membuat setiap teks dari satu atau beberapa korpus sebagai vektor dokumen, dengan masing-masing kata dari matriks yang telah direduksi sebagai dimensi vektor tersebut. Penggambaran mengabaikan urutan kata dan konteks, dan lebih berfokus pada seberapa sering kata muncul dan seberapa sering kata tersebut muncul bersamaan di seluruh dokumen.5
Dengan model bag of words standar, kata-kata yang tidak relevan secara semantik (misalnya, kata-kata seperti kata sandang and kata penentu kuantitas, dan kata-kata serupa lainnya) dapat memiliki frekuensi istilah tertinggi, dan dengan demikian bobot terbesar dalam sebuah model. Frekuensi istilah-frekuensi dokumen terbalik (TF-IDF) adalah salah satu teknik untuk memperbaikinya. Hal ini dilakukan dengan memperhitungkan prevalensi kata di seluruh dokumen dalam kumpulan teks dan memberi bobot pada kata di setiap dokumen sesuai dengan prevalensi kata di seluruh korpus.6
Setelah dokumen dibuat dalam ruang vektor, algoritma LSA menggunakan metrik kesamaan kosinus untuk membandingkannya. Kesamaan kosinus menandakan pengukuran sudut antara dua vektor dalam ruang vektor. Ini bisa berupa nilai antara -1 dan 1. Semakin tinggi skor kosinus, kedua dokumen tersebut dianggap semakin mirip. Kesamaan kosinus ditunjukkan oleh rumus ini, di mana a dan b menandakan dua vektor dokumen:7
Ada banyak contoh penggunaan untuk model topik, mulai dari kritik sastra8 dan bioinformatika9 hingga deteksi ujaran kebencian di media sosial.10 Seperti halnya kebanyakan tugas NLP, sebagian besar penelitian pemodelan topik selama bertahun-tahun ini berkaitan dengan bahasa Inggris dan bahasa beraksara Latin lainnya. Namun, baru-baru ini, penelitian telah menggali pendekatan pemodelan topik untuk bahasa Arab dan bahasa bukan Latin lainnya.11 Penelitian juga beralih ke bagaimana model bahasa besar (LLM) dapat memajukan dan meningkatkan model topik. Sebagai contoh, sebuah studi menyatakan bahwa LLM menyediakan metode otomatis untuk menyelesaikan masalah yang sudah berlangsung lama dalam pemodelan topik, yaitu cara menentukan jumlah topik yang sesuai dan cara mengevaluasi topik yang dihasilkan.12
Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.
Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
1 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/ (tautan berada di luar ibm.com). Jay Alammar and Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.
2 Christopher Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 2000.
3 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, dan Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, hal. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (tautan berada di luar ibm.com). Alex Thomo, “Latent Semantic Analysis,” https://www.engr.uvic.ca/~seng474/svd.pdf (tautan berada di luar ibm.com).
4 Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, dan Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, hal. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (tautan berada di luar ibm.com).
5 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.
6 Alice Zheng and Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.
7 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.
8 Derek Greene, James O'Sullivan, dan Daragh O'Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024,https://academic.oup.com/dsh/article/39/1/142/7515230?login=false(link resides outside ibm.com).
9 Yichen Zhang, Mohammadali (Sam) Khalilitousi, dan Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/ (tautan berada di luar ibm.com).
10 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, dan Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38 (tautan berada di luar ibm.com).
11 Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, hal. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 (tautan berada di luar ibm.com). Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, dan Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609/ (tautan berada di luar ibm.com).
12 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, dan Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Prosiding Konferensi tentang Metode Empiris dalam Pemrosesan Bahasa Alami 2023, 2023, https://aclanthology.org/2023.emnlp-main.581/ (tautan berada di luar ibm.com).