Apa itu analisis semantik laten?

Penulis

Jacob Murel Ph.D.

Senior Technical Content Creator

Joshua Noble

Data Scientist

Apa yang dimaksud dengan analisis semantik laten?

Dalam machine learning, analisis semantik laten (LSA) adalah teknik pemodelan topik yang menganalisis kemunculan bersama kata untuk mengungkap topik laten dalam dokumen. LSA menggunakan reduksi dimensi untuk membuat data terstruktur dari teks tidak terstruktur untuk membantu klasifikasi dan pengambilan teks.

LSA adalah salah satu dari dua teknik pemodelan topik utama, yang lainnya adalah alokasi Dirichlet laten (LDA). Pemodelan topik adalah teknik pemrosesan bahasa alami (NLP) yang menerapkan pembelajaran tanpa pengawasan pada kumpulan data teks besar untuk menghasilkan kumpulan ringkasan istilah yang berasal dari dokumen tersebut. Semua istilah ini dimaksudkan untuk menunjukkan keseluruhan kumpulan topik utama dari kumpulan dokumen. Dengan demikian, model topik bertujuan untuk mengungkap topik atau tema laten yang menjadi ciri dari sejumlah dokumen.1

Pengguna dapat menghasilkan model topik LSA menggunakan toolkit bahasa alami (NLTK) dari scikit-learn (biasanya disebut sklearn) dan gensim di Python. Model topik dan paket lsa di R juga berisi fungsi untuk menghasilkan model topik LSA.

Pencarian informasi

Analisis semantik laten dikaitkan dengan pengindeksan semantik laten (LSI) yang merupakan teknik pengambilan informasi. Dalam sistem pengambilan informasi, LSI menggunakan prosedur matematis yang sama yang mendasari LSA untuk memetakan kueri pengguna ke dokumen berdasarkan kemunculan bersama kata. Jika pengguna menanyakan sistem untuk waltz dan foxtrot, mereka mungkin tertarik dengan dokumen yang tidak berisi salah satu dari istilah tersebut, namun berisi istilah yang sering muncul bersamaan dengan istilah kueri mereka. Misalnya, tango dan bolero mungkin sering muncul bersama dengan istilah kueri dan harus menunjukkan dokumen tentang topik yang sama. LSI mengindeks dokumen menurut kelompok kata semantik laten yang terdiri dari kata-kata yang biasa muncul bersamaan. Dengan cara ini, teknik ini dapat meningkatkan hasil mesin pencari. LSA menerapkan prosedur matematis yang sama dengan LSI untuk menangkap struktur semantik tersembunyi yang mendasari koleksi dokumen yang besar.2

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Bagaimana analisis semantik laten bekerja

Matriks istilah dokumen

LSA dimulai dengan matriks dokumen-istilah atau terkadang matriks istilah-dokumen. Matriks ini menampilkan jumlah kemunculan setiap kata di semua dokumen. Di Python, misalnya, pengguna dapat membuat matriks ini menggunakan dataframe pandas. Berikut adalah contoh matriks dokumen-istilah menggunakan tiga untai teks sebagai dokumen terpisah:

d1: Cintaku seperti merah, mawar merah

d2: Mawar berwarna merah, violet berwarna biru

d3: Musa mengira jari kakinya adalah mawar

contoh matriks dokumen-istilah dengan tiga dokumen

Matriks ini menunjukkan frekuensi kata dari setiap kata di ketiga dokumen setelah tokenisasi dan penghapusan stopword. Setiap kolom berhubungan dengan dokumen, sementara setiap baris berhubungan dengan kata tertentu yang ditemukan di seluruh korpus teks. Nilai dalam matriks menandakan berapa kali satu istilah tertentu muncul dalam dokumen tertentu. Jika istilah w muncul sebanyak n kali dalam dokumen d, maka [w,d] = n. Jadi, misalnya, dokumen 1 menggunakan 'merah' dua kali sehingga [merah, d1] = 2.

Dari matriks dokumen-istilah, LSA menghasilkan matriks dokumen-dokumen dan matriks istilah-istilah. Jika dimensi matriks dokumen-istilah ditetapkan sebagai d dokumen dikali w kata, maka matriks dokumen-dokumen adalah d dikali d dan matriks istilah-istilah w dikali w. Setiap nilai dalam matriks dokumen-dokumen menunjukkan jumlah kata yang dimiliki bersama-sama oleh setiap dokumen. Setiap nilai dalam matriks istilah-istilah menunjukkan jumlah dokumen di mana kedua istilah muncul bersamaan.3

Keterbatasan data yang menyebabkan overfitting pada model terjadi ketika sebagian besar nilai data dalam kumpulan data tertentu adalah nol (atau kosong). Hal ini sering terjadi ketika membuat matriks dokumen-istilah, di mana setiap kata adalah dimensi baris dan ruang vektor terpisah, karena satu dokumen akan sering tidak memiliki sebagian besar kata yang lebih sering muncul di dokumen lain. Memang, contoh matriks dokumen-istilah yang digunakan di sini berisi banyak penggunaan kata-kata seperti Musa, violet, dan biru yang hanya muncul dalam satu dokumen. Tentu saja, teknik prapemrosesan teks, seperti penghapusan stopword, stemming, dan lematisasi dapat membantu mengurangi sparsitas. Namun, LSA menawarkan pendekatan yang lebih ditargetkan.

Pengurangan dimensi

LSA menerapkan teknik reduksi dimensi yang dikenal sebagai dekomposisi nilai tunggal (SVD) untuk mengurangi sparsitas dalam matriks dokumen-istilah. SVD mendukung banyak pendekatan reduksi dimensi lainnya, seperti analisis komponen utama. SVD membantu meringankan masalah yang diakibatkan oleh polisemi, satu kata dengan banyak arti, dan sinonimi yaitu kata berbeda yang memiliki arti sama.

Dengan menggunakan matriks yang dihitung dari istilah di seluruh matriks dokumen-dokumen dan istilah-istilah, algoritma LSA melakukan SVD pada matriks istilah-dokumen awal. Hal ini menghasilkan matriks vektor eigen khusus baru yang memecah hubungan istilah-dokumen asli menjadi berbagai faktor yang independen secara linier. Yang paling penting dari semuanya ini adalah bahwa matriks diagonal dari nilai tunggal dihasilkan dari akar kuadrat nilai eigen matriks dokumen-dokumen. Dalam matriks diagonal ini yang sering ditunjukkan sebagai Σ, nilainya selalu positif dan disusun dalam urutan menurun ke bawah diagonal matriks:

Contoh matriks sigma sparsitas

Seperti yang ditunjukkan dalam contoh matriks Σ ini, banyak nilai yang lebih rendah mendekati nol. Pengembang menentukan nilai minimal yang sesuai dengan situasi mereka dan mengurangi semua nilai tunggal dalam Σ di bawah ambang batas tersebut menjadi nol. Ini berarti pada dasarnya menghapus semua baris dan kolom yang sepenuhnya ditempati oleh nol. Selanjutnya, kita menghapus baris dan kolom dari matriks asli kita yang lain sampai matriks tersebut memiliki jumlah baris dan kolom yang sama seperti Σ. Tindakan ini mengurangi dimensi model.4

Perbandingan dokumen

Setelah dimensi model direduksi melalui SVD, algoritma LSA membandingkan dokumen dalam ruang semantik berdimensi lebih rendah menggunakan kemiripan kosinus. Langkah pertama dalam tahap perbandingan ini melibatkan pemetaan dokumen dalam ruang vektor. Di sini, LSA memperlakukan teks sebagai model bag of words. Algoritma ini membuat setiap teks dari satu atau beberapa korpus sebagai vektor dokumen, dengan masing-masing kata dari matriks yang telah direduksi sebagai dimensi vektor tersebut. Penggambaran mengabaikan urutan kata dan konteks, dan lebih berfokus pada seberapa sering kata muncul dan seberapa sering kata tersebut muncul bersamaan di seluruh dokumen.5

Dengan model bag of words standar, kata-kata yang tidak relevan secara semantik (misalnya, kata-kata seperti kata sandang and kata penentu kuantitas, dan kata-kata serupa lainnya) dapat memiliki frekuensi istilah tertinggi, dan dengan demikian bobot terbesar dalam sebuah model. Frekuensi istilah-frekuensi dokumen terbalik (TF-IDF) adalah salah satu teknik untuk memperbaikinya. Hal ini dilakukan dengan memperhitungkan prevalensi kata di seluruh dokumen dalam kumpulan teks dan memberi bobot pada kata di setiap dokumen sesuai dengan prevalensi kata di seluruh korpus.6

Setelah dokumen dibuat dalam ruang vektor, algoritma LSA menggunakan metrik kesamaan kosinus untuk membandingkannya. Kesamaan kosinus menandakan pengukuran sudut antara dua vektor dalam ruang vektor. Ini bisa berupa nilai antara -1 dan 1. Semakin tinggi skor kosinus, kedua dokumen tersebut dianggap semakin mirip. Kesamaan kosinus ditunjukkan oleh rumus ini, di mana a dan b menandakan dua vektor dokumen:7

Persamaan skor kesamaan kosinus

Penelitian terbaru

Ada banyak contoh penggunaan untuk model topik, mulai dari kritik sastra8 dan bioinformatika9 hingga deteksi ujaran kebencian di media sosial.10 Seperti halnya kebanyakan tugas NLP, sebagian besar penelitian pemodelan topik selama bertahun-tahun ini berkaitan dengan bahasa Inggris dan bahasa beraksara Latin lainnya. Namun, baru-baru ini, penelitian telah menggali pendekatan pemodelan topik untuk bahasa Arab dan bahasa bukan Latin lainnya.11 Penelitian juga beralih ke bagaimana model bahasa besar (LLM) dapat memajukan dan meningkatkan model topik. Sebagai contoh, sebuah studi menyatakan bahwa LLM menyediakan metode otomatis untuk menyelesaikan masalah yang sudah berlangsung lama dalam pemodelan topik, yaitu cara menentukan jumlah topik yang sesuai dan cara mengevaluasi topik yang dihasilkan.12

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Solusi terkait
IBM watsonx Orchestrate

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate
Alat dan API pemrosesan bahasa alami

Mempercepat nilai bisnis kecerdasan buatan dengan portofolio pustaka, layanan, dan aplikasi yang kuat dan fleksibel.

Jelajahi solusi NLP
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Rancang asisten dan agen AI yang dapat diskalakan dengan mudah, otomatiskan tugas berulang, dan sederhanakan proses kompleks dengan IBM watsonx Orchestrate.

Temukan watsonx Orchestrate Jelajahi solusi NLP
Catatan kaki

1 Daniel Jurafsky and James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3/ (tautan berada di luar ibm.com). Jay Alammar and Maarten Grootendorst, Hands-On Large Language Models, O’Reilly, 2024.

2 Christopher Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press, 2000.

3 Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, dan Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, hal. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (tautan berada di luar ibm.com). Alex Thomo, “Latent Semantic Analysis,” https://www.engr.uvic.ca/~seng474/svd.pdf (tautan berada di luar ibm.com).

4 Hana Nelson, Essential Math for AI, O’Reilly, 2023. Scott Deerwester, Susan Dumais, George Furnas, Thomas Landauer, dan Richard Harshman, “Indexing by Latent Semantic Analysis,” Journal of the American Society for Information Science, Vol. 41, No. 6, 1990, hal. 391-407, https://asistdl.onlinelibrary.wiley.com/doi/abs/10.1002/%28SICI%291097-4571%28199009%2941%3A6%3C391%3A%3AAID-ASI1%3E3.0.CO%3B2-9 (tautan berada di luar ibm.com).

5 Matthew Jockers, Text Analysis with R for Students of Literature, Springer, 2014.

6 Alice Zheng and Amanda Casari, Feature Engineering for Machine Learning, O’Reilly, 2018.

7 Elsa Negre, Information and Recommender Systems, Vol. 4, Wiley-ISTE, 2015. Hana Nelson, Essential Math for AI, O’Reilly, 2023.

8 Derek Greene, James O'Sullivan, dan Daragh O'Reilly, “Topic modelling literary interviews from The Paris Review,” Digital Scholarship in the Humanities, 2024,https://academic.oup.com/dsh/article/39/1/142/7515230?login=false(link resides outside ibm.com).

9 Yichen Zhang, Mohammadali (Sam) Khalilitousi, dan Yongjin Park, “Unraveling dynamically encoded latent transcriptomic patterns in pancreatic cancer cells by topic modeling,” Cell Genomics, Vol. 3, No. 9, 2023, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10504675/ (tautan berada di luar ibm.com).

10 Richard Shear, Nicholas Johnson Restrepo, Yonatan Lupu, dan Neil F. Johnson, “Dynamic Topic Modeling Reveals Variations in Online Hate Narratives,” Intelligent Computing, 2022, https://link.springer.com/chapter/10.1007/978-3-031-10464-0_38 (tautan berada di luar ibm.com).

11 Abeer Abuzayed and Hend Al-Khalifa, “BERT for Arabic Topic Modeling: An Experimental Study on BERTopic Technique,” Procedia Computer Science, 2021, hal. 191-194, https://www.sciencedirect.com/science/article/pii/S1877050921012199 (tautan berada di luar ibm.com). Raghad Alshalan, Hend Al-Khalifa, Duaa Alsaeed, Heyam Al-Baity, dan Shahad Alshalan, “Detection of Hate Speech in COVID-19--Related Tweets in the Arab Region: Deep Learning and Topic Modeling Approach,” Journal of Medical Internet Research, Vol. 22, No. 12, 2020, https://www.jmir.org/2020/12/e22609/ (tautan berada di luar ibm.com).

12 Dominik Stammbach, Vilém Zouhar, Alexander Hoyle, Mrinmaya Sachan, dan Elliott Ash, “Revisiting Automated Topic Model Evaluation with Large Language Models,” Prosiding Konferensi tentang Metode Empiris dalam Pemrosesan Bahasa Alami 2023, 2023, https://aclanthology.org/2023.emnlp-main.581/ (tautan berada di luar ibm.com).