Pemodelan bahasa disamarkan melatih model untuk memprediksi kata-kata yang tidak ada dalam teks. Ini biasanya melatih model terlebih dahulu untuk tugas NLP hilir.
Model bahasa disamarkan (MLM) adalah jenis model bahasa besar (LLM) yang digunakan untuk membantu memprediksi kata-kata yang hilang dari teks dalam tugas pemrosesan bahasa alami (NLP). Dengan demikian, pemodelan bahasa disamarkan adalah salah satu bentuk pelatihan model transformator—terutama representasi encoder dua arah dari transformator (BERT) dan turunannya, pendekatan prapelatihan BERT yang dioptimalkan dengan kuat (RobertA)—untuk tugas NLP, dengan melatih model untuk mengisi kata-kata disamarkan dalam teks, dan dengan demikian memprediksi kata-kata yang paling mungkin dan koheren untuk melengkapi teks.1
Pemodelan bahasa terselubung membantu banyak tugas—dari analisis sentimen hingga pembuatan teks—dengan melatih model untuk memahami hubungan kontekstual antara kata-kata. Faktanya, para pengembang penelitian sering menggunakan pemodelan bahasa terselubung untuk membuat model yang sudah terlatih yang menjalani penyempurnaan lebih lanjut yang diawasi untuk tugas-tugas hilir, seperti klasifikasi teks atau terjemahan mesin. Model bahasa bertopeng dengan demikian mendukung banyak algoritma pemodelan bahasa mutakhir saat ini. Meskipun pemodelan bahasa bertopeng adalah metode untuk model bahasa pra-pelatihan, sumber online terkadang menyebutnya sebagai metode pembelajaran transfer. Hal ini mungkin tidak dapat dibenarkan karena beberapa kelompok penelitian telah mulai menerapkan pemodelan bahasa terselubung sebagai tugas akhir.
Transformator HuggingFace dan pustaka teks Tensorflow berisi fungsi yang dirancang untuk melatih dan menguji model bahasa disamarkan di Python, baik sebagai tugas akhir maupun untuk tugas hilir.
Prosedur umum yang mencirikan model bahasa bertopeng cukup mudah. Sebagai bentuk pembelajaran tanpa pengawasan, pemodelan bahasa terselubung dimulai dengan kumpulan data teks yang besar dan tidak beranotasi. Algoritma menggantikan sampel acak kata dari teks input ini dengan token bertopeng, yang dapat terdiri dari token [MASK] atau token kata lain dari kosakata teks input. Untuk setiap token bertopeng, model kemudian memprediksi token kata mana yang paling mungkin muncul dalam teks input asli.2
Misalnya, dalam kalimat berikut dari Othello karya Shakespeare, dua kata telah diganti dengan token disamarkan, sementara kata lain telah diganti dengan token kata yang sama sekali berbeda:
Model kemudian akan melatih encoder dua arah untuk memprediksi token input asli yang telah disamarkan. Bagaimana cara melakukannya? Memang, untuk menjelaskan skema internal model bahasa disamarkan membutuhkan fondasi aljabar tingkat lanjut dan machine learning. Namun demikian, ikhtisar singkat tetap dapat dilakukan.
Untuk setiap token kata dalam data teks input, model menghasilkan penanaman kata yang mirip dengan model bag of words. Model menggabungkan penanaman kata ini dengan pengodean posisi untuk membuat input transformator. Singkatnya, pengodean posisi menunjukkan lokasi token kata tertentu dalam urutan menggunakan nilai vektor yang unik. Melalui pengodean posisi (atau penanaman posisi), model dapat menangkap informasi semantik tentang kata-kata melalui hubungan posisinya dengan kata-kata lain.
Model transformator kemudian menggunakan menanamkan kata dan posisi ini untuk menghasilkan distribusi probabilitas atas input untuk masing-masing token. Kata-kata dengan probabilitas prediksi tertinggi untuk setiap token yang disamarkan adalah prediksi masing-masing model untuk nilai sebenarnya dari setiap token.3
Pemodelan bahasa disamarkan adalah fitur karakteristik dari prapelatihan model transformator BERT—memang, keduanya diperkenalkan ke komunitas machine learning bersama-sama. Sebelum BERT, model bahasa bersifat searah. Ini berarti mereka mempelajari representasi bahasa dengan hanya mempertimbangkan teks yang mendahului kata tertentu. Namun, pendekatan BERT terhadap tugas pemodelan bahasa disamarkan mempertimbangkan teks sebelumnya dan setelahnya.4 Perbedaan utama antara pendekatan searah dan dua arah tergantung pada bagaimana lapisan perhatian diri transformator menguraikan nilai output.
Saat memprediksi kata berikutnya dalam urutan—atau dalam kasus kami, kata yang hilang—model searah hanya mempertimbangkan kata-kata yang mendahului nilai yang hilang. Dekoder transformator yang beroperasi dengan cara ini disebut juga kausal atau melihat mundur. Saat memproses urutan input, decoder hanya mempertimbangkan input tersebut hingga dan termasuk token input yang dimaksud; decoder tidak memiliki akses ke input token yang mengikuti input yang dipertimbangkan. Sebaliknya, encoder dua arah, seperti yang diadopsi dalam model BERT, menghasilkan prediksi menggunakan semua token input, yang mendahului dan mengikuti nilai yang disamarkan.5
Sebagai ilustrasi, mari kita kembali ke kutipan Othello yang disebutkan di atas: “Tapi saya pikir itu adalah kesalahan suami mereka jika istri jatuh.” Bayangkan bahwa, untuk beberapa alasan, kita memiliki seluruh teks ini kecuali untuk kata istri: “Tetapi saya pikir itu adalah kesalahan suami mereka jika ________ jatuh.” Kami ingin menentukan apa yang mengisi celah ini. Gambar ini menggambarkan perbedaan dalam bagaimana kedua decoder akan memproses contoh kalimat kita:
Pada gambar ini, y menandakan output yang diprediksi untuk token disamarkan. Transformator searah hanya menggunakan nilai input sebelum token disamarkan untuk memprediksi nilai input setelahnya. Namun, transformator dua arah menggunakan penanaman posisi dari semua nilai input—baik yang mendahului dan mengikuti samaran—untuk memprediksi nilai token yang disamarkan.
Pengembang dan peneliti menggunakan model bahasa bertopeng untuk mendukung banyak tugas NLP, seperti named entity recognition, menjawab pertanyaan, dan klasifikasi teks. Seperti banyak domain NLP, riset pemodelan bahasa bertopeng sering berfokus pada bahasa Latin, dan terutama bahasa Inggris. Baru-baru ini, eksperimen yang dipublikasikan mengembangkan dan mengevaluasi kumpulan data bahasa non-Latin, seperti bahasa Jepang dan Rusia, untuk pemodelan bahasa terselubung dan tugas-tugas hilir.6 Selain itu, satu kelompok riset mengusulkan metode yang diawasi dengan lemah untuk pra-pelatihan model bahasa bertopeng multibahasa. Secara khusus, mereka memperkenalkan token bertopeng khusus untuk memberlakukan pass maju lintas bahasa dalam pra-pelatihan pada kumpulan data multibahasa. Metode mereka menunjukkan peningkatan yang nyata dalam klasifikasi lintas bahasa dengan model bahasa bertopeng multibahasa.7
Seperti disebutkan, peneliti mungkin sering menggunakan pemodelan bahasa bertopeng sebagai sarana untuk meningkatkan kinerja model pada tugas NLP hilir. Tugas tersebut meliputi:
Named entity recognition. Tugas ini menggunakan model dan neural networks untuk mengidentifikasi kategori objek yang telah ditentukan dalam teks—seperti nama orang, nama kota, dan sebagainya. Seperti banyak tujuan machine learning, kurangnya data yang sesuai telah terbukti menjadi rintangan dalam named entity recognition. Untuk mengatasi hal ini, para peneliti telah mengeksplorasi pemodelan bahasa bertopeng sebagai bentuk augmentasi data untuk named entity recognition dengan sukses besar.8
Analisis sentimen. Analisis sentimen menganalisis dan mengklasifikasikan data sebagai positif, negatif, atau netral. Hal ini sering digunakan untuk mengklasifikasikan kumpulan ulasan pelanggan online yang berukuran besar. Mirip dengan named entity recognition, para peneliti telah menggali pemodelan bahasa disamarkan sebagai teknik augmentasi data untuk analisis sentimen.9 Selain itu, pemodelan bahasa disamarkan menunjukkan janji untuk adaptasi domain dalam analisis sentimen. Riset secara khusus menunjukkan bahwa pemodelan ini membantu berfokus pada memprediksi kata-kata dengan bobot besar untuk tugas pengklasifikasi sentimen.10
Jelajahi pustaka model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.
Gunakan AI di bisnis Anda keahlian AI terdepan di industri dan portofolio solusi dari IBM.
Rancang ulang alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
1 Daniel Jurafsky dan James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3.
2 Lewis Tunstall, Leandro von Werra, dan Thomas Wolf, Natural Language Processing with Transformers, Revised Edition, O’Reilly Media, 2022.
3 Daniel Jurafsky dan James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3. Denis Rothman, Transformers for Natural Language Processing and Computer Vision, 3rd edition, Packt Publishing, 2024.
4 Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," Prosiding Konferensi Asosiasi untuk Linguistik Komputasi Cabang Amerika Utara 2019, 2019, https://aclanthology.org/N19-1423.
5 Daniel Jurafsky dan James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3.
6 Masahiro Kaneko, Aizhan Imankulova, Danushka Bollegala, dan Naoaki Okazaki, "Gender Bias in Masked Language Models for Multiple Languages," Prosiding Konferensi Asosiasi Linguistik Komputasi Cabang Amerika Utara 2022: Teknologi Bahasa Manusia, 2022, https://aclanthology.org/2022.naacl-main.197. Sheng Liang, Philipp Dufter, dan Hinrich Schütze, "Monolingual and Multilingual Reduction of Gender Bias in Contextualized Representations," Prosiding Konferensi Internasional ke-28 tentang Linguistik Komputasi, 2020, https://aclanthology.org/2020.coling-main.446.
7 Xi Ai dan Bin Fang, "On-the-fly Cross-lingual Masking for Multilingual Pre-training," Prosiding Pertemuan Tahunan ke-61 Asosiasi untuk Linguistik Komputasi, 2023, https://aclanthology.org/2023.acl-long.49.
8 Ran Zhou, Xin Li, Ruidan He, Lidong Bing, Erik Cambria, Luo Si, and Chunyan Miao, "MELM: Data Augmentation with Masked Entity Language Modeling for Low-Resource NER," Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, 2022, https://aclanthology.org/2022.acl-long.160.
9 Larisa Kolesnichenko, Erik Velldal, and Lilja Øvrelid, "Word Substitution with Masked Language Models as Data Augmentation for Sentiment Analysis,"Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023), 2023, https://aclanthology.org/2023.resourceful-1.6.
10 Nikolay Arefyev, Dmitrii Kharchev, and Artem Shelmanov, "NB-MLM: Efficient Domain Adaptation of Masked Language Models for Sentiment Analysis," Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 2021, https://aclanthology.org/2021.emnlp-main.717.