Apa itu model bahasa bertopeng?

Jembatan Infinity di Stockton di Tees, Inggris Raya.

Pemodelan bahasa disamarkan melatih model untuk memprediksi kata-kata yang tidak ada dalam teks. Ini biasanya melatih model terlebih dahulu untuk tugas NLP hilir.

Model bahasa disamarkan (MLM) adalah jenis model bahasa besar (LLM) yang digunakan untuk membantu memprediksi kata-kata yang hilang dari teks dalam tugas pemrosesan bahasa alami (NLP). Dengan demikian, pemodelan bahasa disamarkan adalah salah satu bentuk pelatihan model transformator—terutama representasi encoder dua arah dari transformator (BERT) dan turunannya, pendekatan prapelatihan BERT yang dioptimalkan dengan kuat (RobertA)—untuk tugas NLP, dengan melatih model untuk mengisi kata-kata disamarkan dalam teks, dan dengan demikian memprediksi kata-kata yang paling mungkin dan koheren untuk melengkapi teks.¹

Pemodelan bahasa terselubung membantu banyak tugas—dari analisis sentimen hingga pembuatan teks—dengan melatih model untuk memahami hubungan kontekstual antara kata-kata. Faktanya, para pengembang penelitian sering menggunakan pemodelan bahasa terselubung untuk membuat model yang sudah terlatih yang menjalani penyempurnaan lebih lanjut yang diawasi untuk tugas-tugas hilir, seperti klasifikasi teks atau terjemahan mesin. Model bahasa bertopeng dengan demikian mendukung banyak algoritma pemodelan bahasa mutakhir saat ini. Meskipun pemodelan bahasa bertopeng adalah metode untuk model bahasa pra-pelatihan, sumber online terkadang menyebutnya sebagai metode pembelajaran transfer. Hal ini mungkin tidak dapat dibenarkan karena beberapa kelompok penelitian telah mulai menerapkan pemodelan bahasa terselubung sebagai tugas akhir.

Transformator HuggingFace dan pustaka teks Tensorflow berisi fungsi yang dirancang untuk melatih dan menguji model bahasa disamarkan di Python, baik sebagai tugas akhir maupun untuk tugas hilir.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru  

Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan.

Cara kerja model bahasa disamarkan

Prosedur umum yang mencirikan model bahasa bertopeng cukup mudah. Sebagai bentuk pembelajaran tanpa pengawasan, pemodelan bahasa terselubung dimulai dengan kumpulan data teks yang besar dan tidak beranotasi. Algoritma menggantikan sampel acak kata dari teks input ini dengan token bertopeng, yang dapat terdiri dari token [MASK] atau token kata lain dari kosakata teks input. Untuk setiap token bertopeng, model kemudian memprediksi token kata mana yang paling mungkin muncul dalam teks input asli.²

Misalnya, dalam kalimat berikut dari Othello karya Shakespeare, dua kata telah diganti dengan token disamarkan, sementara kata lain telah diganti dengan token kata yang sama sekali berbeda:

Visualisasi penyamaran kata dalam contoh paragraf Othello

Model kemudian akan melatih encoder dua arah untuk memprediksi token input asli yang telah disamarkan. Bagaimana cara melakukannya? Memang, untuk menjelaskan skema internal model bahasa disamarkan membutuhkan fondasi aljabar tingkat lanjut dan machine learning. Namun demikian, ikhtisar singkat tetap dapat dilakukan.

Untuk setiap token kata dalam data teks input, model menghasilkan penanaman kata yang mirip dengan model bag of words. Model menggabungkan penanaman kata ini dengan pengodean posisi untuk membuat input transformator. Singkatnya, pengodean posisi menunjukkan lokasi token kata tertentu dalam urutan menggunakan nilai vektor yang unik. Melalui pengodean posisi (atau penanaman posisi), model dapat menangkap informasi semantik tentang kata-kata melalui hubungan posisinya dengan kata-kata lain.

Model transformator kemudian menggunakan menanamkan kata dan posisi ini untuk menghasilkan distribusi probabilitas atas input untuk masing-masing token. Kata-kata dengan probabilitas prediksi tertinggi untuk setiap token yang disamarkan adalah prediksi masing-masing model untuk nilai sebenarnya dari setiap token.³

Pendekatan pada prediksi token disamarkan

Pemodelan bahasa disamarkan adalah fitur karakteristik dari prapelatihan model transformator BERT—memang, keduanya diperkenalkan ke komunitas machine learning bersama-sama. Sebelum BERT, model bahasa bersifat searah. Ini berarti mereka mempelajari representasi bahasa dengan hanya mempertimbangkan teks yang mendahului kata tertentu. Namun, pendekatan BERT terhadap tugas pemodelan bahasa disamarkan mempertimbangkan teks sebelumnya dan setelahnya.⁴ Perbedaan utama antara pendekatan searah dan dua arah tergantung pada bagaimana lapisan perhatian diri transformator menguraikan nilai output.

Saat memprediksi kata berikutnya dalam urutan—atau dalam kasus kami, kata yang hilang—model searah hanya mempertimbangkan kata-kata yang mendahului nilai yang hilang. Dekoder transformator yang beroperasi dengan cara ini disebut juga kausal atau melihat mundur. Saat memproses urutan input, decoder hanya mempertimbangkan input tersebut hingga dan termasuk token input yang dimaksud; decoder tidak memiliki akses ke input token yang mengikuti input yang dipertimbangkan. Sebaliknya, encoder dua arah, seperti yang diadopsi dalam model BERT, menghasilkan prediksi menggunakan semua token input, yang mendahului dan mengikuti nilai yang disamarkan.⁵

Sebagai ilustrasi, mari kita kembali ke kutipan Othello yang disebutkan di atas: “Tapi saya pikir itu adalah kesalahan suami mereka jika istri jatuh.” Bayangkan bahwa, untuk beberapa alasan, kita memiliki seluruh teks ini kecuali untuk kata istri: “Tetapi saya pikir itu adalah kesalahan suami mereka jika ________ jatuh.” Kami ingin menentukan apa yang mengisi celah ini. Gambar ini menggambarkan perbedaan dalam bagaimana kedua decoder akan memproses contoh kalimat kita:

Visualisasi membandingkan bagaimana encoder yang berbeda memproses token

Pada gambar ini, y menandakan output yang diprediksi untuk token disamarkan. Transformator searah hanya menggunakan nilai input sebelum token disamarkan untuk memprediksi nilai input setelahnya. Namun, transformator dua arah menggunakan penanaman posisi dari semua nilai input—baik yang mendahului dan mengikuti samaran—untuk memprediksi nilai token yang disamarkan.

Penelitian terbaru

Pengembang dan peneliti menggunakan model bahasa bertopeng untuk mendukung banyak tugas NLP, seperti named entity recognition, menjawab pertanyaan, dan klasifikasi teks. Seperti banyak domain NLP, riset pemodelan bahasa bertopeng sering berfokus pada bahasa Latin, dan terutama bahasa Inggris. Baru-baru ini, eksperimen yang dipublikasikan mengembangkan dan mengevaluasi kumpulan data bahasa non-Latin, seperti bahasa Jepang dan Rusia, untuk pemodelan bahasa terselubung dan tugas-tugas hilir.⁶ Selain itu, satu kelompok riset mengusulkan metode yang diawasi dengan lemah untuk pra-pelatihan model bahasa bertopeng multibahasa. Secara khusus, mereka memperkenalkan token bertopeng khusus untuk memberlakukan pass maju lintas bahasa dalam pra-pelatihan pada kumpulan data multibahasa. Metode mereka menunjukkan peningkatan yang nyata dalam klasifikasi lintas bahasa dengan model bahasa bertopeng multibahasa.⁷

Akademi AI

Mengapa model dasar merupakan perubahan paradigma untuk AI

Pelajari tentang kelas baru model AI yang dapat digunakan kembali dan fleksibel, yang dapat membuka pendapatan baru, mengurangi biaya, dan meningkatkan produktivitas. Lalu gunakan buku panduan kami untuk mempelajari lebih dalam.

Buka episode

Contoh penggunaan

Seperti disebutkan, peneliti mungkin sering menggunakan pemodelan bahasa bertopeng sebagai sarana untuk meningkatkan kinerja model pada tugas NLP hilir. Tugas tersebut meliputi:

Named entity recognition. Tugas ini menggunakan model dan neural networks untuk mengidentifikasi kategori objek yang telah ditentukan dalam teks—seperti nama orang, nama kota, dan sebagainya. Seperti banyak tujuan machine learning, kurangnya data yang sesuai telah terbukti menjadi rintangan dalam named entity recognition. Untuk mengatasi hal ini, para peneliti telah mengeksplorasi pemodelan bahasa bertopeng sebagai bentuk augmentasi data untuk named entity recognition dengan sukses besar.⁸

Analisis sentimen. Analisis sentimen menganalisis dan mengklasifikasikan data sebagai positif, negatif, atau netral. Hal ini sering digunakan untuk mengklasifikasikan kumpulan ulasan pelanggan online yang berukuran besar. Mirip dengan named entity recognition, para peneliti telah menggali pemodelan bahasa disamarkan sebagai teknik augmentasi data untuk analisis sentimen.⁹ Selain itu, pemodelan bahasa disamarkan menunjukkan janji untuk adaptasi domain dalam analisis sentimen. Riset secara khusus menunjukkan bahwa pemodelan ini membantu berfokus pada memprediksi kata-kata dengan bobot besar untuk tugas pengklasifikasi sentimen.¹⁰

Cara memilih model dasar yang tepat

Pelajari cara memilih pendekatan yang tepat dalam mempersiapkan kumpulan data dan menggunakan model dasar.

Sumber daya

Jelajahi IBM Granite

Temukan IBM Granite, rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.

Cara memilih model dasar yang tepat

Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.

Temukan kekuatan LLM

Jelajahi artikel, blog, dan tutorial di IBM Developer untuk memperdalam pemahaman Anda tentang LLM.

Panduan CEO untuk optimasi model

Pelajari cara terus mendorong tim untuk meningkatkan kinerja model dan unggul dalam persaingan dengan menggunakan teknik dan infrastruktur AI terbaru.

Pendekatan berbeda pada model dasar AI

Jelajahi nilai model dasar kelas enterprise yang memberikan kepercayaan, kinerja, dan manfaat hemat biaya bagi semua industri.

Singkap Kekuatan AI generatif + ML

Pelajari cara menggabungkan AI generatif, machine learning, dan model dasar ke dalam operasi bisnis Anda untuk meningkatkan kinerja.

Aksi AI 2024

Baca lebih dari 2.000 organisasi yang kami survei tentang inisiatif AI mereka untuk mengetahui hal yang berhasil, yang tidak, dan cara Anda bisa maju.

Solusi terkait

Model dasar

Jelajahi pustaka model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.

Temukan watsonx.ai

Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda keahlian AI terdepan di industri dan portofolio solusi dari IBM.

Jelajahi solusi AI

Konsultasi dan layanan AI

Rancang ulang alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI

Ambil langkah selanjutnya

Jelajahi perpustakaan model dasar IBM dalam portofolio IBM watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan penuh percaya diri.

Jelajahi watsonx.ai

Jelajahi solusi AI

Catatan kaki

1 Daniel Jurafsky dan James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3.

2 Lewis Tunstall, Leandro von Werra, dan Thomas Wolf, Natural Language Processing with Transformers, Revised Edition, O’Reilly Media, 2022.

3 Daniel Jurafsky dan James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3. Denis Rothman, Transformers for Natural Language Processing and Computer Vision, 3rd edition, Packt Publishing, 2024.

4 Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," Prosiding Konferensi Asosiasi untuk Linguistik Komputasi Cabang Amerika Utara 2019, 2019, https://aclanthology.org/N19-1423.

5 Daniel Jurafsky dan James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023, https://web.stanford.edu/~jurafsky/slp3.

6 Masahiro Kaneko, Aizhan Imankulova, Danushka Bollegala, dan Naoaki Okazaki, "Gender Bias in Masked Language Models for Multiple Languages," Prosiding Konferensi Asosiasi Linguistik Komputasi Cabang Amerika Utara 2022: Teknologi Bahasa Manusia, 2022, https://aclanthology.org/2022.naacl-main.197. Sheng Liang, Philipp Dufter, dan Hinrich Schütze, "Monolingual and Multilingual Reduction of Gender Bias in Contextualized Representations," Prosiding Konferensi Internasional ke-28 tentang Linguistik Komputasi, 2020, https://aclanthology.org/2020.coling-main.446.

7 Xi Ai dan Bin Fang, "On-the-fly Cross-lingual Masking for Multilingual Pre-training," Prosiding Pertemuan Tahunan ke-61 Asosiasi untuk Linguistik Komputasi, 2023, https://aclanthology.org/2023.acl-long.49.

8 Ran Zhou, Xin Li, Ruidan He, Lidong Bing, Erik Cambria, Luo Si, and Chunyan Miao, "MELM: Data Augmentation with Masked Entity Language Modeling for Low-Resource NER," Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics, 2022, https://aclanthology.org/2022.acl-long.160.

9 Larisa Kolesnichenko, Erik Velldal, and Lilja Øvrelid, "Word Substitution with Masked Language Models as Data Augmentation for Sentiment Analysis,"Proceedings of the Second Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2023), 2023, https://aclanthology.org/2023.resourceful-1.6.

10 Nikolay Arefyev, Dmitrii Kharchev, and Artem Shelmanov, "NB-MLM: Efficient Domain Adaptation of Masked Language Models for Sentiment Analysis," Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 2021, https://aclanthology.org/2021.emnlp-main.717.

Apa itu model bahasa bertopeng?

Berita + Insight AI terbaru

Cara kerja model bahasa disamarkan

Pendekatan pada prediksi token disamarkan

Penelitian terbaru

Mengapa model dasar merupakan perubahan paradigma untuk AI

Contoh penggunaan

Share

Sumber daya

Catatan kaki

Berita + Insight AI terbaru