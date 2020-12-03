Model bahasa memperkirakan probabilitas kemunculan kata-kata dalam kalimat, atau kalimat itu sendiri. Dengan demikian, mereka menjadi blok bangunan penting dalam berbagai aplikasi NLP. Namun, mereka sering membutuhkan banyak data pelatihan agar efektif untuk tugas dan domain tertentu.

Model bahasa pembelajaran mendalam masif dirancang untuk mengatasi masalah data pelatihan yang meluas ini. Mereka telah dilatih menggunakan sejumlah besar data yang tidak dianotasi untuk menyediakan model pembelajaran mendalam dengan tujuan umum. Dengan menyempurnakan model pra-pelatihan ini, pengguna hilir dapat membuat model khusus tugas dengan kumpulan data pelatihan beranotasi yang lebih kecil (teknik yang disebut pembelajaran transfer). Model-model ini mewakili terobosan dalam NLP: sekarang hasil mutakhir dapat dicapai dengan kumpulan data pelatihan yang lebih kecil.

Sampai saat ini, model bahasa NLP yang canggih adalah model RNN. Ini berguna untuk tugas-tugas berurutan seperti ringkasan abstraktif, terjemahan mesin, dan pembuatan bahasa alami umum. Model RNN memproses kata-kata secara berurutan, dalam urutan kemunculannya dalam konteks, satu kata pada satu waktu. Akibatnya, model-model ini sulit untuk disejajarkan dan buruk dalam mempertahankan hubungan kontekstual di seluruh input yang panjang. Seperti yang telah kita bahas di posting sebelumnya, dalam konteks NLP adalah kuncinya.

Transformer, model yang diperkenalkan pada tahun 2017, melewati masalah ini. Transformer (seperti BERT dan GPT) menggunakan mekanisme perhatian, yang “memperhatikan” kata-kata yang paling berguna dalam memprediksi kata berikutnya dalam kalimat. Dengan mekanisme perhatian ini, Transformers memproses urutan input kata-kata sekaligus, dan mereka memetakan dependensi yang relevan antara kata-kata terlepas dari seberapa jauh kata-kata muncul dalam teks. Hasilnya, Transformer sangat dapat disejajarkan, dapat melatih model yang jauh lebih besar dengan kecepatan yang lebih cepat, dan menggunakan petunjuk kontekstual untuk memecahkan banyak masalah ambiguitas yang mengganggu teks.

Transformer Individu juga memiliki keunggulan uniknya sendiri. Hingga tahun ini, BERT adalah model NLP pembelajaran mendalam yang paling populer, mencapai hasil mutakhir di banyak tugas NLP.

Dilatih pada 2,5 miliar kata, keuntungan utamanya adalah penggunaan pembelajaran dua arah untuk mendapatkan konteks kata-kata dari konteks kiri ke kanan dan konteks kanan ke kiri secara bersamaan, pendekatan pelatihan dua arah BERT dioptimalkan untuk memprediksi kata-kata bertopeng (LM tersamar) dan mengungguli pelatihan kiri-ke-kanan setelah sejumlah kecil langkah pra-pelatihan. Selama proses pelatihan model, pelatihan Next Sentence Prediction (NSP) memungkinkan model untuk memahami bagaimana kalimat berhubungan satu sama lain, jika kalimat B harus mendahului atau mengikuti kalimat A. Akibatnya, ia dapat memperoleh lebih banyak konteks. Misalnya, dapat memahami makna semantik bank dalam kalimat berikut: “Angkat dayung Anda ketika Anda sampai di tepi sungai” dan “Bank mengirim kartu debit baru.” Untuk memahami hal ini, ia menggunakan petunjuk kartu debit kiri-ke-kanan dan kartu debit kanan-ke-kiri.

Tidak seperti model BERT, model GPT bersifat searah. Keuntungan utama dari model GPT adalah volume data yang mereka latih sebelumnya: GPT-3, model GPT generasi ketiga, dilatih pada 175 miliar parameter, sekitar 10 kali ukuran model sebelumnya. Model pra-pelatihan yang benar-benar besar ini berarti bahwa pengguna dapat menyempurnakan tugas NLP dengan data yang sangat sedikit untuk menyelesaikan tugas-tugas baru. Sementara Transformers secara umum telah mengurangi jumlah data yang dibutuhkan untuk melatih model, GPT-3 memiliki keunggulan berbeda dibandingkan BERT karena membutuhkan lebih sedikit data untuk melatih model.

Misalnya, dengan hanya 10 kalimat, model telah diajarkan menulis esai tentang mengapa manusia tidak perlu takut pada AI. (Namun, kualitas esai bentuk bebas ini bervariasi, menunjukkan keterbatasan teknologi saat ini.)