Model transformer adalah jenis model pembelajaran mendalam yang diperkenalkan pada tahun 2017. Model-model ini dengan cepat menjadi fundamental dalam pemrosesan bahasa alami (NLP), dan telah diterapkan pada berbagai tugas dalam machine learning dan kecerdasan buatan.
Model ini pertama kali dijelaskan dalam makalah tahun 2017 yang berjudul "Attention is All You Need" oleh Ashish Vaswani, sebuah tim di Google Brain, dan sebuah kelompok dari University of Toronto. Penerbitan makalah ini dianggap sebagai momen penting dalam bidang ini, mengingat betapa luasnya penggunaan transformer dalam aplikasi seperti pelatihan LLM.
Model ini dapat menerjemahkan teks dan ucapan hampir secara real-time. Misalnya, ada aplikasi yang sekarang memungkinkan wisatawan untuk berkomunikasi dengan penduduk setempat di jalan dalam bahasa utama mereka. Mereka membantu peneliti lebih memahami DNA dan mempercepat desain obat. Mereka dapat mendeteksi anomali dan mencegah penipuan di bidang keuangan dan keamanan. Vision transformer juga digunakan untuk tugas-tugas visi komputer.
Alat pembuatan teks ChatGPT yang populer dari OpenAI memanfaatkan arsitektur transformer untuk prediksi, ringkasan, menjawab pertanyaan, dan banyak lagi, karena memungkinkan model untuk fokus pada segmen teks input yang paling relevan. “GPT” terlihat di berbagai versi alat (mis. GPT-2, GPT-3) adalah singkatan dari “transformator pra-terlatih generatif.” Alat AI generatif berbasis teks seperti ChatGPT mendapat manfaat dari model transformator karena mereka dapat lebih mudah memprediksi kata berikutnya dalam urutan teks, berdasarkan kumpulan data yang besar dan kompleks.
Model BERT, atau Representasi Encoder Bidirectional dari Transformers, didasarkan pada arsitektur transformator. Pada tahun 2019, BERT digunakan untuk hampir semua hasil penelusuran Google berbahasa Inggris, dan telah diluncurkan ke lebih dari 70 bahasa lainnya.1
Inovasi utama dari model transformator tidak harus bergantung pada jaringan saraf berulang (RNN) atau jaringan saraf convolutional (CNN), pendekatan jaringan saraf yang memiliki kelemahan signifikan. Transformers memproses urutan input secara paralel, sehingga sangat efisien untuk pelatihan dan inferensi — karena Anda tidak bisa hanya mempercepat dengan menambahkan lebih banyak GPU. Model transformator membutuhkan waktu pelatihan yang lebih sedikit daripada arsitektur jaringan saraf berulang sebelumnya seperti memori jangka pendek panjang (LSTM).
RNN dan LSTM masing-masing berasal dari tahun 1920-an dan 1990-an. Teknik-teknik ini menghitung setiap komponen input secara berurutan (mis. kata demi kata), sehingga komputasi bisa memakan waktu lama. Terlebih lagi, kedua pendekatan tersebut memiliki keterbatasan dalam mempertahankan konteks ketika "jarak" antara bagian informasi dalam suatu input panjang.
Ada dua inovasi utama yang dibawa model transformator. Pertimbangkan dua inovasi ini dalam konteks memprediksi teks.
Enkode posisi: Alih-alih melihat setiap kata sesuai urutan kemunculannya dalam kalimat, nomor unik ditetapkan untuk setiap kata. Hal ini memberikan informasi tentang posisi setiap token (bagian dari input seperti kata atau subkata dalam NLP) dalam urutan, yang memungkinkan model untuk mempertimbangkan informasi sekuensial urutan.
Perhatian mandiri: Perhatian adalah mekanisme yang menghitung bobot setiap kata dalam sebuah kalimat karena kaitannya dengan setiap kata lain dalam kalimat tersebut, sehingga model dapat memprediksi kata-kata yang kemungkinan besar akan digunakan secara berurutan. Pemahaman ini dipelajari seiring waktu saat model dilatih pada banyak data. Mekanisme perhatian mandiri memungkinkan setiap kata untuk memperhatikan setiap kata lain dalam urutan secara paralel, dengan mempertimbangkan pentingnya kata tersebut untuk token saat ini. Dengan cara ini, dapat dikatakan bahwa model machine learning dapat “mempelajari” aturan tata bahasa, berdasarkan probabilitas statistik tentang bagaimana kata-kata biasanya digunakan dalam suatu bahasa.
Model transformator bekerja dengan memproses data input, yang dapat berupa urutan token atau data terstruktur lainnya, melalui serangkaian lapisan yang berisi mekanisme perhatian diri dan jaringan saraf feedforward. Ide inti di balik cara kerja model transformator dapat dipecah menjadi beberapa langkah kunci.
Mari kita bayangkan bahwa Anda perlu mengubah kalimat bahasa Inggris menjadi bahasa Prancis. Ini adalah langkah-langkah yang perlu Anda ambil untuk menyelesaikan tugas ini dengan model transformator.
Penyematan input: Kalimat input pertama-tama diubah menjadi representasi numerik yang disebut penyematan. Ini menangkap makna semantik dari token dalam urutan input. Untuk urutan kata, penyematan ini dapat dipelajari selama pelatihan atau diperoleh dari penyematan kata yang telah dilatih sebelumnya.
Enkode posisi: Enkode posisi biasanya diperkenalkan sebagai sekumpulan nilai atau vektor tambahan yang ditambahkan ke penyematan token sebelum dimasukkan ke dalam model transformator. Enkode posisi ini memiliki pola khusus yang mengenkode informasi posisi.
Perhatian multi-kepala: Perhatian mandiri beroperasi di beberapa “kepala perhatian” untuk menangkap berbagai jenis hubungan antar token. Fungsi Softmax, sejenis fungsi aktivasi, digunakan untuk menghitung bobot perhatian dalam mekanisme perhatian mandiri.
Normalisasi lapisan dan koneksi residual: Model ini menggunakan normalisasi lapisan dan koneksi sisa untuk menstabilkan dan mempercepat pelatihan.
Feedforward neural networks: Output dari lapisan perhatian mandiri dilewatkan melalui lapisan feedforward. Jaringan ini menerapkan transformasi non-linear pada representasi token, yang memungkinkan model untuk menangkap pola dan hubungan yang kompleks dalam data.
Lapisan bertumpuk: Transformer biasanya terdiri dari beberapa lapisan yang ditumpuk di atas satu sama lain. Setiap lapisan memproses output dari lapisan sebelumnya, secara bertahap menyempurnakan representasi. Penumpukan beberapa lapisan memungkinkan model untuk menangkap fitur hierarkis dan abstrak dalam data.
Lapisan output: Dalam tugas urutan-ke-urutan seperti terjemahan mesin neural, modul decoder terpisah dapat ditambahkan di atas encoder untuk menghasilkan urutan output.
Pelatihan: Model transformator dilatih menggunakan pembelajaran terawasi, di mana model tersebut belajar meminimalkan fungsi kerugian yang mengukur perbedaan antara prediksi model dan kebenaran dasar untuk tugas yang diberikan. Pelatihan biasanya melibatkan teknik pengoptimalan seperti Adam atau penurunan gradien stokastik (SGD).
Inferensi: Setelah pelatihan, model dapat digunakan untuk menyimpulkan data baru. Selama inferensi, urutan input dilewatkan melalui model yang telah dilatih sebelumnya, dan model tersebut menghasilkan prediksi atau representasi untuk tugas yang diberikan.
Dapatkan pemahaman mendalam tentang jaringan neural, fungsi dasarnya dan dasar-dasar untuk membangunnya.
IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja tinggi, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara agar Anda sukses menerapkannya.
Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.
Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.
Pelajari bagaimana CEO dapat menyeimbangkan nilai generatif AI yang dapat diciptakan dengan investasi yang dibutuhkan dan risiko yang ditimbulkannya.
Ingin mendapatkan laba yang lebih baik atas investasi AI Anda? Pelajari bagaimana meningkatkan AI gen di berbagai bidang utama mendorong perubahan dengan membantu para pemikir terbaik Anda membangun dan memberikan solusi baru yang inovatif.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
1 Google’s BERT Rolls Out Worldwide (tautan berada di luar ibm.com), Search Engine Journal, 9 Desember 2019