Apa yang dimaksud dengan model transformer?

Apa yang dimaksud dengan model transformer?

Model transformer adalah jenis model pembelajaran mendalam yang diperkenalkan pada tahun 2017. Model-model ini dengan cepat menjadi fundamental dalam pemrosesan bahasa alami (NLP), dan telah diterapkan pada berbagai tugas dalam machine learning dan kecerdasan buatan.

Model ini pertama kali dijelaskan dalam makalah tahun 2017 yang berjudul "Attention is All You Need" oleh Ashish Vaswani, sebuah tim di Google Brain, dan sebuah kelompok dari University of Toronto. Penerbitan makalah ini dianggap sebagai momen penting dalam bidang ini, mengingat betapa luasnya penggunaan transformer dalam aplikasi seperti pelatihan LLM.

Model ini dapat menerjemahkan teks dan ucapan hampir secara real-time. Misalnya, ada aplikasi yang sekarang memungkinkan wisatawan untuk berkomunikasi dengan penduduk setempat di jalan dalam bahasa utama mereka. Mereka membantu peneliti lebih memahami DNA dan mempercepat desain obat. Mereka dapat mendeteksi anomali dan mencegah penipuan di bidang keuangan dan keamanan. Vision transformer juga digunakan untuk tugas-tugas visi komputer.

Alat pembuatan teks ChatGPT yang populer dari OpenAI memanfaatkan arsitektur transformer untuk prediksi, ringkasan, menjawab pertanyaan, dan banyak lagi, karena memungkinkan model untuk fokus pada segmen teks input yang paling relevan. “GPT” terlihat di berbagai versi alat (mis. GPT-2, GPT-3) adalah singkatan dari “transformator pra-terlatih generatif.” Alat AI generatif berbasis teks seperti ChatGPT mendapat manfaat dari model transformator karena mereka dapat lebih mudah memprediksi kata berikutnya dalam urutan teks, berdasarkan kumpulan data yang besar dan kompleks.

Model BERT, atau Representasi Encoder Bidirectional dari Transformers, didasarkan pada arsitektur transformator. Pada tahun 2019, BERT digunakan untuk hampir semua hasil penelusuran Google berbahasa Inggris, dan telah diluncurkan ke lebih dari 70 bahasa lainnya.1

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Apa yang membedakan model transformator?

Inovasi utama dari model transformator tidak harus bergantung pada jaringan saraf berulang (RNN) atau jaringan saraf convolutional (CNN), pendekatan jaringan saraf yang memiliki kelemahan signifikan. Transformers memproses urutan input secara paralel, sehingga sangat efisien untuk pelatihan dan inferensi — karena Anda tidak bisa hanya mempercepat dengan menambahkan lebih banyak GPU. Model transformator membutuhkan waktu pelatihan yang lebih sedikit daripada arsitektur jaringan saraf berulang sebelumnya seperti memori jangka pendek panjang (LSTM).

RNN dan LSTM masing-masing berasal dari tahun 1920-an dan 1990-an. Teknik-teknik ini menghitung setiap komponen input secara berurutan (mis. kata demi kata), sehingga komputasi bisa memakan waktu lama. Terlebih lagi, kedua pendekatan tersebut memiliki keterbatasan dalam mempertahankan konteks ketika "jarak" antara bagian informasi dalam suatu input panjang.

Mixture of Experts | Podcast

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Dua inovasi besar

Ada dua inovasi utama yang dibawa model transformator. Pertimbangkan dua inovasi ini dalam konteks memprediksi teks.

  1. Enkode posisi: Alih-alih melihat setiap kata sesuai urutan kemunculannya dalam kalimat, nomor unik ditetapkan untuk setiap kata. Hal ini memberikan informasi tentang posisi setiap token (bagian dari input seperti kata atau subkata dalam NLP) dalam urutan, yang memungkinkan model untuk mempertimbangkan informasi sekuensial urutan.

  2. Perhatian mandiri: Perhatian adalah mekanisme yang menghitung bobot setiap kata dalam sebuah kalimat karena kaitannya dengan setiap kata lain dalam kalimat tersebut, sehingga model dapat memprediksi kata-kata yang kemungkinan besar akan digunakan secara berurutan. Pemahaman ini dipelajari seiring waktu saat model dilatih pada banyak data. Mekanisme perhatian mandiri memungkinkan setiap kata untuk memperhatikan setiap kata lain dalam urutan secara paralel, dengan mempertimbangkan pentingnya kata tersebut untuk token saat ini. Dengan cara ini, dapat dikatakan bahwa model machine learning dapat “mempelajari” aturan tata bahasa, berdasarkan probabilitas statistik tentang bagaimana kata-kata biasanya digunakan dalam suatu bahasa.

Bagaimana cara kerja model transformator?

Model transformator bekerja dengan memproses data input, yang dapat berupa urutan token atau data terstruktur lainnya, melalui serangkaian lapisan yang berisi mekanisme perhatian diri dan jaringan saraf feedforward. Ide inti di balik cara kerja model transformator dapat dipecah menjadi beberapa langkah kunci.

Mari kita bayangkan bahwa Anda perlu mengubah kalimat bahasa Inggris menjadi bahasa Prancis. Ini adalah langkah-langkah yang perlu Anda ambil untuk menyelesaikan tugas ini dengan model transformator.

  1. Penyematan input: Kalimat input pertama-tama diubah menjadi representasi numerik yang disebut penyematan. Ini menangkap makna semantik dari token dalam urutan input. Untuk urutan kata, penyematan ini dapat dipelajari selama pelatihan atau diperoleh dari penyematan kata yang telah dilatih sebelumnya.

  2. Enkode posisi: Enkode posisi biasanya diperkenalkan sebagai sekumpulan nilai atau vektor tambahan yang ditambahkan ke penyematan token sebelum dimasukkan ke dalam model transformator. Enkode posisi ini memiliki pola khusus yang mengenkode informasi posisi.

  3. Perhatian multi-kepala: Perhatian mandiri beroperasi di beberapa “kepala perhatian” untuk menangkap berbagai jenis hubungan antar token. Fungsi Softmax, sejenis fungsi aktivasi, digunakan untuk menghitung bobot perhatian dalam mekanisme perhatian mandiri.

  4. Normalisasi lapisan dan koneksi residual: Model ini menggunakan normalisasi lapisan dan koneksi sisa untuk menstabilkan dan mempercepat pelatihan.

  5. Feedforward neural networks: Output dari lapisan perhatian mandiri dilewatkan melalui lapisan feedforward. Jaringan ini menerapkan transformasi non-linear pada representasi token, yang memungkinkan model untuk menangkap pola dan hubungan yang kompleks dalam data.

  6. Lapisan bertumpuk: Transformer biasanya terdiri dari beberapa lapisan yang ditumpuk di atas satu sama lain. Setiap lapisan memproses output dari lapisan sebelumnya, secara bertahap menyempurnakan representasi. Penumpukan beberapa lapisan memungkinkan model untuk menangkap fitur hierarkis dan abstrak dalam data.

  7. Lapisan output: Dalam tugas urutan-ke-urutan seperti terjemahan mesin neural, modul decoder terpisah dapat ditambahkan di atas encoder untuk menghasilkan urutan output.

  8. Pelatihan: Model transformator dilatih menggunakan pembelajaran terawasi, di mana model tersebut belajar meminimalkan fungsi kerugian yang mengukur perbedaan antara prediksi model dan kebenaran dasar untuk tugas yang diberikan. Pelatihan biasanya melibatkan teknik pengoptimalan seperti Adam atau penurunan gradien stokastik (SGD).

  9. Inferensi: Setelah pelatihan, model dapat digunakan untuk menyimpulkan data baru. Selama inferensi, urutan input dilewatkan melalui model yang telah dilatih sebelumnya, dan model tersebut menghasilkan prediksi atau representasi untuk tugas yang diberikan.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki

1 Google’s BERT Rolls Out Worldwide (tautan berada di luar ibm.com), Search Engine Journal, 9 Desember 2019