Model melewati token melalui jaringan transformator. Model transformator, diperkenalkan pada tahun 2017, berguna karena mekanisme perhatian diri yang memungkinkan mereka untuk “memperhatikan” token yang berbeda pada saat yang berbeda. Teknik ini adalah pusat transformator dan inovasi utamanya. Perhatian diri berguna, sebagian karena memungkinkan model AI untuk menghitung hubungan dan dependensi di antara token, terutama token yang berjauhan satu sama lain dalam teks. Arsitektur transformator juga memungkinkan paralelisasi, membuat proses ini jauh lebih efisien daripada metode sebelumnya. Kualitas ini memungkinkan LLM untuk menangani kumpulan data besar yang belum pernah terjadi sebelumnya.
Setelah teks dibagi menjadi token, setiap token dipetakan ke vektor angka yang disebut penanaman. Neural networks terdiri dari lapisan neuron buatan, di mana setiap neuron melakukan operasi matematika. Transformator terdiri atas banyak lapisan ini dan penanaman agak disesuaikan pada tiap lapisan, sehingga representasi di antara berbagai lapisan lebih kaya dari segi konteks.
Tujuan dari proses ini adalah agar model dapat mempelajari asosiasi semantik di antara kata-kata, sehingga kata-kata seperti "gonggongan" dan "anjing" tampak berada lebih dekat dalam ruang vektor dalam teks tentang anjing daripada "gonggongan" dan "pohon", berdasarkan kata-kata yang berhubungan dengan anjing di sekitarnya dalam teks tersebut. Transformator juga menambahkan pengodean posisi yang memberikan informasi pada setiap token tentang tempatnya dalam urutan.
Untuk menghitung perhatian, setiap penanaman diproyeksikan ke dalam tiga vektor berbeda menggunakan matriks bobot yang dipelajari: kueri, kunci, dan nilai. Kueri menunjukkan apa yang "dicari" oleh token tertentu, kunci menunjukkan informasi yang dikandung setiap token, dan nilai "menghasilkan" informasi dari setiap vektor kunci, yang diskalakan dengan bobot perhatian masing-masing.
Skor penyelarasan kemudian dihitung sebagai kesamaan antara kueri dan kunci. Setelah dinormalisasi menjadi bobot perhatian skor ini menentukan berapa banyak dari setiap vektor nilai yang mengalir ke representasi token saat ini. Proses ini memungkinkan model untuk secara fleksibel berfokus pada konteks yang relevan sekaligus mengabaikan token yang kurang penting (seperti "pohon").
Jadi, perhatian diri menciptakan koneksi “tertimbang” di antara semua token dengan lebih efisien daripada arsitektur sebelumnya. Model ini memberikan bobot pada setiap hubungan di antara token. LLM dapat memiliki miliaran atau triliunan bobot ini yang merupakan salah satu jenis parameter LLM, variabel konfigurasi internal dari model machine learning yang mengontrol bagaimana ia memproses data dan membuat prediksi. Jumlah parameter mengacu pada berapa banyak variabel ini terdapat dalam sebuah model, dengan beberapa LLM berisi miliaran parameter. Apa yang disebut model bahasa kecil berukuran lebih kecil dalam hal skala dan ruang lingkup dengan parameter yang relatif sedikit, membuatnya cocok untuk penerapan pada perangkat yang lebih kecil atau di lingkungan dengan sumber daya terbatas.
Selama pelatihan, model membuat prediksi pada jutaan contoh yang diambil dari data pelatihannya dan fungsi kesalahan mengukur kesalahan dari setiap prediksi. Melalui siklus berulang dalam membuat prediksi dan kemudian memperbarui bobot model melalui propagasi balik dan penurunan gradien, model "mempelajari" bobot dalam lapisan yang menghasilkan vektor kueri, kunci, dan nilai.
Setelah bobot tersebut cukup dioptimalkan, mereka dapat mengambil penanaman vektor asli dari token apa pun dan menghasilkan vektor kueri, kunci, dan nilai untuknya yang, ketika berinteraksi dengan vektor yang dihasilkan untuk semua token lain, akan menghasilkan skor penyelarasan “lebih baik” yang pada gilirannya menghasilkan bobot perhatian yang membantu model menghasilkan output yang lebih baik. Hasil akhirnya adalah model yang mempelajari pola dalam tata bahasa, fakta, struktur penalaran, gaya penulisan, dan banyak lagi.