Sesuai perkiraan, arsitektur encoder-decoder memiliki banyak varian, masing-masing dengan contoh penggunaan utama mereka sendiri dalam ilmu data dan machine learning.
Khusus encoder. Semua model ini (digambarkan juga sebagai encoder otomatis) hanya menggunakan tumpukan encoder, menghindari decoder. Model seperti itu dengan demikian tidak memiliki pemodelan samar autoregresif dan memiliki akses ke semua token dalam teks input awal. Dengan demikian, model ini digambarkan sebagai memiliki dua arah karena menggunakan semua token di sekitarnya, baik token sebelumnya maupun berikutnya, untuk membuat prediksi bagi token yang diberikan. Model encoder yang terkenal adalah keluarga model BERT, seperti BERT,9 RoBERTa,10 dan ELECTRA11, serta model IBM Slate. Model khusus encoder sering digunakan untuk tugas yang memerlukan pemahaman seluruh input teks, seperti klasifikasi teks atau named entity recognition.
Khusus decoder. Model ini (disebut juga model autoregresif) hanya menggunakan tumpukan decoder, mengesampingkan encoder apa pun. Dengan demikian, ketika membuat prediksi token, lapisan perhatian model hanya dapat mengakses token yang mendahului token yang sedang dipertimbangkan. Model khusus decoder sering digunakan untuk tugas pembuatan teks seperti menjawab pertanyaan, menulis kode, atau chatbot seperti ChatGPT. Contoh model khusus decoder adalah model dasar dari keluarga IBM® Granite.12