Come prevedibile, l'architettura encoder-decoder ha molte varianti, ognuna con i propri casi d'uso principali nella data science e machine learning.

Solo encoderQuesti modelli (descritti anche come auto-encoder) utilizzano solo lo stack di codificatori, evitando i decoder. Tali modelli non hanno quindi una modellazione mascherata autoregressiva e hanno accesso a tutti i token nel testo di input iniziale. Pertanto, sono descritti come bidirezionali, in quanto utilizzano tutti i token circostanti, sia precedenti che successivi, per fare previsioni per un determinato token. I modelli di encoder più noti sono la famiglia di modelli BERT, come BERT,9 RoBERTa,10 ed ELECTRA,11, nonché i modelli IBM® Slate. I modelli solo encoder vengono spesso utilizzati per attività che richiedono la comprensione di un intero input di testo, come la classificazione del testo o la named entity recognition.

Solo decoderQuesti modelli (detti anche modelli autoregressivi) utilizzano solo lo stack di decodifica, rinunciando a qualsiasi encoder. Pertanto, quando si effettuano previsioni sui token, i livelli di attenzione del modello possono accedere solo ai token che precedono il token in esame. I modelli solo decoder vengono spesso utilizzati per attività di generazione di testo come la risposta alle domande, la scrittura di codice o chatbot come ChatGPT. Un esempio di modello solo decoder è la famiglia di foundation model IBM® Granite.12