Como era de esperar, la arquitectura de codificador-decodificador tiene muchas variantes, cada una con sus propios casos de uso principales en ciencia de datos y machine learning.
Solo codificador. Estos modelos (también descritos como autocodificadores) utilizan solo la pila de codificadores, evitando los decodificadores. Por lo tanto, estos modelos carecen de modelado autorregresivo enmascarado y tienen acceso a todos los tokens en la entrada inicial. Como tales, estos modelos se describen como bidireccionales, ya que utilizan todos los tokens circundantes (tanto anteriores como posteriores) para hacer predicciones para un token determinado. Los modelos de codificador más conocidos son la familia de modelos BERT, como BERT,9 RoBERTa,10 y ELECTRA,11, así como los modelos IBM Slate. Los modelos basados únicamente en codificadores se utilizan a menudo para tareas que requieren comprender todo el texto de entrada, como la clasificación de textos o el reconocimiento de entidades nombradas.
Solo decodificador. Estos modelos (también llamados modelos autorregresivos) utilizan solo la pila de decodificadores, prescindiendo de cualquier codificador. Por lo tanto, al hacer predicciones de tokens, las capas de atención del modelo solo pueden acceder a los tokens anteriores al token que se está considerando. Los modelos solo decodificadores se utilizan a menudo para tareas de generación de texto como respuesta a preguntas, escritura de código o chatbots como ChatGPT. Un ejemplo de un modelo de solo decodificador es la familia de modelos fundacionales IBM® Granite . 12