Como era de esperar, la arquitectura de codificador-decodificador tiene muchas variantes, cada una con sus propios casos de uso principales en ciencia de datos y machine learning.
Solo codificador. Estos modelos (también descritos como autocodificadores) utilizan solo la pila de codificadores, evitando los decodificadores. Por lo tanto, dichos modelos carecen de modelado autorregresivo enmascarado y tienen acceso a todos los tokens en la entrada inicial. Como tales, estos modelos se describen como bidireccionales, ya que utilizan todos los tokens circundantes, tanto anteriores como posteriores, para hacer predicciones para un token determinado. Los modelos de codificador más conocidos son la familia de modelos BERT, como BERT,9 RoBERTa,10 y ELECTRA,11 así como los modelos IBM® Slate. Los modelos de solo codificador a menudo se utilizan para tareas que requieren comprender una entrada completa, como la clasificación de texto o el reconocimiento de entidades nombradas.
Solo decodificador. Estos modelos (también llamados modelos autorregresivos) utilizan solo la pila de decodificadores, prescindiendo de cualquier codificador. Por lo tanto, al hacer predicciones de tokens, las capas de atención del modelo solo pueden acceder a los tokens que preceden al token en consideración. Los modelos de solo decodificadores se utilizan a menudo para tareas de generación de texto, como respuesta a preguntas, escritura de código o chatbots como ChatGPT. Un ejemplo de modelo de solo decodificador es la familia IBM® Granite de modelos fundacionales.12