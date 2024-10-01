Al igual que el codificador, el decodificador se compone de una capa de autoatención y una red de avance. Entre ellas, el decodificador contiene una capa de enmascaramiento de atención multitesta. Esto marca la diferencia entre el codificador y el decodificador. Mientras que el codificador genera embeddings de token contextualizados simultáneamente, la capa de atención multitesta del decodificador utiliza un enmascaramiento autorregresivo.

En primer lugar, el decodificador recibe el vector de contexto del codificador. El decodificador utiliza estos embeddings posicionales para calcular las puntuaciones de atención de cada token. Estas puntuaciones de atención determinan en qué medida cada token de la secuencia de entrada afectará a los tokens posteriores; en otras palabras, las puntuaciones determinan cuánto peso tiene cada token en las determinaciones de otros tokens al generar secuencias de output.

Sin embargo, una característica importante de esto es que el decodificador no utilizará tokens futuros para determinar tokens anteriores en esa misma secuencia. El output generado por cada token depende solo de los tokens anteriores; en otras palabras, al generar la output de un token, el decodificador no considera las siguientes palabras o tokens después del actual. Como es el caso de muchas técnicas de inteligencia artificial, esto tiene como objetivo imitar la comprensión convencional de cómo los humanos procesan la información, específicamente el lenguaje. Este enfoque del procesamiento de la información se denomina autorregresivo.7