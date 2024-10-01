Al igual que el codificador, el decodificador se compone de una capa de autoatención y una red de retroalimentación. Entre estos, el decodificador contiene una capa de enmascaramiento de atención de múltiples cabezales. Esto marca la diferencia entre el codificador y el decodificador. Mientras que el codificador genera incorporaciones de token contextualizadas simultáneamente, la capa de atención multicabezal del decodificador utiliza un enmascaramiento autorregresivo.

Primero, el decodificador recibe el vector de contexto del codificador. El decodificador utiliza estas incorporaciones posicionales para calcular las puntuaciones de atención para cada token. Estas puntuaciones de atención determinan en qué medida cada token de la entrada afectará a los tokens posteriores; en otras palabras, las puntuaciones determinan cuánto peso tiene cada token en las determinaciones de otros tokens al generar resultados.

Sin embargo, una característica importante de esto es que el decodificador no utilizará tokens futuros para determinar tokens anteriores en esa misma secuencia. La resultados generados por cada token dependen solo de los tokens anteriores; en otras palabras, al generar los resultados de un token, el decodificador no considera las siguientes palabras o tokens después del actual. Como es el caso de muchas técnicas de inteligencia artificial, esto tiene como objetivo imitar la comprensión convencional de cómo los humanos procesan la información, específicamente el lenguaje. Este enfoque del procesamiento de la información se denomina autorregresivo.7