Tradicionalmente, los modelos, como las redes neuronales recurrentes o las memorias largas a corto plazo (LSTM), tienen un mecanismo incorporado que maneja el orden de las palabras. Las RNN y LSTM procesan entradas secuencialmente, un token a la vez, memorizando todas las posiciones de las palabras en una secuencia. En otras palabras, el vector de n dimensiones, también llamado "vector de entrada", se procesa uno tras otro, aprendiendo órdenes de forma inherente. Por el contrario, otras arquitecturas que se benefician de las redes neuronales convolucionales (CNN) o transformadores (Vaswani et al. 2017) no conservan el orden de las palabras y procesan tokens en paralelo. Por lo tanto, necesitamos implementar un mecanismo que pueda representar explícitamente el orden de las palabras en una secuencia, una técnica conocida como codificación posicional. La codificación posicional permite que el transformador retenga información del orden de las palabras, lo que permite la paralelización y el entrenamiento eficiente del modelo. A menudo se pueden encontrar implementaciones de codificación posicional en GitHub.