El modelo pasa los tokens a través de una red transformadora. Los modelos transformadores, introducidos en 2017, son útiles debido a su mecanismo de autoatención, que les permite "prestar atención" a diferentes tokens en diferentes momentos. Esta técnica es la pieza central del transformador y su principal innovación. La autoatención es útil en parte porque permite que el modelo de IA calcule las relaciones y dependencias entre los tokens, especialmente los que están distantes entre sí en el texto. Las arquitecturas transformadoras también permiten la paralelización, lo que hace que el proceso sea mucho más eficiente que los métodos anteriores. Estas cualidades permitieron a los LLM manejar grandes conjuntos de datos sin precedentes.
Una vez que el texto se divide en tokens, cada token se asigna a un vector de números llamado incorporación. Las redes neuronales consisten en capas de neuronas artificiales, donde cada neurona realiza una operación matemática. Los transformadores constan de muchas de estas capas, y en cada una, las incorporaciones se ajustan ligeramente, convirtiéndose en representaciones contextuales más ricas de capa a capa.
El objetivo en este proceso es que el modelo aprenda asociaciones semánticas entre palabras, de modo que palabras como “ladrar” y “perro” aparezcan más juntas en el espacio vectorial en un ensayo sobre perros que “ladrar” y “árbol”, basándose en las palabras circundantes relacionadas con perros en el ensayo. Los transformadores también agregan codificaciones posicionales, que le dan a cada token información sobre su lugar en la secuencia.
Para calcular la atención, cada incorporación se proyecta en tres vectores distintos utilizando matrices de peso aprendidas: una consulta, una clave y un valor. La consulta representa lo que "busca" un token determinado, la clave representa la información que contiene cada token y el valor "devuelve" la información de cada vector clave, escalada por su respectivo peso de atención.
Luego, las puntuaciones de alineación se calculan como la similitud entre consultas y claves. Estas puntuaciones, una vez normalizadas en pesos de atención, determinan cuánto de cada vector de valor fluye hacia la representación del token actual. Este proceso permite que el modelo se centre de manera flexible en el contexto relevante mientras ignora tokens menos importantes (como "árbol").
Por lo tanto, la autoatención crea conexiones "ponderadas" entre todos los tokens de manera más eficiente que las arquitecturas anteriores. El modelo asigna pesos a cada relación entre los tokens. Los LLM pueden tener miles de millones o billones de estos pesos, que son un tipo de parámetro de LLM, las variables de configuración internas de un modelo de machine learning que controlan cómo procesa los datos y hace predicciones. El número de parámetros se refiere a cuántas de estas variables existen en un modelo, y algunos LLM contienen miles de millones de parámetros. Los llamados modelos de lenguaje pequeños son de menor escala y alcance con comparativamente pocos parámetros, lo que los hace adecuados para su despliegue en dispositivos más pequeños o en entornos con recursos limitados.
Durante el entrenamiento, el modelo hace predicciones a través de millones de ejemplos extraídos de sus datos de entrenamiento, y una función de pérdida cuantifica el error de cada predicción. A través de un ciclo iterativo de hacer predicciones y luego actualizar los pesos del modelo a través de la retropropagación y el descenso del gradiente, el modelo "aprende" los pesos en las capas que producen los vectores de consulta, clave y valor.
Una vez que esos pesos están suficientemente optimizados, son capaces de tomar la incorporación vectorial original de cualquier token y producir vectores de consulta, clave y valor para ello que, al interactuar con los vectores generados para todos los demás tokens, producirán puntajes de alineación “mejores” que a su vez resultan en pesos de atención que ayudan al modelo a producir mejores resultados. El resultado final es un modelo que ha aprendido patrones en gramática, hechos, estructuras de razonamiento, estilos de escritura y más.