El modelo pasa los tokens a través de una red de transformadores. Los modelos de transformador, introducidos en 2017, son útiles debido a su mecanismo de autoatención, que les permite "prestar atención" a diferentes tokens en diferentes momentos. Esta técnica es la pieza central del transformador y su principal innovación. La autoatención es útil en parte porque permite que el modelo de IA calcule las relaciones y dependencias entre los tokens, especialmente los que están distantes entre sí en el texto. Las arquitecturas del transformador también permiten la paralelización, lo que hace que el proceso sea mucho más eficiente que los métodos anteriores. Estas cualidades permitieron a los LLM manejar grandes conjuntos de datos sin precedentes.
Una vez que el texto se divide en tokens, cada token se asigna a un vector de números llamado embedding. Las redes neuronales consisten en capas de neuronas artificiales, donde cada neurona realiza una operación. Los transformadores constan de muchas de estas capas, y en cada una de ellas, los embeddings se ajustan ligeramente, convirtiéndose en representaciones contextuales más ricas de capa a capa.
El objetivo de este proceso es que el modelo aprenda asociaciones semánticas entre palabras, de modo que palabras como "ladrar" y "perro" aparezcan más juntas en el espacio vectorial en un ensayo sobre perros que "ladrar" y "árbol", según las palabras circundantes relacionadas con perros en el ensayo. Los transformadores también añaden codificaciones posicionales, que dan a cada token información sobre su lugar en la secuencia.
Para calcular la atención, cada embedding se proyecta en tres vectores distintos mediante matrices de ponderación aprendidas: una consulta, una clave y un valor. La consulta representa lo que "busca" un token determinado, la clave representa la información que contiene cada token y el valor "devuelve" la información de cada vector clave, escalada por su respectivo peso de atención.
A continuación, las puntuaciones de alineación se calculan como la similitud entre consultas y claves. Estas puntuaciones, una vez normalizadas en ponderaciones de atención, determinan cuánto de cada vector de valor fluye hacia la representación del token actual. Este proceso permite que el modelo se centre de forma flexible en el contexto relevante mientras ignora tokens menos importantes (como "árbol").
Por lo tanto,la autoatención crea conexiones "ponderadas" entre todos los tokens de manera más eficiente que las arquitecturas anteriores. El modelo asigna ponderaciones a cada relación entre los tokens. Los LLM pueden tener miles de millones o billones de estos pesos, que son un tipo de parámetro LLM, las variables de configuración internas de un modelo de machine learning que controlan cómo procesa los datos y realiza predicciones. El número de parámetros se refiere a cuántas de estas variables existen en un modelo, y algunos LLM contienen miles de millones de parámetros. Los llamados modelos de lenguaje pequeño son de menor escala y alcance, con relativamente pocos parámetros, lo que los hace adecuados para su implementación en dispositivos más pequeños o en entornos con recursos limitados.
Durante el entrenamiento, el modelo hace predicciones a través de millones de ejemplos extraídos de sus datos de entrenamiento, y una función de pérdida cuantifica el error de cada predicción. A través de un ciclo iterativo de hacer predicciones y luego actualizar los pesos del modelo mediante retropropagación y descenso de gradiente, el modelo "aprende" los pesos en las capas que producen los vectores de consulta, clave y valor.
Una vez que esas ponderaciones están suficientemente optimizadas, pueden tomar el embedding vectorial original de cualquier token y producir vectores de consulta, clave y valor para él que, al interactuar con los vectores generados para todos los demás tokens, producirán puntuaciones de alineación "mejores". que a su vez dan como resultado ponderaciones de atención que ayudan al modelo a producir mejores resultados. El resultado final es un modelo que ha aprendido patrones en gramática, hechos, estructuras de razonamiento, estilos de escritura y más.