¿Qué es un modelo de transformador?

Autores

Staff Editor, AI Models

IBM Think

Senior Staff Writer, AI Models

IBM Think

¿Qué es un modelo de transformador?

El modelo transformador es un tipo de arquitectura de redes neuronales que se destaca en el procesamiento de datos secuenciales, más prominentemente asociados con modelos de lenguaje de gran tamaño (LLM). Los modelos de transformadores también han alcanzado un rendimiento de élite en otros campos de la inteligencia artificial (IA), como la visión artificial, el reconocimiento de voz y la previsión de series temporales.

La arquitectura transformadora se describió por primera vez en el artículo seminal de 2017 "Attention is All You Need" de Vaswani y otros, que ahora se considera un momento decisivo en el aprendizaje profundo.

Introducidos originalmente como una evolución de los modelos secuencia a secuencia basados en redes neuronales recurrentes (RNN)utilizadas para la traducción automática, los modelos basados en transformadores han logrado avances de vanguardia en casi todas las disciplinas del machine learning (ML) desde entonces.

A pesar de su versatilidad, los modelos transformadores siguen discutiéndose con mayor frecuencia en el contexto de casos de uso de procesamiento de lenguaje natural (PLN), como chatbots, generación de texto, resumen, respuesta a preguntas y análisis de sentimientos.

BERT (o Representaciones de codificador bidireccional de transformadores), un modelo solo de codificador introducido por Google en 2019, fue un hito importante en el establecimiento de transformadores y sigue siendo la base de la mayoría de las aplicaciones modernas de incorporación de palabras, desde bases de datos vectoriales modernas hasta la búsqueda de Google.

Los LLM solo decodificadores autorregresivos, como el modelo GPT-3 (abreviatura de Generative Pre-trained Transformer) que impulsó el lanzamiento de ChatGPT de OpenAI, catalizaron la era moderna de la IA generativa (IA gen).

La capacidad de los modelos transformadores para discernir intrincadamente cómo cada parte de una secuencia de datos influye y se correlaciona con las demás también les da muchos usos multimodales.

Por ejemplo, los transformadores de visión (ViT) a menudo superan el rendimiento de las redes neuronales convolucionales (CNN) en la segmentación de imágenes, la detección de objetos y tareas relacionadas. La arquitectura del transformador también impulsa muchos modelos de difusión utilizados para la generación de imágenes, texto a voz multimodal (TTS) y modelos de lenguaje de visión (VLM).

¿Por qué son importantes los modelos de transformadores?

La característica central de los modelos de transformadores es su mecanismo de autoatención, de la cual los modelos de transformadores derivan su impresionante capacidad para detectar las relaciones (o dependencias) entre cada parte de una secuencia de entrada. A diferencia de las arquitecturas RNN y CNN que la precedieron, la arquitectura transformadora utiliza únicamente capas de atención y capas estándar de retroalimentación.

Los beneficios de la autoatención, y específicamente la técnica de atención multicabezal que emplean los modelos de transformadores para calcularla, son los que permiten a los transformadores superar el rendimiento de las RNN y CNN que anteriormente habían sido de última generación.

Antes de la introducción de los modelos de transformadores, la mayoría de las tareas de NLP dependían de redes neuronales recurrentes (neural networks). La forma en que las RNN procesan datos secuenciales es inherentemente serializada: Ingesta los elementos de una secuencia de entrada uno a la vez y en un orden específico.

Esto dificulta la capacidad de las RNN de capturar dependencias de largo alcance, lo que significa que las RNN solo pueden procesar secuencias de texto cortas de manera efectiva.
Esta deficiencia fue abordada en cierta medida con la introducción de redes de memoria a corto plazo (LSTM), pero sigue siendo una deficiencia fundamental de las RNN.

Los mecanismos de atención, por el contrario, pueden examinar una secuencia completa simultáneamente y tomar decisiones sobre cómo y cuándo enfocarse en pasos de tiempo específicos de esa secuencia.

Además de mejorar significativamente la capacidad de comprender las dependencias de largo alcance, esta cualidad de los transformadores también permite la paralelización: la capacidad de realizar muchos pasos computacionales a la vez, en lugar de hacerlo de forma serializada.

Al estar bien adaptados al paralelismo, los modelos de transformadores pueden aprovechar al máximo la potencia y velocidad que ofrecen las GPU tanto durante el entrenamiento como durante la inferencia. Esta posibilidad, a su vez, desbloqueó la oportunidad de capacitar modelos de transformadores en conjuntos de datos masivos sin precedentes mediante el aprendizaje autosupervisado.

Especialmente para los datos visuales, los transformadores también ofrecen algunos beneficios sobre las redes neuronales convolucionales. Las CNN son inherentemente locales y emplean convoluciones para procesar subconjuntos más pequeños de datos de entrada, una pieza a la vez.

Por lo tanto, las CNN también tienen dificultades para discernir dependencias de largo alcance, como las correlaciones entre palabras (en texto) o pixeles (en imágenes) que no son vecinas entre sí. Los mecanismos de atención no tienen esta limitación.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

¿Qué es la autoatención?

Comprender el concepto matemático de atención, y más específicamente la autoatención, es esencial para comprender el éxito de los modelos transformadores en tantos campos. Los mecanismos de atención son, en esencia, algoritmos diseñados para determinar a qué partes de una secuencia de datos debe “prestar atención” un modelo de IA en un momento determinado.

Considera un modelo de lenguaje que interprete el texto en inglés "on Friday, the judge issued a sentence. "

La palabra anterior “the ” sugiere que “judge ” está actuando como un sustantivo, como en persona que preside un juicio legal, en lugar de un verbo que significa evaluar o formar una opinión.
Ese contexto para la palabra “judge ” sugiere que “sentence "probablemente se refiere a una sanción legal, en lugar de una "oración" gramatical.
La palabra “issued ” implica además que “sentence ” se refiere al concepto legal, no al concepto gramatical.
Por lo tanto, al interpretar la palabra “sentence ,” el modelo debe prestar mucha atención a “judge ” y “issued. ” También debe prestar atención a la palabra “the .” Puede ignorar más o menos las otras palabras.

¿Cómo funciona la autoatención?

En términos generales, las capas de atención de un modelo transformador evalúan y utilizan el contexto específico de cada parte de una secuencia de datos en 4 pasos:

El modelo "lee" secuencias de datos sin procesar y las convierte en incorporaciones vectoriales, en las que cada elemento de la secuencia está representado por su(s) propia(s) característica(s) que reflejan numéricamente cualidades como el significado semántico.
El modelo determina similitudes, correlaciones y otras dependencias (o la falta de ellas) entre cada vector y cada vector. En la mayoría de los modelos de transformadores, la importancia relativa de un vector con respecto a otro se determina calculando el producto escalar entre cada vector. Si los vectores están bien alineados, multiplicarlos producirá un valor grande. Si no están alineados, su producto de puntos será pequeño o negativo.
Estos "puntajes de alineación" se convierten en pesos de atención. Esto se consigue empleando los puntajes de alineación como entradas a una función de activación softmax , que normaliza todos los valores a un rango entre 0-1 de manera que todos sumen un total de 1. Así, por ejemplo, asignar un peso de atención de 0 entre el "Vector A" y el "Vector B" significa que el Vector B debe ser ignorado al hacer predicciones sobre el Vector A. Asignar al Vector B un peso de atención de 1 significa que debe recibir 100% de la atención del modelo al tomar decisiones sobre el Vector A.
Estos pesos de atención se utilizan para enfatizar o restar énfasis a la influencia de elementos de entrada específicos en momentos específicos. En otras palabras, los pesos de atención ayudan a los modelos transformadores a enfocarse o ignorar información específica en un momento específico.

Antes del entrenamiento, un modelo de transformador aún no "sabe" cómo generar incorporaciones óptimas vectoriales y puntuaciones de alineación. Durante el entrenamiento, el modelo hace predicciones a través de millones de ejemplos extraídos de sus datos de entrenamiento, y una función de pérdida cuantifica el error de cada predicción.

A través de un ciclo iterativo de hacer predicciones y luego actualizar los pesos del modelo a través de la retropropagación y el descenso del gradiente , el modelo "aprende" a generar incrustaciones vectoriales, puntajes de alineación y pesos de atención que conducen a resultados precisos.

¿Cómo funcionan los modelos de transformadores?

Los modelos transformadores, como las bases de datos relacionales, generan vectores de consulta, clave y valor para cada parte de una secuencia de datos, y los utilizan para calcular los pesos de atención a través de una serie de multiplicaciones de matrices.

Las bases de datos relacionales están diseñadas para simplificar el almacenamiento y la recuperación de datos relevantes: asignan un identificador único ("clave") a cada dato, y cada clave está asociada con un valor correspondiente. El artículo “La atención es todo lo que necesitas” aplicó ese marco conceptual al procesamiento de las relaciones entre cada token en una secuencia de texto.

El vector de consulta representa la información que un token específico está "buscando". En otras palabras, el vector de consulta de un token se utiliza para calcular cómo otros tokens podrían influir en su significado, conjugación o connotaciones en contexto.
Los vectores clave representan la información que contiene cada token. La alineación entre la consulta y la clave se usa para calcular las ponderaciones de atención que reflejan su relevancia en el contexto de esa secuencia de texto.
El valor (o vector de valores) “devuelve” la información de cada vector clave, escalada por su respectivo peso de atención. Las contribuciones de claves que están fuertemente alineadas con una consulta se ponderan más; las contribuciones de las claves que no son relevantes para una consulta se ponderarán más cerca de cero.

Para un LLM, la "base de datos" del modelo es el vocabulario de tokens que ha aprendido de las muestras de texto en sus datos de entrenamiento. Su mecanismo de atención utiliza información de esta "base de datos" para comprender el contexto del lenguaje.

Tokenización y incorporación de entrada

Mientras que los caracteres ( letras, números o signos de puntuación) son la unidad base que usamos los humanos para representar el lenguaje, la unidad de lenguaje más pequeña que usan los modelos de IA es un token. A cada token se le asigna un número de identificación, y estos números de identificación (en lugar de las palabras o incluso los tokens en sí) son la forma en que los LLM navegan por su base de datos de vocabulario. Esta tokenización del lenguaje reduce significativamente la potencia computacional necesaria para procesar texto.

Para generar vectores de consulta y clave que alimenten las capas de atención del transformador, el modelo necesita una incorporación inicial de vectores sin contexto para cada token. Estas incorporaciones de token iniciales pueden aprenderse durante el entrenamiento o tomarse de un modelo de incorporación de palabras previamente entrenado.

Codificación posicional

El orden y la posición de las palabras pueden afectar significativamente sus significados semánticos. Mientras que la naturaleza serializada de las RNN conserva de forma inherente la información sobre la posición de cada token, los modelos transformadores deben agregar explícitamente información posicional para que el mecanismo de atención la considere.

Con la codificación posicional, el modelo agrega un vector de valores a la incrustación de cada token, derivado de su posición relativa, antes de que la entrada ingrese al mecanismo de atención. Cuanto más cerca estén los 2 tokens, más similares serán sus vectores posicionales y, por lo tanto, más aumentará su puntaje de alineación al agregar información posicional. De este modo, el modelo aprende a prestar más atención a los tokens cercanos.

Generación de vectores de consulta, clave y valor

Cuando se ha agregado información posicional, cada incorporación de token actualizada se utiliza para generar tres vectores nuevos. Estos vectores de consulta, clave y valor se generan al pasar las incorporaciones originales de token a través de cada una de las tres capas de Neural Networks de retroalimentación paralela que preceden a la primera capa de atención. Cada subconjunto paralelo de esa capa lineal tiene una matriz única de pesos, aprendida a través del preentrenamiento autosupervisado en un conjunto de datos masivo de texto.

Las incrustaciones se multiplican por la matriz de pesos W_Q para producir los vectores de consulta (Q), que tienen d_k dimensiones
Las incrustaciones se multiplican por la matriz de peso W_K para producir el vector clave (K), también con dimensiones d_k
Las incrustaciones se multiplican por la matriz de peso W_V para producir los vectores de valor (V), con dimensiones d_v

Un diagrama simplificado del mecanismo de atención del transformador: las incrustaciones vectoriales originales para los tokens de una entrada se multiplican por matrices de peso W, K y V para producir sus respectivos vectores W, K y V.

Un diagrama del mecanismo de atención de un modelo de transformador

Autoatención informática

La función principal del mecanismo de atención del transformador es asignar pesos de atención precisos a los emparejamientos del vector de consulta de cada token con los vectores clave de todos los demás tokens de la secuencia. Cuando se logre, puede pensar en cada tokenn $x$ ahora tiene un vector correspondiente de pesos de atención, en el que cada elemento de ese vector representa la medida en que algún otro token debería influir en él.

El vector de valor de cada token se multiplica ahora por su ponderación de atención respectivo.
Estos vectores de valores ponderados por la atención se suman. El vector resultante representa la información contextual agregada que se proporciona al token $x$ por todos los demás tokens de la secuencia.
Finalmente, el vector resultante de cambios ponderados por atención de cada token se agrega al token $x$ incorporación vectorial de codificación posposicional original de .

En esencia, $x$ La incorporación vectorial de se actualizó para reflejar mejor el contexto proporcionado por los otros tokens de la secuencia.

Atención multicabezal

Para capturar las muchas formas multifacéticas en que los tokens pueden relacionarse entre sí, los modelos transformadores implementan la atención de múltiples cabezas en múltiples bloques de atención .

Antes de introducir en la primera capa de feedforward, cada incorporación de token de entrada original se divide en subconjuntos h de tamaño uniforme. Cada pieza de la incorporación se introduce en una de las h matrices paralelas de pesos Q, K y V , cada una de las cuales se denomina cabeza de consulta, cabeza de clave o cabeza de valor. Los vectores emitidos por cada uno de estos tripletes paralelos de cabezales de consulta, clave y valor se introducen en un subconjunto correspondiente de la siguiente capa de atención, llamada cabeza de atención.

El diagrama de atención simplificado de múltiples cabezas que se hizo famoso en "Attention is All You Need"

En las capas finales de cada bloque de atención, las salidas de estos h circuitos paralelos finalmente se concatenan de nuevo antes de enviarse a la siguiente capa de retroalimentación. En la práctica, el entrenamiento de modelos da como resultado que cada circuito aprenda diferentes pesos que capturan un aspecto separado de los significados semánticos.

Las salidas “Z” de cada cabezal de atención están concatenadas entre sí. En este ejemplo, h = 8.

Conexiones residuales y normalización de capas

En algunas situaciones, la transmisión del resultado de la incorporación, actualizado contextualmente por el bloque de atención, puede provocar una pérdida inaceptable de información de la secuencia original.

Para abordatr esto, los modelos de transformadores a menudo equilibran la información contextual proporcionada por el mecanismo de atención con el significado semántico original de cada token. Después de que todos los subconjuntos actualizados de atención de la incorporación de token se hayan concatenado nuevamente, el vector actualizado se agrega a la incorporación de vector original (codificada por posición) del token. La incorporación del token original la proporciona una conexión residual entre esa capa y una capa anterior de la red.

El vector resultante se introduce en otra capa de retroalimentación lineal, donde se normaliza a un tamaño constante antes de pasar al siguiente bloque de atención. Juntas, estas medidas ayudan a preservar la estabilidad en el entrenamiento y ayudan a garantizar que el significado original del texto no se pierda a medida que los datos mover más profundamente en la Neural Networks.

Generación de resultados

Eventualmente, el modelo tiene suficiente información contextual para fundamentar sus resultados finales. La naturaleza y función de la capa de salida dependerán de la tarea específica para la que se haya diseñado el modelo de transformador.

En los LLM autorregresivos, la capa final utiliza una función softmax para determinar la probabilidad de que la siguiente palabra coincida con cada token en su "base de datos" de vocabulario. Dependiendo de los hiperparámetros de muestreo específicos , el modelo utiliza esas probabilidades para determinar el siguiente token de la secuencia de salida.

Modelos transformadores en procesamiento de lenguaje natural (PLN)

Los modelos de transformadores se asocian más comúnmente con el NLP, ya que originalmente se desarrollaron para casos de uso de traducción automática. En particular, la arquitectura transformadora dio lugar a los modelos de lenguaje de gran tamaño (LLM) que catalizaron la llegada de la IA generativa.

La mayoría de los LLM con los que el público está más familiarizado, desde modelos de código cerrado como la serie GPT de OpenAI y los modelos Claude de Anthropic hasta modelos de código abierto como Meta Llama o IBM® Granite, son LLM de solo decodificador autorregresivo.

Los LLM autorregresivos están diseñados para la generación de texto, que también se extiende naturalmente a tareas adyacentes, como el resumen y la respuesta a preguntas. Se entrenan a través del aprendizaje autosupervisado, en el que al modelo se le proporciona la primera palabra de un pasaje de texto y se le asigna la tarea de predecir iterativamente la siguiente palabra hasta el final de la secuencia.

La información proporcionada por el mecanismo de autoatención permite que el modelo extraiga el contexto de la secuencia de entrada y mantenga la coherencia y continuidad de su salida.

Los modelos de lenguaje enmascarado (MLM) codificador-decodificador, como BERT y sus muchos derivados, representan la otra rama evolutiva principal de los LLM basados en transformadores. En el entrenamiento, a un MLM se le proporciona una muestra de texto con algunos tokens enmascarados (ocultos) y se le encarga completar la información que falta.

Si bien esta metodología de capacitación es menos efectiva para la generación de texto, ayuda a los MLM a sobresalir en tareas que requieren información contextual sólida, como la traducción, la clasificación de textos y el aprendizaje de incorporación.

Modelos de transformadores en otros campos

Aunque los modelos transformadores se diseñaron originalmente para casos de uso de lenguaje natural y Continuar siendo asociados de manera más prominente, se pueden utilizar en casi cualquier situación que involucre datos secuenciales. Esto ha llevado al desarrollo de modelos basados en transformadores en otros campos, desde el ajuste fino de los LLM en sistemas multimodales hasta modelos dedicados de forecasting de series temporales y ViT para visión artificial.

Algunas modalidades de datos se adaptan más naturalmente a la representación secuencial amigable con el transformador que otras. Las series temporales, los datos de audio y video son inherentemente secuenciales, mientras que los datos de imágenes no lo son. A pesar de esto, los ViT y otros modelos basados en la atención han logrado resultados de vanguardia para muchas tareas de visión artificial, como el subtitulado de imágenes, la detección de objetos , la segmentación de imágenes y la respuesta visual a preguntas.

El uso de modelos de transformadores para datos que no se consideran convencionalmente como "secuenciales" requiere una solución conceptual para representar esos datos como una secuencia. Por ejemplo, para emplear los mecanismos de atención para comprender los datos visuales, los ViT emplean incorporaciones de parches para hacer que los datos de la imagen se puedan interpretar como secuencias.

Primero, una imagen se divide en una matriz de parches. Por ejemplo, una imagen de 224 x 224 pixeles se puede subdividir en 256 parches de 14 x 14 pixeles, lo que reduce significativamente el número de pasos computacionales necesarios para procesar la imagen.
A continuación, una capa de proyección lineal asigna cada parche a una incorporación vectorial.
La información posicional se agrega a cada una de estas incorporaciones de parches, similar a la codificación posicional descrita anteriormente en este artículo.
Estas incorporaciones de parches ahora pueden funcionar esencialmente como una secuencia de incorporaciones de tokens, lo que permite que la imagen sea interpretada por un mecanismo de atención.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

¿Qué es un modelo de transformador?

Autores

¿Qué es un modelo de transformador?

¿Por qué son importantes los modelos de transformadores?

Decodificación de la IA: Resumen semanal de noticias

¿Qué es la autoatención?

¿Cómo funciona la autoatención?

¿Cómo funcionan los modelos de transformadores?

Tokenización y incorporación de entrada

Codificación posicional

Generación de vectores de consulta, clave y valor

Autoatención informática

Atención multicabezal

Conexiones residuales y normalización de capas

Generación de resultados

Modelos transformadores en procesamiento de lenguaje natural (PLN)

Modelos de transformadores en otros campos

Recursos