El modelo transformador es un tipo de arquitectura de redes neuronales que se destaca en el procesamiento de datos secuenciales, más prominentemente asociados con modelos de lenguaje de gran tamaño (LLM). Los modelos de transformadores también han alcanzado un rendimiento de élite en otros campos de la inteligencia artificial (IA), como la visión artificial, el reconocimiento de voz y la previsión de series temporales.
La arquitectura transformadora se describió por primera vez en el artículo seminal de 2017 "Attention is All You Need" de Vaswani y otros, que ahora se considera un momento decisivo en el aprendizaje profundo.
Introducidos originalmente como una evolución de los modelos secuencia a secuencia basados en redes neuronales recurrentes (RNN)utilizadas para la traducción automática, los modelos basados en transformadores han logrado avances de vanguardia en casi todas las disciplinas del machine learning (ML) desde entonces.
A pesar de su versatilidad, los modelos transformadores siguen discutiéndose con mayor frecuencia en el contexto de casos de uso de procesamiento de lenguaje natural (PLN), como chatbots, generación de texto, resumen, respuesta a preguntas y análisis de sentimientos.
BERT (o Representaciones de codificador bidireccional de transformadores), un modelo solo de codificador introducido por Google en 2019, fue un hito importante en el establecimiento de transformadores y sigue siendo la base de la mayoría de las aplicaciones modernas de incorporación de palabras, desde bases de datos vectoriales modernas hasta la búsqueda de Google.
Los LLM solo decodificadores autorregresivos, como el modelo GPT-3 (abreviatura de Generative Pre-trained Transformer) que impulsó el lanzamiento de ChatGPT de OpenAI, catalizaron la era moderna de la IA generativa (IA gen).
La capacidad de los modelos transformadores para discernir intrincadamente cómo cada parte de una secuencia de datos influye y se correlaciona con las demás también les da muchos usos multimodales.
Por ejemplo, los transformadores de visión (ViT) a menudo superan el rendimiento de las redes neuronales convolucionales (CNN) en la segmentación de imágenes, la detección de objetos y tareas relacionadas. La arquitectura del transformador también impulsa muchos modelos de difusión utilizados para la generación de imágenes, texto a voz multimodal (TTS) y modelos de lenguaje de visión (VLM).
La característica central de los modelos de transformadores es su mecanismo de autoatención, de la cual los modelos de transformadores derivan su impresionante capacidad para detectar las relaciones (o dependencias) entre cada parte de una secuencia de entrada. A diferencia de las arquitecturas RNN y CNN que la precedieron, la arquitectura transformadora utiliza únicamente capas de atención y capas estándar de retroalimentación.
Los beneficios de la autoatención, y específicamente la técnica de atención multicabezal que emplean los modelos de transformadores para calcularla, son los que permiten a los transformadores superar el rendimiento de las RNN y CNN que anteriormente habían sido de última generación.
Antes de la introducción de los modelos de transformadores, la mayoría de las tareas de NLP dependían de redes neuronales recurrentes (neural networks). La forma en que las RNN procesan datos secuenciales es inherentemente serializada: Ingesta los elementos de una secuencia de entrada uno a la vez y en un orden específico.
Esto dificulta la capacidad de las RNN de capturar dependencias de largo alcance, lo que significa que las RNN solo pueden procesar secuencias de texto cortas de manera efectiva.
Esta deficiencia fue abordada en cierta medida con la introducción de redes de memoria a corto plazo (LSTM), pero sigue siendo una deficiencia fundamental de las RNN.
Los mecanismos de atención, por el contrario, pueden examinar una secuencia completa simultáneamente y tomar decisiones sobre cómo y cuándo enfocarse en pasos de tiempo específicos de esa secuencia.
Además de mejorar significativamente la capacidad de comprender las dependencias de largo alcance, esta cualidad de los transformadores también permite la paralelización: la capacidad de realizar muchos pasos computacionales a la vez, en lugar de hacerlo de forma serializada.
Al estar bien adaptados al paralelismo, los modelos de transformadores pueden aprovechar al máximo la potencia y velocidad que ofrecen las GPU tanto durante el entrenamiento como durante la inferencia. Esta posibilidad, a su vez, desbloqueó la oportunidad de capacitar modelos de transformadores en conjuntos de datos masivos sin precedentes mediante el aprendizaje autosupervisado.
Especialmente para los datos visuales, los transformadores también ofrecen algunos beneficios sobre las redes neuronales convolucionales. Las CNN son inherentemente locales y emplean convoluciones para procesar subconjuntos más pequeños de datos de entrada, una pieza a la vez.
Por lo tanto, las CNN también tienen dificultades para discernir dependencias de largo alcance, como las correlaciones entre palabras (en texto) o pixeles (en imágenes) que no son vecinas entre sí. Los mecanismos de atención no tienen esta limitación.
Comprender el concepto matemático de atención, y más específicamente la autoatención, es esencial para comprender el éxito de los modelos transformadores en tantos campos. Los mecanismos de atención son, en esencia, algoritmos diseñados para determinar a qué partes de una secuencia de datos debe “prestar atención” un modelo de IA en un momento determinado.
Considera un modelo de lenguaje que interprete el texto en inglés "
En términos generales, las capas de atención de un modelo transformador evalúan y utilizan el contexto específico de cada parte de una secuencia de datos en 4 pasos:
Antes del entrenamiento, un modelo de transformador aún no "sabe" cómo generar incorporaciones óptimas vectoriales y puntuaciones de alineación. Durante el entrenamiento, el modelo hace predicciones a través de millones de ejemplos extraídos de sus datos de entrenamiento, y una función de pérdida cuantifica el error de cada predicción.
A través de un ciclo iterativo de hacer predicciones y luego actualizar los pesos del modelo a través de la retropropagación y el descenso del gradiente , el modelo "aprende" a generar incrustaciones vectoriales, puntajes de alineación y pesos de atención que conducen a resultados precisos.
Los modelos transformadores, como las bases de datos relacionales, generan vectores de consulta, clave y valor para cada parte de una secuencia de datos, y los utilizan para calcular los pesos de atención a través de una serie de multiplicaciones de matrices.
Las bases de datos relacionales están diseñadas para simplificar el almacenamiento y la recuperación de datos relevantes: asignan un identificador único ("clave") a cada dato, y cada clave está asociada con un valor correspondiente. El artículo “La atención es todo lo que necesitas” aplicó ese marco conceptual al procesamiento de las relaciones entre cada token en una secuencia de texto.
Para un LLM, la "base de datos" del modelo es el vocabulario de tokens que ha aprendido de las muestras de texto en sus datos de entrenamiento. Su mecanismo de atención utiliza información de esta "base de datos" para comprender el contexto del lenguaje.
Mientras que los caracteres ( letras, números o signos de puntuación) son la unidad base que usamos los humanos para representar el lenguaje, la unidad de lenguaje más pequeña que usan los modelos de IA es un token. A cada token se le asigna un número de identificación, y estos números de identificación (en lugar de las palabras o incluso los tokens en sí) son la forma en que los LLM navegan por su base de datos de vocabulario. Esta tokenización del lenguaje reduce significativamente la potencia computacional necesaria para procesar texto.
Para generar vectores de consulta y clave que alimenten las capas de atención del transformador, el modelo necesita una incorporación inicial de vectores sin contexto para cada token. Estas incorporaciones de token iniciales pueden aprenderse durante el entrenamiento o tomarse de un modelo de incorporación de palabras previamente entrenado.
El orden y la posición de las palabras pueden afectar significativamente sus significados semánticos. Mientras que la naturaleza serializada de las RNN conserva de forma inherente la información sobre la posición de cada token, los modelos transformadores deben agregar explícitamente información posicional para que el mecanismo de atención la considere.
Con la codificación posicional, el modelo agrega un vector de valores a la incrustación de cada token, derivado de su posición relativa, antes de que la entrada ingrese al mecanismo de atención. Cuanto más cerca estén los 2 tokens, más similares serán sus vectores posicionales y, por lo tanto, más aumentará su puntaje de alineación al agregar información posicional. De este modo, el modelo aprende a prestar más atención a los tokens cercanos.
Cuando se ha agregado información posicional, cada incorporación de token actualizada se utiliza para generar tres vectores nuevos. Estos vectores de consulta, clave y valor se generan al pasar las incorporaciones originales de token a través de cada una de las tres capas de Neural Networks de retroalimentación paralela que preceden a la primera capa de atención. Cada subconjunto paralelo de esa capa lineal tiene una matriz única de pesos, aprendida a través del preentrenamiento autosupervisado en un conjunto de datos masivo de texto.
La función principal del mecanismo de atención del transformador es asignar pesos de atención precisos a los emparejamientos del vector de consulta de cada token con los vectores clave de todos los demás tokens de la secuencia. Cuando se logre, puede pensar en cada tokenn ahora tiene un vector correspondiente de pesos de atención, en el que cada elemento de ese vector representa la medida en que algún otro token debería influir en él.
En esencia, La incorporación vectorial de se actualizó para reflejar mejor el contexto proporcionado por los otros tokens de la secuencia.
Para capturar las muchas formas multifacéticas en que los tokens pueden relacionarse entre sí, los modelos transformadores implementan la atención de múltiples cabezas en múltiples bloques de atención .
Antes de introducir en la primera capa de feedforward, cada incorporación de token de entrada original se divide en subconjuntos h de tamaño uniforme. Cada pieza de la incorporación se introduce en una de las h matrices paralelas de pesos Q, K y V , cada una de las cuales se denomina cabeza de consulta, cabeza de clave o cabeza de valor. Los vectores emitidos por cada uno de estos tripletes paralelos de cabezales de consulta, clave y valor se introducen en un subconjunto correspondiente de la siguiente capa de atención, llamada cabeza de atención.
En las capas finales de cada bloque de atención, las salidas de estos h circuitos paralelos finalmente se concatenan de nuevo antes de enviarse a la siguiente capa de retroalimentación. En la práctica, el entrenamiento de modelos da como resultado que cada circuito aprenda diferentes pesos que capturan un aspecto separado de los significados semánticos.
En algunas situaciones, la transmisión del resultado de la incorporación, actualizado contextualmente por el bloque de atención, puede provocar una pérdida inaceptable de información de la secuencia original.
Para abordatr esto, los modelos de transformadores a menudo equilibran la información contextual proporcionada por el mecanismo de atención con el significado semántico original de cada token. Después de que todos los subconjuntos actualizados de atención de la incorporación de token se hayan concatenado nuevamente, el vector actualizado se agrega a la incorporación de vector original (codificada por posición) del token. La incorporación del token original la proporciona una conexión residual entre esa capa y una capa anterior de la red.
El vector resultante se introduce en otra capa de retroalimentación lineal, donde se normaliza a un tamaño constante antes de pasar al siguiente bloque de atención. Juntas, estas medidas ayudan a preservar la estabilidad en el entrenamiento y ayudan a garantizar que el significado original del texto no se pierda a medida que los datos mover más profundamente en la Neural Networks.
Eventualmente, el modelo tiene suficiente información contextual para fundamentar sus resultados finales. La naturaleza y función de la capa de salida dependerán de la tarea específica para la que se haya diseñado el modelo de transformador.
En los LLM autorregresivos, la capa final utiliza una función softmax para determinar la probabilidad de que la siguiente palabra coincida con cada token en su "base de datos" de vocabulario. Dependiendo de los hiperparámetros de muestreo específicos , el modelo utiliza esas probabilidades para determinar el siguiente token de la secuencia de salida.
Los modelos de transformadores se asocian más comúnmente con el NLP, ya que originalmente se desarrollaron para casos de uso de traducción automática. En particular, la arquitectura transformadora dio lugar a los modelos de lenguaje de gran tamaño (LLM) que catalizaron la llegada de la IA generativa.
La mayoría de los LLM con los que el público está más familiarizado, desde modelos de código cerrado como la serie GPT de OpenAI y los modelos Claude de Anthropic hasta modelos de código abierto como Meta Llama o IBM® Granite, son LLM de solo decodificador autorregresivo.
Los LLM autorregresivos están diseñados para la generación de texto, que también se extiende naturalmente a tareas adyacentes, como el resumen y la respuesta a preguntas. Se entrenan a través del aprendizaje autosupervisado, en el que al modelo se le proporciona la primera palabra de un pasaje de texto y se le asigna la tarea de predecir iterativamente la siguiente palabra hasta el final de la secuencia.
La información proporcionada por el mecanismo de autoatención permite que el modelo extraiga el contexto de la secuencia de entrada y mantenga la coherencia y continuidad de su salida.
Los modelos de lenguaje enmascarado (MLM) codificador-decodificador, como BERT y sus muchos derivados, representan la otra rama evolutiva principal de los LLM basados en transformadores. En el entrenamiento, a un MLM se le proporciona una muestra de texto con algunos tokens enmascarados (ocultos) y se le encarga completar la información que falta.
Si bien esta metodología de capacitación es menos efectiva para la generación de texto, ayuda a los MLM a sobresalir en tareas que requieren información contextual sólida, como la traducción, la clasificación de textos y el aprendizaje de incorporación.
Aunque los modelos transformadores se diseñaron originalmente para casos de uso de lenguaje natural y Continuar siendo asociados de manera más prominente, se pueden utilizar en casi cualquier situación que involucre datos secuenciales. Esto ha llevado al desarrollo de modelos basados en transformadores en otros campos, desde el ajuste fino de los LLM en sistemas multimodales hasta modelos dedicados de forecasting de series temporales y ViT para visión artificial.
Algunas modalidades de datos se adaptan más naturalmente a la representación secuencial amigable con el transformador que otras. Las series temporales, los datos de audio y video son inherentemente secuenciales, mientras que los datos de imágenes no lo son. A pesar de esto, los ViT y otros modelos basados en la atención han logrado resultados de vanguardia para muchas tareas de visión artificial, como el subtitulado de imágenes, la detección de objetos , la segmentación de imágenes y la respuesta visual a preguntas.
El uso de modelos de transformadores para datos que no se consideran convencionalmente como "secuenciales" requiere una solución conceptual para representar esos datos como una secuencia. Por ejemplo, para emplear los mecanismos de atención para comprender los datos visuales, los ViT emplean incorporaciones de parches para hacer que los datos de la imagen se puedan interpretar como secuencias.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.