¿Qué es un modelo de transformador?

¿Qué es un modelo de transformador?

Un modelo de transformador es un tipo de modelo de deep learning que se introdujo en 2017. Estos modelos han pasado rápidamente a ser fundamentales en el procesamiento del lenguaje natural (PLN) y se han aplicado a una amplia gama de tareas de machine learning e inteligencia artificial.

El modelo fue descrito por primera vez en un artículo de 2017 titulado "Attention is All You Need" de Ashish Vaswani, un equipo de Google Brain y un grupo de la Universidad de Toronto. La publicación de este documento se considera un momento decisivo en este campo, dado lo extendido que está el uso de transformadores en aplicaciones como la formación de LLM.

Estos modelos pueden traducir texto y voz casi en tiempo real. Por ejemplo, hay aplicaciones que ahora permiten a los turistas comunicarse con los lugareños en la calle en su idioma principal. Ayudan a los investigadores a comprender mejor el ADN y acelerar el diseño de fármacos. Pueden ayudar a detectar anomalías y prevenir fraudes en las finanzas y la seguridad. Los transformadores de visión se utilizan de manera similar para tareas de visión por ordenador.

La conocida herramienta de generación de texto ChatGPT de OpenAI utiliza arquitecturas de transformadores para la predicción, el resumen, la respuesta a preguntas y mucho más, ya que permiten al modelo centrarse en los segmentos más relevantes del texto de entrada. El “GPT” visto en las distintas versiones de la herramienta (p. ej. GPT-2, GPT-3) significa "transformador generativo preentrenado". Las herramientas de IA generativa basadas en texto, como ChatGPT, se benefician de los modelos de transformadores porque pueden predecir más fácilmente la siguiente palabra en una secuencia de texto, basándose en conjuntos de datos grandes y complejos.

El modelo BERT, o Bidirectional Encoder Representations from Transformers, se basa en la arquitectura del transformador. A partir de 2019, BERT se utilizó para casi todos los resultados de búsqueda de Google en inglés y se ha implementado en más de 70 idiomas.1

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿En qué se diferencian los modelos de transformadores?

La innovación clave del modelo de transformador es no tener que depender de redes neuronales recurrentes (RNN) o redes neuronales convolucionales (CNN), enfoques de redes neuronales que tienen inconvenientes significativos. Los transformadores procesan secuencias de entrada en paralelo, lo que los hace muy eficientes para el entrenamiento y la inferencia, porque no se pueden acelerar las cosas simplemente agregando más GPU. Los modelos de transformadores necesitan menos tiempo de entrenamiento que las arquitecturas de redes neuronales recurrentes anteriores, como la memoria a corto plazo (LSTM).

Las RNN y LSTM se remontan a las décadas de 1920 y 1990, respectivamente. Estas técnicas calculan cada componente de una entrada en secuencia (p. ej. palabra por palabra), por lo que el cálculo puede llevar mucho tiempo. Es más, ambos enfoques tienen limitaciones a la hora de retener el contexto cuando la "distancia" entre los fragmentos de información en una entrada es larga.

Mixture of Experts | Pódcast

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Dos grandes innovaciones

Hay dos innovaciones principales que los modelos de transformadores ponen sobre la mesa. Considere estas dos innovaciones en el contexto de la predicción de texto.

  1. Codificación posicional: en lugar de mirar cada palabra en el orden en que aparece en una oración, se asigna un número único a cada palabra. Esto proporciona información sobre la posición de cada token (partes de la entrada, como palabras o subpalabras en PLN) en la secuencia, lo que permite al modelo considerar la información secuencial de la secuencia.

  2. Autoatención: la atención es un mecanismo que calcula el peso de cada palabra de una oración en relación con todas las demás palabras de la oración, por lo que el modelo puede predecir las palabras que probablemente se usarán en secuencia. Esta comprensión se aprende con el tiempo a medida que un modelo se entrena con una gran cantidad de datos. El mecanismo de autoatención permite que cada palabra preste atención a todas las demás palabras de la secuencia en paralelo, sopesando su importancia para el token actual. De esta manera, se puede decir que los modelos de machine learning pueden "aprender" las reglas de la gramática, basándose en las probabilidades estadísticas de cómo se usan normalmente las palabras en el lenguaje.

¿Cómo funcionan los modelos de transformadores?

Los modelos de transformador funcionan procesando datos de entrada, que pueden ser secuencias de tokens u otros datos estructurados, a través de una serie de capas que contienen mecanismos de autoatención y redes neuronales de proalimentación. La idea central detrás de cómo funcionan los modelos de transformadores se puede dividir en varios pasos clave.

Imaginemos que necesita traducir una frase de inglés a francés. Estos son los pasos que debe seguir para realizar esta tarea con un modelo de transformador.

  1. Incrustaciones de entrada: la oración de entrada se transforma primero en representaciones numéricas llamadas incrustaciones. Estos capturan el significado semántico de los tokens en la secuencia de entrada. En el caso de las secuencias de palabras, estas incrustaciones se pueden aprender durante el entrenamiento u obtener de incrustaciones de palabras previamente entrenadas.

  2. Codificación posicional: la codificación posicional se presenta normalmente como un conjunto de valores o vectores adicionales que se agregan a las incrustaciones de tokens antes de introducirlas en el modelo de transformador. Estas codificaciones posicionales tienen patrones específicos que codifican la información de posición.

  3. Atención multicabezal: la autoatención opera en múltiples "cabezales de atención" para capturar diferentes tipos de relaciones entre tokens. Las funciones Softmax, un tipo de función de activación, se utilizan para calcular los pesos de atención en el mecanismo de autoatención.

  4. Normalización de capas y conexiones residuales: el modelo utiliza la normalización de capas y las conexiones residuales para estabilizar y acelerar el entrenamiento.

  5. Redes neuronales de retroalimentación: la salida de la capa de autoatención pasa a través de las capas de retroalimentación. Estas redes aplican transformaciones no lineales a las representaciones de tokens, lo que permite que el modelo capture patrones y relaciones complejos en los datos.

  6. Capas apiladas: los transformadores suelen estar formados por varias capas apiladas una encima de la otra. Cada capa procesa la salida de la capa anterior, refinando gradualmente las representaciones. El apilamiento de varias capas permite al modelo capturar entidades jerárquicas y abstractas en los datos.

  7. Capa de salida: en tareas de secuencia a secuencia, como la traducción automática neuronal, se puede agregar un módulo decodificador independiente en la parte superior del codificador para generar la secuencia de salida.

  8. Entrenamiento: los modelos de transformadores se entrenan mediante el aprendizaje supervisado, en el que aprenden a minimizar una función de pérdida que cuantifica la diferencia entre las predicciones del modelo y la verdad fundamental para la tarea dada. El entrenamiento suele implicar técnicas de optimización como Adam o descenso de gradiente estocástico (SGD).

  9. Inferencia: tras el entrenamiento, el modelo puede utilizarse para la inferencia sobre nuevos datos. Durante la inferencia, la secuencia de entrada pasa por el modelo preentrenado y este genera predicciones o representaciones para la tarea en cuestión.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo
Notas a pie de página

1 Google’s BERT Rolls Out Worldwide (enlace externo a ibm.com). Search Engine Journal. 9 de diciembre de 2019.