¿Qué es el GPT (transformador generativo preentrenado)?

Dos médicos revisan los TAC de un paciente en el hospital

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es el GPT (transformador generativo preentrenado)?

Los transformadores preentrenados generativos (GPT) son una familia de modelos de lenguaje de gran tamaño (LLM) basados en una arquitectura de deep learning transformadora. Desarrollados por OpenAI, estos modelos fundacionales impulsan ChatGPT y otras aplicaciones de IA generativa capaces de simular resultados creados por humanos.

La empresa de investigación OpenAI introdujo el primer modelo GPT, denominado GPT-1, en 2018. Desde entonces, han lanzado varios avances en la línea GPT de modelos de IA. El modelo GPT más reciente es GPT-4, que se lanzó a principios de 2023. En mayo de 2024, OpenAI anunció el GPT-4o1 multilingüe y multimodal, capaz de procesar entradas de audio, visuales y de texto en tiempo real.

Como modelo fundacional, GPT se ha sometido a un ajuste posterior y se ha adaptado a una amplia gama de tareas específicas posteriores. Más allá de las aplicaciones basadas en texto, GPT impulsa aplicaciones de inteligencia artificial (IA) que generan y analizan imágenes a través de la visión artificial, escriben código, procesan datos y más. Estas aplicaciones se conectan a GPT a través de interfaces de programación de aplicaciones (API), que les permiten pasar datos de un lado a otro.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿Por qué es importante el GPT?

Los modelos GPT han acelerado el desarrollo de la IA generativa gracias a su arquitectura del transformador, un tipo de red neuronal presentada en 2017 en el artículo de Google Brain Attention Is All You Need2. Los modelos de transformación, incluidos GPT y BERT, han impulsado muchos desarrollos notables en la IA generativa desde entonces, con el chatbot ChatGPT de OpenAI como protagonista.

Además de OpenAI, otras empresas han lanzado sus propios modelos de IA generativa, como Claude de Anthropic, Pi de Inflection y Gemini de Google, anteriormente conocido como Bard. Mientras tanto, OpenAI impulsa el servicio Copilot AI de Microsoft.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables capaces de desbloquear nuevos ingresos, reducir costes y aumentar la productividad, y utilice nuestra guía para profundizar más en el tema.

Casos de uso de GPT

La flexibilidad de los modelos de transformador como el GPT los presta a una amplia gama de casos de uso. La capacidad de GPT para proporcionar una generación de texto similar a la humana lo convierte en una elección muy extendida para:

  • Chatbots y asistentes de voz
  • Creación de contenidos y generación de textos
  • Traducción de idiomas
  • Resumen y conversión de contenido
  • Análisis de datos
  • Codificación
  • Atención médica

Chatbots y asistentes de voz

Los chatbots con tecnología GPT pueden parecer más humanos que las opciones estándar del servicio de atención al cliente automatizada. A través de las API, las organizaciones pueden vincular GPT con aplicaciones de voz para crear asistentes de voz capaces de responder a declaraciones más complejas y proporcionar servicios de respuesta a preguntas conversacionales.

Creación de contenidos y generación de textos

Con instrucciones efectivas, los modelos GPT pueden generar contenido de texto que va desde textos breves para redes sociales hasta publicaciones completas de blogs y correos electrónicos. Además, los redactores pueden utilizar los GPT para esbozar o idear contenidos que luego escriben ellos mismos, lo que agiliza los flujos de trabajo de creación de contenidos.

El uso de GPT para generar contenido directamente para su publicación puede dar lugar a problemas de propiedad intelectual, uno de los principales riesgos del uso de GPT.

Traducción de idiomas

Las aplicaciones impulsadas por GPT pueden traducir el lenguaje en tiempo real tanto de fuentes escritas como de audio. En una demostración en vivo3, GPT-4o demostró la capacidad de traducir en tiempo real por sí solo.

Resumen y conversión de contenido

GPT puede procesar y resumir documentos extensos, como declaraciones legales o informes comerciales. También puede reescribir el contenido en el estilo especificado por el usuario. Por ejemplo, un usuario podría proporcionar un informe trimestral como datos de entrada y luego solicitar que se resuma en viñetas ingeniosas.

Análisis de datos

GPT puede procesar grandes volúmenes de datos en información digerible. A través de las API, otras aplicaciones pueden utilizar GPT para crear cuadros, gráficos y otros tipos de visualizaciones de datos. Las organizaciones que introducen datos internos en GPT podrían exponerse a violaciones de ciberseguridad o violar la normativa de protección de datos.

Codificación

Los modelos GPT pueden aprender lenguajes de programación y generar fragmentos de código. Los usuarios suelen obtener mejores resultados cuando tratan al GPT como un asistente de codificación en lugar de pedirle que cree aplicaciones completas desde cero. Todo el contenido generado por GPT, incluido el código, debe revisarse antes de su uso para garantizar la precisión y el uso justo.

Atención médica

En febrero de 2024, la Biblioteca Nacional de Medicina de EE. UU. publicó un documento en el que se esbozaban las posibles aplicaciones de la GPT en el ámbito sanitario. Estas incluyen un acceso constante para los pacientes en áreas remotas, así como opciones de atención personalizada. Sin embargo, el periódico también cubre una serie de desventajas, como los problemas de privacidad y las limitaciones de conocimiento.

¿Cómo funciona el GPT?

Los modelos GPT funcionan mediante el análisis de una secuencia de entrada y la aplicación de matemáticas complejas para predecir el resultado más probable. Utiliza la probabilidad para identificar la mejor palabra siguiente posible en una frase, basándose en todas las palabras anteriores. Como tipo de tecnología de IA de deep learning, los GPT utilizan procesamiento del lenguaje natural (PLN) para comprender las instrucciones del usuario y generar respuestas relevantes similares a las humanas.

Cuando un usuario introduce un prompt basado en texto, el GPT crea la respuesta más probable basándose en sus datos de entrenamiento que comprenden miles de millones de fuentes de datos de texto disponibles públicamente que van desde obras literarias famosas hasta código fuente abierto.

La inmensidad de sus conjuntos de datos de entrenamiento es la razón por la que el GPT es capaz de imitar las capacidades de comprensión lingüística de los humanos. Los modelos GPT a gran escala aplican el deep learning para procesar el contexto y extraer conocimientos del texto relevante en sus datos de entrenamiento para predecir la respuesta óptima.

La potencia de los modelos GPT procede de dos aspectos clave:

  • Preentrenamiento generativo que enseña al modelo a detectar patrones en datos no etiquetados y, a continuación, aplica esos patrones a nuevas entradas.

  • Una arquitectura de transformadores que permite al modelo procesar todas las partes de una secuencia de entrada en paralelo.

Preentrenamiento generativo

El preentrenamiento generativo es el proceso de entrenar un modelo de lenguaje de gran tamaño con datos no etiquetados, enseñar al modelo a reconocer varios datos y perfeccionar su capacidad para crear predicciones precisas. Los GPT generan nuevos datos aplicando los patrones y la estructura de sus datos de preentrenamiento a las entradas del usuario.

El preentrenamiento generativo es una forma de aprendizaje no supervisado, en el que el modelo se alimenta con datos no etiquetados y se ve obligado a darles sentido por sí solo. Al aprender a detectar patrones en conjuntos de datos sin etiquetar, los modelos de machine learning obtienen la capacidad de sacar conclusiones similares cuando se exponen a nuevas entradas, como una instrucción de usuario en ChatGPT.

Los modelos GPT se entrenan con miles de millones o incluso billones de parámetros: variables internas que un modelo refina a lo largo del proceso de entrenamiento y que determinan cómo se comporta. Aunque OpenAI aún no ha revelado detalles precisos sobre el GPT-4, se estima que el modelo contiene aproximadamente 1,8 billones de parámetros4, lo que representa un aumento de más de diez veces con respecto al GPT-3,5.

modelos de transformadores

Los modelos transformadores son un tipo de red neuronal especializada en el procesamiento del lenguaje natural: identificar la intención y el significado en una entrada basada en texto. Pueden procesar dinámicamente las entradas y concentrarse en las palabras más importantes, sin importar en qué parte de la oración se encuentren.

Los modelos GPT no entienden el lenguaje de la misma manera que los humanos. En su lugar, procesan las palabras en unidades discretas llamadas tokens, y algunas palabras se dividen en varios tokens. Al evaluar todos los tokens a la vez, los transformadores destacan a la hora de establecer dependencias de largo alcance: relaciones entre tokens distantes. El GPT se basa en su comprensión de las dependencias de largo alcance para procesar las entradas contextualmente.

Los modelos de transformadores procesan los datos con dos módulos conocidos como codificadores y decodificadores, al tiempo que utilizan mecanismos de autoatención para establecer dependencias y relaciones.

Mecanismos de autoatención

Los mecanismos de autoatención son la característica distintiva de los transformadores, que les permiten procesar una secuencia de entrada completa a la vez. Los transformers pueden autodirigir su "atención" a los tokens más importantes en la secuencia de entrada, sin importar dónde se encuentren.

Por el contrario, las redes neuronales recurrentes (RNN) y las redes neuronales convolucionales (CNN) más antiguas evalúan los datos de entrada de forma secuencial o jerárquica. La autoatención permite a los GPT procesar el contexto y responder extensamente con un lenguaje que se siente natural, en lugar de simplemente adivinar la siguiente palabra de una oración.

Codificadores

La codificación es el proceso de mapear tokens en un espacio vectorial tridimensional virtual. Se supone que los tokens codificados cerca en el espacio 3D tienen un significado más similar. Esta vectorización matemática de una secuencia de entrada se conoce como incrustación.

Los bloques codificadores de la red de transformadores asignan a cada incrustación un peso, lo que determina su importancia relativa. Por su parte, los codificadores de posición captan la semántica, lo que permite a los modelos GPT diferenciar entre agrupaciones de las mismas palabras pero en distinto orden; por ejemplo, "El huevo vino antes que la gallina" frente a "La gallina vino antes que el huevo".

Decodificadores

Los decodificadores predicen la respuesta más probable desde el punto de vista estadístico a las incrustaciones preparadas por los codificadores. Los mecanismos de autoatención permiten al decodificador identificar las partes más importantes de la secuencia de entrada, mientras que los algoritmos avanzados determinan la salida con más probabilidades de ser correcta.

Una historia de GPT

Desde el lanzamiento de GPT en 2018, OpenAI se ha mantenido a la vanguardia de la conversación en curso sobre IA generativa. Además de su producto estrella ChatGPT, la empresa también ha buscado la generación de imágenes con DALL-E, así como el vídeo generativo a través de Sora.

GPT-1, 2018

OpenAI lanza su primer modelo GPT. Su rendimiento fue impresionante para la época y sirvió de prueba de concepto para lo que los desarrollos posteriores lograrían. El GPT-1 era capaz de responder a las preguntas de forma humana y responder a las instrucciones de generación de texto, destacando sus casos de uso futuros en los chatbots y la creación de contenido.

El GPT-1 era comparativamente propenso a sufrir alucinaciones o confabulaciones, en las que presentaba información incorrecta como si fuera fáctica. Sus respuestas indicaban que OpenAI aún no había perfeccionado la capacidad de GPT para identificar las dependencias de largo alcance y agrupar respuestas largas y precisas.

GPT-2, 2019

El siguiente modelo de OpenAI contaba con 1500 millones de parámetros, lo que mejoró su rendimiento. El GPT-2 tuvo más éxito que su predecesor a la hora de mantener la coherencia en respuestas más largas, lo que sugiere que su detección de dependencias de largo alcance estaba mucho más establecida.

El GPT-2 se lanzó por etapas, con varios modelos de capacidad limitada disponibles antes de la versión completa. En un comunicado5, OpenAI explicó que la liberación escalonada se debía a la necesidad de mitigar posibles usos indebidos y otras preocupaciones éticas. OpenAI citó cómo el modelo podría utilizarse para suplantar la identidad de otras personas en Internet, generar noticias engañosas y automatizar contenidos de ciberacoso y phishing.

Aunque Sam Altman, CEO de OpenAI, ha hecho repetidos llamamientos públicos a la regulación gubernamental de la IA, la empresa también ha presionado en privado para que la Ley de IA de la UE sea menos restrictiva6. La redacción final de la legislación, aprobada por el Parlamento Europeo en junio de 2024, parecía alinearse con las recomendaciones de la empresa.

GPT-3, 2020

Con 175 000 millones de parámetros, más de cien veces más que su predecesor, el GPT-3 se convirtió en uno de los mayores LLM del momento. Sus capacidades superaron ampliamente a las de los modelos anteriores de su linaje. La versión gratuita de ChatGPT sigue funcionando con el GPT-3.5, la versión más actual del GPT-3.

Aunque el rendimiento del GPT-3 reflejó su potencia y tamaño adicionales, sus demandas de entrenamiento también se dispararon. Los recursos informáticos y energéticos necesarios para entrenar LLM tan grandes generaron preocupación con respecto a sus huellas de carbono y agua7. En respuesta, OpenAI desarrolló nuevos métodos de entrenamiento que aumentaron la eficiencia del proceso de entrenamiento.

GPT-4, 2023

La versión actual de GPT es la más potente de OpenAI hasta la fecha, superando a sus predecesores tanto en la calidad del contenido como en la evitación de sesgos. Está detrás de la versión premium de ChatGPT, lo que brinda a los suscriptores una mayor funcionalidad y rendimiento que la versión impulsada por GPT-3.5 versión gratuita del servicio.

Sin embargo, también es el modelo que más recursos consume de la familia GPT, con una estimación de los costes operativos diarios de 700 000 USD8. A medida que los LLM siguen creciendo, persisten los debates sobre los costes frente a los beneficios potenciales. Un informe publicado por Goldman Sachs en junio de 20249 se centró en los casos de uso potencialmente limitados de la IA generativa en comparación con los crecientes costes de formación y mantenimiento de los modelos.

GPT-4 Turbo, la iteración actual del modelo, tiene un límite de conocimiento de abril de 2023. Esto significa que sus datos de entrenamiento o base de conocimientos no cubren ningún contenido en línea publicado después de ese punto.

GPT-4O, 2024

Revelado en mayo de 2024, el GPT-4o es multilingüe y admite contenido en numerosos idiomas distintos del inglés. También es multimodal, capaz de procesar instrucciones de imagen, audio y vídeo mientras genera texto, imágenes y contenido de audio en respuesta. Según OpenAI, el GPT-4o es un 50 % más barato y dos veces más rápido10 al generar texto que GPT-4 Turbo.

Riesgos de GPT

Aunque los GPT y otros modelos de IA generativa han sido ampliamente elogiados en los medios de comunicación, su uso no está exento de riesgos. Las organizaciones y las personas que deseen incorporar GPT en sus flujos de trabajo deben ser conscientes de los riesgos potenciales, entre ellos:

  • Protección y confidencialidad de los datos

  • Violaciones de la propiedad intelectual y conflictos de titularidad

  • Salida imprecisa

  • Sesgo del modelo

Protección y confidencialidad de los datos

Cualquier dato introducido en GPT está disponible para su uso al procesar otras consultas y OpenAI puede utilizarlo para entrenar otros modelos. Esto no sólo supone un riesgo para la seguridad de los datos confidenciales, sino que también pone a las organizaciones en peligro de incumplir sus obligaciones contractuales y legales en materia de protección de datos.

Violaciones de la propiedad intelectual y conflictos de titularidad

OpenAI entrena sus modelos con materiales protegidos por derechos de autor. Aunque la empresa defiende esta elección como uso legítimo, ha sido objeto de acciones legales, incluida una demanda presentada por The New York Times11 en diciembre de 2023. La salida generada por IA puede contener contenido protegido por derechos de autor, y su uso puede violar las restricciones de derechos de autor si no es examinado y editado por seres humanos de antemano.

OpenAI también fue objeto de críticas cuando se alegó que una de sus voces ChatGPT estaba basada en la de la actriz Scarlett Johansson12, que protagonizó la voz de una IA futurista en la película Her de 2013. Desde entonces, OpenAI ha dejado de utilizar esa voz en particular en sus productos.

Salida imprecisa

No se garantiza que la salida generada por GPT sea objetivamente correcta. Los modelos de IA generativa están sujetos a alucinaciones o confabulaciones de IA, en las que sus algoritmos detectan patrones en los datos que no existen. Las confabulaciones hacen que los modelos produzcan contenidos inexactos que se presentan al usuario como si fueran hechos fiables. Esta tendencia en relación con ChatGPT ha sido explorada en profundidad en un artículo de 2024 por Hicks y otros13.

Sesgo del modelo

El sesgo del modelo es una divergencia entre las predicciones de un modelo basadas en sus datos de entrenamiento y lo que sucede en el mundo real. El GPT se entrena con montones de datos de Internet y, como este contenido lo crean personas, puede contener opiniones discriminatorias, a veces intencionadas, a menudo no. A medida que la IA se integra en la policía, la sanidad y otras áreas de la vida cotidiana, los sesgos de la IA pueden tener consecuencias en el mundo real.

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM en la cartera de IBM watsonx para escalar la IA generativa para su negocio con confianza.

Explore watsonx.ai Explore las soluciones de IA
Notas a pie de página

Hello GPT-4o. OpenAI. 13 de mayo de 2024

Attention Is All You Need. Vaswani et al. 12 de junio de 2017

Live demo of GPT-4o realtime translation. OpenAI. 13 de mayo de 2024

GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE, Patel & Wong. 10 de julio de 2023

Better language models and their implications. OpenAI. 14 de febrero de 2019

Exclusive: OpenAI Lobbied the E.U. to Water Down AI Regulation. Perrigo. 20 de junio de 2023

A Computer Scientist Breaks Down Generative AI's Hefty Carbon Footprint. Saenko y otros. 25 de mayo de 2023

Microsoft Readies AI Chip as Machine Learning Costs Surge. Gardizy y Ma. 18 de abril de 2023

GenAI: Too Much Spend, Too Little Benefit?. Nathan, Grimberg y Rhodes. 25 de junio de 2024

10 OpenAI Platform. OpenAI

11 Case 1:23-cv-11195. Barron et al. 27 de diciembre de 2023

12 Scarlett Johansson says a ChatGPT voice is ‘eerily similar’ to hers and OpenAI is halting its use. Grantham-Philips. 21 de mayo de 2024

13 ChatGPT is bullshit. Hicks y otros. 8 de junio de 2024