My IBM

Iniciar sesión

Suscríbase

¿Qué es GPT?

18 de septiembre de 2024

Autores

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

¿Qué es GPT?

GPT o transformadores generativos preentrenados son una familia de redes neuronales avanzadas diseñadas para tareas de procesamiento de lenguaje natural. Estos LLM (large language models) se basan en una arquitectura transformadora y están sujetos a un preentrenamiento no monitoreado en conjuntos de datos masivos sin etiquetar.

La empresa de investigación de IA, OpenAI, presentó el primer modelo GPT, denominado GPT-1, en 2018. Desde entonces, lanzaron varios avances en la línea de GPT de modelos de IA. El modelo GPT más reciente es GPT-4, que se lanzó a principios de 2023. En mayo de 2024, OpenAI anunció el GPT-4o¹ multilingüe y multimodal, capaz de procesar entradas de audio, visuales y de texto en tiempo real.

Como modelo fundacional, GPT se sometió a ajustes posteriores y se adaptó a una amplia gama de tareas específicas posteriores. Además de las aplicaciones basadas en texto, GPT impulsa aplicaciones de inteligencia artificial (IA) que generan y analizan imágenes a través de la visión artificial, escriben código, procesan datos, entre otras cosas. Estas aplicaciones se conectan a GPT a través de interfaces de programación de aplicaciones (API), que les permiten pasar datos de un lado a otro.

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think.

Suscríbase hoy

¿Por qué son importantes los GPT?

Los modelos GPT aceleraron el desarrollo de la IA generativa gracias a su arquitectura transformadora, un tipo de red neuronal presentada en 2017 en el artículo de Google Brain Attention Is All You Need². Los modelos transformadores, incluyendo GPT y BERT, impulsaron muchos desarrollos notables en la IA generativa desde entonces, donde el chatbot ChatGPT de OpenAI ocupó un lugar central.

Además de OpenAI, otras empresas lanzaron sus propios modelos de IA generativa, incluyendo Claude de Anthropic, Pi de Inflection y Gemini de Google, anteriormente conocido como Bard. Mientras tanto, OpenAI impulsa el servicio de IA Copilot de Microsoft.

AI Academy

Por qué los modelos fundacionales son un cambio de paradigma para la IA

Conozca una nueva clase de modelos de IA flexibles y reutilizables que pueden desbloquear nuevos ingresos, reducir costos y aumentar la productividad, luego use nuestra guía para investigar a profundidad.

Ir al episodio

Casos de uso de GPT

La flexibilidad de los modelos de transformadores, como GPT, los presta a una amplia gama de casos de uso. La capacidad de GPT para proporcionar una generación de texto similar a la humana lo convierte en una opción generalizada para:

Chatbots y asistentes de voz
Creación de contenido y generación de texto
Traducción de idiomas
Resumen y conversión de contenidos
Análisis de datos
Programación
Atención médica

Chatbots y asistentes de voz

Los chatbots impulsados por GPT pueden parecer más humanos que las opciones estándar de atención al cliente automatizada. A través de las API, las organizaciones pueden vincular GPT con aplicaciones de voz para crear asistentes de voz capaces de responder a afirmaciones más complejas y proporcionar servicios de respuesta a preguntas conversacionales.

Creación de contenido y generación de texto

Con instrucciones efectivas, los modelos GPT pueden generar contenido de texto que va desde textos breves para redes sociales hasta entradas en el blog completas y correos electrónicos. Además, los escritores pueden usar GPT para esbozar o idear contenido que luego escriben ellos mismos, agilizando los flujos de trabajo de creación de contenido.

El uso de GPT para generar contenido directamente para su publicación puede generar problemas de propiedad intelectual, uno de los principales riesgos del uso de GPT.

Traducción de idiomas

Las aplicaciones impulsadas por GPT pueden traducir lenguaje en tiempo real desde fuentes escritas y de audio. En una demostración³en vivo, GPT-4o demostró su capacidad para traducir en tiempo real por sí solo.

Resumen de contenido y conversión de contenido

GPT puede procesar y resumir documentos extensos, como declaraciones legales o reportes comerciales. También puede reescribir el contenido en el estilo especificado por el usuario. Por ejemplo, un usuario podría proporcionar un reporte trimestral como datos de entrada y luego solicitar que se resuma en viñetas ingeniosas.

Análisis de datos

GPT puede procesar grandes volúmenes de datos para convertirlos en insights digeribles. A través de las API, otras aplicaciones pueden usar GPT para crear cuadros, gráficos y otros tipos de visualizaciones de datos. Las organizaciones que introducen datos internos en GPT pueden exponerse a violaciones de seguridad cibernética o violar las normas de protección de datos.

Programación

Los modelos GPT pueden aprender lenguajes de programación y generar fragmentos de código. Los usuarios suelen disfrutar de mejores resultados cuando tratan a GPT como un asistente de programación en lugar de pedirle que cree aplicaciones completas desde cero. Todo el contenido generado por GPT, incluyendo el código, debe revisar antes de su uso para ayudar a garantizar la precisión y el uso justo.

Atención médica

En febrero de 2024, la US National Library of Medicine publicó un documento que describe las posibles aplicaciones de GPT en el espacio de la atención médica. Entre ellas, figuran el acceso uniforme de los pacientes de zonas remotas y las opciones de atención personalizada. Sin embargo, el documento también aborda una serie de inconvenientes, tales como los problemas de privacidad y las limitaciones de conocimientos.

¿Cómo funciona GPT?

Los modelos GPT funcionan analizando una secuencia de entrada y aplicando matemáticas complejas para predecir la salida más probable. Emplea la probabilidad para identificar la mejor palabra siguiente posible en una oración, en función de todas las palabras anteriores. Como tipo de tecnología de aprendizaje profundo de IA, los GPT usan procesamiento de lenguaje natural (PLN) para comprender las instrucciones del usuario y generar respuestas relevantes similares a las humanas.

Cuando un usuario introduce un mensaje basado en texto, GPT crea la respuesta más probable en función de sus datos de entrenamiento, que comprenden miles de millones de fuentes de datos de texto disponibles públicamente, desde obras literarias famosas hasta código fuente abierto.

La inmensidad de sus conjuntos de datos de entrenamiento es lo que permite a GPT imitar las capacidades de comprensión del lenguaje similares a las humanas. Los modelos GPT a gran escala aplican el aprendizaje profundo para procesar el contexto y extraer conocimientos del texto relevante en sus datos de entrenamiento para predecir la respuesta óptima.

El poder de los modelos GPT proviene de dos aspectos clave:

Preentrenamiento generativo que muestra al modelo a detectar patrones en datos sin etiquetar y luego aplicar esos patrones a nuevas entradas.
Una arquitectura transformadora que permite que el modelo procese todas las partes de una secuencia de entrada en paralelo.

Preentrenamiento generativo

El preentrenamiento generativo es el proceso de capacitar un modelo de lenguaje extenso en datos sin etiquetar, mostrar al modelo a reconocer varios datos y perfeccionar su capacidad para crear predicciones precisas. Los GPT generan nuevos datos aplicando los patrones y la estructura de sus datos de preentrenamiento a las entradas de los usuarios.

El preentrenamiento generativo es una forma de aprendizaje no supervisado, en el que el modelo recibe datos sin etiquetar y se ve obligado a darle sentido por sí solo. Al aprender a detectar patrones en conjuntos de datos sin etiquetar, los modelos de machine learning obtienen la capacidad de sacar conclusiones similares cuando se exponen a nuevas entradas, como una instrucción de un usuario en ChatGPT.

Los modelos GPT se entrenan con miles de millones o incluso billones de parámetros: variables internas que un modelo refina a lo largo del proceso de entrenamiento y que determinan cómo se comporta. Mientras OpenAI aún no ha revelado detalles precisos sobre GPT-4, se estima que el modelo contiene aproximadamente 1.8 billones de parámetros⁴ para un aumento de más de diez veces sobre GPT-3.5.

Modelos de transformador

Los modelos transformadores son un tipo de red neuronal especializada en el procesamiento de lenguaje natural, que identifica la intención y el significado en una entrada basada en texto. Pueden procesar dinámicamente las entradas y concentrarse en las palabras más relevantes, sin importar en qué parte de la oración se encuentren.

Los modelos GPT no entienden el lenguaje de la misma manera que los humanos. En su lugar, procesan las palabras en unidades discretas llamadas tokens, y algunas palabras se dividen en varios tokens. Al evaluar todos los tokens a la vez, los transformadores se destacan en el establecimiento de dependencias de largo alcance: relaciones entre tokens distantes. GPT se basa en su comprensión de las dependencias de largo alcance para procesar las entradas contextualmente.

Los modelos transformadores procesan datos con dos módulos conocidos como codificadores y decodificadores, mientras emplean mecanismos de autoatención para establecer dependencias y relaciones.

Mecanismos de autoatención

Los mecanismos de autoatención son la característica distintiva de los transformadores, lo que les permite procesar una secuencia de entrada completa a la vez. Los transformadores pueden autodirigir su "atención" a los tokens más importantes en la secuencia de entrada, sin importar dónde se encuentren.

Por el contrario, las redes neuronales recurrentes (RNN) y las redes neuronales convolucionales (CNN) más antiguas evalúan los datos de entrada de forma secuencial o jerárquica. La autoatención permite a GPT procesar el contexto y responder en profundidad con un lenguaje que se siente natural, en lugar de simplemente adivinar la siguiente palabra en una oración.

Codificadores

La codificación es el proceso de asignación de tokens a un espacio vectorial virtual tridimensional. Se supone que los tokens codificados cerca en el espacio 3D tienen un significado más similar. Esta vectorización matemática de una secuencia de entrada se conoce como incrustación.

Los bloques de codificadores en la red de transformadores asignan a cada incrustación un peso, lo que determina su importancia relativa. Mientras tanto, los codificadores de posición capturan la semántica, lo que permite que los modelos GPT diferencien entre agrupaciones de las mismas palabras pero en diferentes órdenes—por ejemplo, "El huevo vino antes que el pollo" en comparación con "El pollo vino antes que el huevo".

Decodificadores

Los descodificadores predicen la respuesta estadísticamente más probable a las incrustaciones preparadas por los codificadores. Los mecanismos de autoatención permiten al descodificador identificar las partes más importantes de la secuencia de entrada, mientras que los algoritmos avanzados determinan la salida con más probabilidades de ser correcta.

Una historia de GPT

Desde el lanzamiento de GPT en 2018, OpenAI se mantuvo a la vanguardia de la conversación en curso sobre la IA generativa. Además de su producto insignia ChatGPT, la empresa también buscó la generación de imágenes con DALL-E, así como el video generativo a través de Sora.

GPT-1, 2018

OpenAI lanza su modelo GPT debut. Su rendimiento fue impresionante para la época, sirviendo como prueba de concepto para lo que lograrían los desarrollos posteriores. GPT-1 pudo responder preguntas de una manera humana y responder a las instrucciones de generación de texto, destacando sus casos de uso futuros en chatbots y creación de contenido.

GPT-1 era comparativamente propenso a las alucinaciones o confabulaciones, en las que presentaba información incorrecta como si fuera real. Sus respuestas indicaron que OpenAI aún no perfeccionó la capacidad de GPT para identificar dependencias de largo alcance y encadenar respuestas precisas de forma larga.

GPT-2, 2019

El siguiente modelo de OpenAI contaba con 1.5 mil millones de parámetros, lo que mejoró su rendimiento. GPT-2 tuvo más éxito que su predecesor a la hora de mantener la coherencia en respuestas más largas, lo que sugiere que su detección de dependencia de largo alcance estaba mucho más establecido.

GPT-2 se lanzó por etapas, con varios modelos de capacidad limitada disponibles antes de la versión completa. En un comunicado⁵, OpenAI explicó que el lanzamiento escalonado fue necesario por la necesidad de mitigar el posible uso indebido y otras preocupaciones éticas. OpenAI citó cómo el modelo podría usarse para hacerse pasar por otros en línea, generar noticias engañosas y automatizar tanto el acoso cibernético como el contenido de phishing.

Aunque el CEO de OpenAI, Sam Altman, ha hecho constantes llamados públicos a la regulación gubernamental de la IA, la empresa también ha presionado en privado para que la Ley de IA de la UE sea menos restrictiva⁶. La redacción final de la legislación, aprobada por el Parlamento Europeo en junio de 2024, parecía alinearse con las recomendaciones de la empresa.

GPT-3, 2020

Con 175 mil millones de parámetros—más de cien veces más que su predecesor—GPT-3 se convirtió en uno de los LLM más grandes del momento. Sus capacidades superaron con creces a las de los modelos anteriores de su linaje. La versión gratis de ChatGPT sigue funcionando con GPT-3.5, la versión más actual de GPT-3.

Si bien el rendimiento de GPT-3 reflejó su potencia y tamaño adicionales, sus demandas de entrenamiento también se dispararon. Los recursos informáticos y energéticos necesarios para capacitar LLMs tan grandes generaron preocupación con respecto a sus huellas de carbono y agua⁷. En respuesta, OpenAI desarrolló métodos de entrenamiento novedosos que aumentaron la eficiencia del proceso de entrenamiento.

GPT-4, 2023

La versión actual de GPT es la más poderosa de OpenAI hasta la fecha, superando a sus predecesoras tanto en calidad de contenido como en evitación de sesgos. Está detrás de la versión premium de ChatGPT, que ofrece a los abonados mayor funcionalidad y rendimiento que la versión impulsada por GPT-3.5 gratis del servicio.

Sin embargo, también es el modelo más intensivo en recursos de la familia GPT, con una estimación que calcula los precios operativos diarios en 700 000 USD8. A medida que los LLM continúan creciendo, persisten los debates sobre los costos frente a los beneficios potenciales. Un informe publicado por Goldman Sachs en junio de 2024⁹ se centró en los casos de uso potencialmente limitados de la IA generativa en comparación con los crecientes costos de entrenamiento y mantenimiento de los modelos.

GPT-4 Turbo, la iteración actual del modelo, tiene como fecha límite de conocimiento abril de 2023. Esto significa que sus datos de entrenamiento o base de conocimientos no cubren ningún contenido en línea publicado luego de ese momento.

GPT-4o, 2024

Revelado en mayo de 2024, GPT-4o es multilingüe y admite contenido en numerosos idiomas distintos del inglés. También es multimodal, capaz de procesar instrucciones de imagen, audio y video mientras genera texto, imágenes y contenido de audio en respuesta. Según OpenAI, GPT-4o es un 50 % más barato y dos veces más rápido¹⁰ con generación de texto que GPT-4 Turbo.

Riesgos de GPT

Si bien los GPT y otros modelos de IA generativa fueron ampliamente celebrados en los medios de comunicación, su uso no está exento de riesgos. Las organizaciones y las personas que buscan incorporar GPT en sus flujos de trabajo deben ser conscientes de los riesgos potenciales, incluyendo:

Privacidad y confidencialidad de los datos
Violaciones de la propiedad intelectual y conflictos de propiedad
Salida imprecisa
Sesgo del modelo

Privacidad y confidencialidad de los datos

Todos los datos introducidos en GPT están disponibles para que los emplee cuando procese otras consultas y OpenAI puede emplearlos para capacitar otros modelos. Esto no solo supone un riesgo de seguridad para los datos confidenciales, sino que también pone a las organizaciones en riesgo de incumplir las obligaciones contractuales y legales en materia de protección de datos.

Violaciones de la propiedad intelectual y conflictos de propiedad

OpenAI entrena sus modelos con materiales protegidos por derechos de autor. Si bien la empresa defiende esta elección como uso justo, ha sido objeto de acciones legales, incluyendo una demanda por The New York Times¹¹ presentada en diciembre de 2023. El resultado generado por IA puede incluir contenido protegido por derechos de autor, y su uso puede violar las restricciones de derechos de autor si no lo revisan ni editan seres humanos de antemano.

OpenAI también recibió críticas cuando se alegó que una de sus voces de ChatGPT estaba basada en la de la actriz Scarlett Johansson¹², quien interpretó la voz de una IA futurista en la película Her de 2013. Desde entonces, OpenAI dejó de usar esa voz en particular en sus productos.

Salida imprecisa

No se garantiza que el resultado generado por GPT sea objetivamente correcto. Los modelos de IA generativa están sujetos a alucinaciones o confabulaciones de IA, en las que sus algoritmos detectan patrones en datos que no existen. Las confabulaciones hacen que los modelos produzcan contenido inexacto que se presenta al usuario como si fuera un hecho confiable. Esta tendencia en lo que respecta a ChatGPT ha sido explorada extensamente en un documento de 2024 por Hicks y otros¹³.

Sesgo del modelo

El sesgo del modelo es una divergencia entre las predicciones de un modelo basadas en sus datos de entrenamiento y lo que sucede en el mundo real. GPT se entrena con grandes cantidades de datos de Internet y, debido a que este contenido es creado por personas, puede incluir opiniones discriminatorias, algunas veces intencionales aunque a menudo no. A medida que la IA se integra en la policía, la atención médica y otras áreas de la vida diaria, los sesgos de la IA pueden tener consecuencias en el mundo real.

Cómo elegir el modelo fundacional adecuado

Aprenda a elegir el enfoque correcto para preparar conjuntos de datos e implementar modelos fundacionales.

Recursos

Explorar IBM Granite

Descubra IBM® Granite, nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Descubra el poder de los LLM

Conozca a detalle los artículos, blogs y tutoriales de IBM Developer para profundizar sus conocimientos sobre LLMs.

La guía del director ejecutivo (CEO) para la optimización de modelos

Aprenda a impulsar continuamente a los equipos a mejorar el rendimiento del modelo y superar a la competencia mediante el uso de las últimas técnicas e infraestructura de IA.

Un enfoque diferenciado de los modelos fundacionales de IA

Explore el valor de los modelos fundacionales de nivel empresarial que proporcione confianza, rendimiento y beneficios rentables a todas las industrias.

Desbloquee el poder de la IA generativa + aprendizaje automático (ML)

Aprenda a incorporar la IA generativa, el machine learning y los modelos fundacionales en sus operaciones empresariales para mejorar el rendimiento.

IA en acción 2024

Lee sobre las 2000 organizaciones a las que encuestamos sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede avanzar.

Soluciones relacionadas

Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas mediante la incorporación de IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA