Publicado: 18 septiembre de 2024
Colaboradores: Ivan Belcic, Cole Stryker
Los transformadores generativos preentrenados (GPT) son una familia de neural networks avanzadas diseñadas para tareas de procesamiento de lenguaje natural (PLN). Estos modelos de lenguaje extensos (LLMs) se basan en una arquitectura transformadora y están sujetos a un preentrenamiento no monitoreado en conjuntos de datos masivos sin etiquetar.
Los modelos GPT forman la base de muchas aplicaciones de IA generativa, tales como ChatGPT. Al igual que muchas formas de IA, GPT está diseñada para automatizar tareas con el objetivo de simular resultados creados por humanos.
La empresa de investigación de IA OpenAI presentó el primer modelo GPT, denominado GPT-1, en 2018. Desde entonces, lanzaron varios avances en la línea de GPT de modelos de IA. El modelo GPT más reciente es GPT-4, que se lanzó a principios de 2023. En mayo de 2024, OpenAI anunció el GPT-4o1 multilingüe y multimodal, capaz de procesar entradas de audio, visuales y de texto en tiempo real.
Como modelo fundacional, GPT se sometió a ajustes posteriores y se adaptó a una amplia gama de tareas específicas posteriores. Más allá de las aplicaciones basadas en texto, GPT impulsa aplicaciones de inteligencia artificial (IA) que generan y analizan imágenes a través de la visión artificial, escriben código, procesan datos y más. Estas aplicaciones se conectan a GPT a través de interfaces de programación de aplicaciones (APIs), que les permiten pasar datos de un lado a otro.
Aprenda a elegir el enfoque correcto para preparar conjuntos de datos e implementar modelos de IA.
La guía del CEO para la IA generativa
Los modelos GPT aceleraron el desarrollo de la IA generativa gracias a su arquitectura transformadora, un tipo de neural network introducida en 2017 en el documento de Google Brain Attention Is All You Need2. Los modelos de transformadores, incluyendo GPT y BERT, impulsaron muchos desarrollos notables en IA generativa desde entonces, con el chatbot ChatGPT de OpenAI ocupando un lugar central.
Además de OpenAI, otras empresas lanzaron sus propios modelos de IA generativa, incluyendo Claude de Anthropic, Pi de Inflection y Gemini de Google, anteriormente conocido como Bard. Mientras tanto, OpenAI impulsa el servicio de IA Copilot de Microsoft.
La flexibilidad de los modelos de transformadores como GPT los presta a una amplia gama de casos de uso. La capacidad de GPT para proporcionar una generación de texto similar a la humana lo convierte en una opción generalizada para:
Los chatbots impulsados por GPT pueden parecer más humanos que las opciones estándar de atención al cliente automatizado. A través de las APIs, las organizaciones pueden vincular GPT con aplicaciones de voz para crear asistentes de voz capaces de responder a declaraciones más complejas y proporcionar servicios de respuesta a preguntas conversacionales.
Con instrucciones efectivas, los modelos GPT pueden generar contenido de texto que va desde textos breves para redes sociales hasta entradas en el blog completas y correos electrónicos. Además, los escritores pueden usar GPT para delinear o idear contenido que luego escriben ellos mismos, agilizando los flujos de trabajo de creación de contenido.
El uso de GPT para generar contenido directamente para su publicación puede generar problemas de propiedad intelectual—uno de los principales riesgos del uso de GPT.
Las aplicaciones impulsadas por GPT pueden traducir lenguaje en tiempo real desde fuentes escritas y de audio. En una demostración en tiempo real3, GPT-4o demostró su capacidad para traducir en tiempo real por sí solo.
GPT puede procesar y resumir documentos extensos, como declaraciones legales o reportes comerciales. También puede reescribir el contenido en el estilo especificado por el usuario. Por ejemplo, un usuario podría proporcionar un reporte trimestral como datos de entrada y luego solicitar que se resuma en viñetas ingeniosas.
GPT puede procesar grandes volúmenes de datos para convertirlos en insights digeribles. A través de las API, otras aplicaciones pueden usar GPT para crear cuadros, gráficos y otros tipos de visualizaciones de datos. Las organizaciones que introducen datos internos en GPT pueden exponer a violaciones de seguridad cibernética o violar las normas de protección de datos.
Los modelos GPT pueden aprender lenguajes de programación y generar fragmentos de código. Los usuarios suelen disfrutar de mejores resultados cuando tratan a GPT como un asistente de programación en lugar de pedirle que cree aplicaciones completas desde cero. Todo el contenido generado por GPT, incluyendo el código, debe revisar antes de su uso para ayudar a garantizar la precisión y el uso justo.
En febrero de 2024, la Biblioteca Nacional de Medicina de Estados Unidos (el enlace se encuentra fuera de ibm.com) publicó un documento en el que se describen las posibles aplicaciones de GPT en el ámbito del cuidado de la salud. Entre ellas figuran el acceso uniforme de los pacientes de zonas remotas y las opciones de atención personalizada. Sin embargo, el documento también aborda una serie de inconvenientes, tales como los problemas de privacidad y las limitaciones de conocimientos.
Los modelos GPT funcionan analizando una secuencia de entrada y aplicando matemáticas complejas para predecir la salida más probable. Emplea la probabilidad para identificar la mejor palabra siguiente posible en una oración, en función de todas las palabras anteriores. Como un tipo de tecnología de IA de aprendizaje profundo, GPT puede procesar instrucciones en lenguaje natural para generar respuestas de texto relevantes similares a las humanas.
Cuando un usuario introduce un mensaje basado en texto, GPT crea la respuesta más probable en función de sus datos de entrenamiento, que comprenden miles de millones de fuentes de datos de texto disponibles públicamente, desde obras literarias famosas hasta código fuente abierto.
La inmensidad de sus conjuntos de datos de entrenamiento es lo que permite a GPT imitar las capacidades de comprensión del lenguaje similares a las humanas. Los modelos GPT a gran escala aplican el aprendizaje profundo para procesar el contexto y extraer conocimientos del texto relevante en sus datos de entrenamiento para predecir la respuesta óptima.
El poder de los modelos GPT proviene de dos aspectos clave:
Preentrenamiento generativo que muestra al modelo a detectar patrones en datos sin etiquetar y luego aplicar esos patrones a nuevas entradas.
Una arquitectura transformadora que permite que el modelo procese todas las partes de una secuencia de entrada en paralelo.
El preentrenamiento generativo es el proceso de capacitar un modelo de lenguaje extenso en datos sin etiquetar, mostrar al modelo a reconocer varios datos y perfeccionar su capacidad para crear predicciones precisas. Los GPT generan nuevos datos aplicando los patrones y la estructura de sus datos de preentrenamiento a las entradas de los usuarios.
El preentrenamiento generativo es una forma de aprendizaje no monitoreado, en el que el modelo recibe datos sin etiquetar y se ve obligado a darle sentido por sí solo. Al aprender a detectar patrones en conjuntos de datos sin etiquetar, los modelos de machine learning obtienen la capacidad de sacar conclusiones similares cuando se exponen a nuevas entradas, como una instrucción de un usuario en ChatGPT.
Los modelos GPT se capacitan con miles de millones o incluso billones de parámetros: variables internas que un modelo refina a lo largo del proceso de entrenamiento y que determinan cómo se comporta. Si bien OpenAI aún no ha revelado detalles precisos sobre GPT-4, se estima que el modelo contiene aproximadamente 1.8 billones de parámetros4 para un aumento de más de diez veces con respecto a GPT-3.5.
Los modelos transformadores son un tipo de neural network especializada en el procesamiento de lenguaje natural: que identifica la intención y el significado en una entrada basada en texto. Pueden procesar dinámicamente las entradas y concentrarse en las palabras más importantes, sin importar en qué parte de la oración se encuentren.
Los modelos GPT no entienden el lenguaje de la misma manera que los humanos. En su lugar, procesan las palabras en unidades discretas llamadas tokens, y algunas palabras se dividen en varios tokens. Al evaluar todos los tokens a la vez, los transformadores se destacan en el establecimiento de dependencias de largo alcance: relaciones entre tokens distantes. GPT se basa en su comprensión de las dependencias de largo alcance para procesar las entradas contextualmente.
Los modelos transformadores procesan datos con dos módulos conocidos como codificadores y decodificadores, mientras emplean mecanismos de autoatención para establecer dependencias y relaciones.
Los mecanismos de autoatención son la característica distintiva de los transformadores, lo que les permite procesar una secuencia de entrada completa a la vez. Los transformadores pueden autodirigir su "atención" a los tokens más importantes en la secuencia de entrada, sin importar dónde se encuentren.
Por el contrario, las neural networks recurrentes (RNNs) y las neural networks convolucionales (CNNs) más antiguas evalúan los datos de entrada de forma secuencial o jerárquica. La autoatención permite a GPT procesar el contexto y responder en profundidad con un lenguaje que se siente natural, en lugar de simplemente adivinar la siguiente palabra en una oración.
La codificación es el proceso de asignación de tokens a un espacio vectorial virtual tridimensional. Se supone que los tokens codificados cerca en el espacio 3D tienen un significado más similar. Esta vectorización matemática de una secuencia de entrada se conoce como incrustación.
Los bloques de codificadores en la red de transformadores asignan a cada incrustación un peso, lo que determina su importancia relativa. Mientras tanto, los codificadores de posición capturan la semántica, lo que permite que los modelos GPT diferencien entre agrupaciones de las mismas palabras pero en diferentes órdenes—por ejemplo, "El huevo vino antes que el pollo" en comparación con "El pollo vino antes que el huevo".
Los descodificadores predicen la respuesta estadísticamente más probable a las incrustaciones preparadas por los codificadores. Los mecanismos de autoatención permiten al descodificador identificar las partes más importantes de la secuencia de entrada, mientras que los algoritmos avanzados determinan la salida con más probabilidades de ser correcta.
Desde el lanzamiento de GPT en 2018, OpenAI se mantuvo a la vanguardia de la conversación en curso sobre la IA generativa. Además de su producto insignia ChatGPT, la empresa también buscó la generación de imágenes con DALL-E, así como el video generativo a través de Sora.
OpenAI lanza su modelo GPT debut. Su rendimiento fue impresionante para la época, sirviendo como prueba de concepto para lo que lograrían los desarrollos posteriores. GPT-1 pudo responder preguntas de una manera humana y responder a las instrucciones de generación de texto, destacando sus casos de uso futuros en chatbots y creación de contenido.
GPT-1 era comparativamente propenso a las alucinaciones o confabulaciones, en las que presentaba información incorrecta como si fuera real. Sus respuestas indicaron que OpenAI aún no perfeccionó la capacidad de GPT para identificar dependencias de largo alcance y encadenar respuestas precisas de forma larga.
El siguiente modelo de OpenAI contaba con 1.5 mil millones de parámetros, lo que mejoró su rendimiento. GPT-2 tuvo más éxito que su predecesor a la hora de mantener la coherencia en respuestas más largas, lo que sugiere que su detección de dependencia de largo alcance estaba mucho más establecido.
GPT-2 se lanzó por etapas, con varios modelos de capacidad limitada disponibles antes de la versión completa. En un comunicado5, OpenAI explicó que el lanzamiento escalonado fue necesario por la necesidad de mitigar el posible uso indebido y otras preocupaciones éticas. OpenAI citó cómo el modelo podría usarse para hacerse pasar por otros en línea, generar noticias engañosas y automatizar tanto el acoso cibernético como el contenido de phishing.
Aunque el director ejecutivo (CEO) de OpenAI, Sam Altman, hizo repetidas veces llamados públicos a la regulación gubernamental de la IA, la empresa también presionó en privado para que la Ley de IA de la UE fuera menos restrictiva6. La redacción final de la legislación, aprobada por el Parlamento Europeo en junio de 2024, parecía alinearse con las recomendaciones de la empresa.
Con 175 mil millones de parámetros—más de cien veces más que su predecesor—GPT-3 se convirtió en uno de los LLM más grandes del momento. Sus capacidades superaron con creces a las de los modelos anteriores de su linaje. La versión gratis de ChatGPT sigue funcionando con GPT-3.5, la versión más actual de GPT-3.
Si bien el rendimiento de GPT-3 reflejó su potencia y tamaño adicionales, sus demandas de entrenamiento también se dispararon. Los recursos informáticos y energéticos necesarios para capacitar LLMs tan grandes generaron preocupación con respecto a sus huellas de carbono y agua7. En respuesta, OpenAI desarrolló métodos de entrenamiento novedosos que aumentaron la eficiencia del proceso de entrenamiento.
La versión actual de GPT es la más poderosa de OpenAI hasta la fecha, superando a sus predecesoras tanto en calidad de contenido como en evitación de sesgos. Está detrás de la versión premium de ChatGPT, que ofrece a los abonados mayor funcionalidad y rendimiento que la versión impulsada por GPT-3.5 gratis del servicio.
Sin embargo, también es el modelo más intensivo en recursos de la familia GPT, con una estimación que calcula los precios operativos diarios en USD 700,0008. A medida que los LLMs continúan creciendo, persisten los debates sobre los costos frente a los beneficios potenciales. Un reporte publicado por Goldman Sachs en junio de 20249 se centró en los casos de uso potencialmente limitados de la IA generativa en comparación con los crecientes costos de entrenamiento y mantenimiento de los modelos.
GPT-4 Turbo, la iteración actual del modelo, tiene como fecha límite de conocimiento abril de 2023. Esto significa que sus datos de entrenamiento o base de conocimientos no cubren ningún contenido en línea publicado luego de ese momento.
Revelado en mayo de 2024, GPT-4o es multilingüe y admite contenido en numerosos idiomas distintos del inglés. También es multimodal, capaz de procesar instrucciones de imagen, audio y video mientras genera texto, imágenes y contenido de audio en respuesta. Según OpenAI, GPT-4o es un 50% más barato y dos veces más rápido10 con generación de texto que GPT-4 Turbo.
Si bien los GPT y otros modelos de IA generativa fueron ampliamente celebrados en los medios de comunicación, su uso no está exento de riesgos. Las organizaciones y las personas que buscan incorporar GPT en sus flujos de trabajo deben ser conscientes de los riesgos potenciales, incluyendo:
Privacidad y confidencialidad de los datos
Violaciones de la propiedad intelectual y conflictos de propiedad
Salida imprecisa
Sesgo del modelo
Todos los datos introducidos en GPT están disponibles para que los emplee cuando procese otras consultas y OpenAI puede emplearlos para capacitar otros modelos. Esto no solo supone un riesgo de seguridad para los datos confidenciales, sino que también pone a las organizaciones en riesgo de incumplir las obligaciones contractuales y legales en materia de protección de datos.
OpenAI capacita sus modelos con materiales protegidos por derechos de autor. Si bien la empresa defiende esta elección como uso justo, fue objeto de acciones legales, incluyendo una demanda de The New York Times11 presentada en diciembre de 2023. La salida generada por IA puede contener contenido protegido por derechos de autor, y su uso puede violar las restricciones de derechos de autor si no es examinado y editado por seres humanos de antemano.
OpenAI también fue objeto de críticas cuando se alegó que una de sus voces de ChatGPT se basaba en la de la actriz Scarlett Johansson12, quien interpretó la voz de una IA futurista en la película de 2013 Her. Desde entonces, OpenAI dejó de usar esa voz en particular en sus productos.
No se garantiza que la salida generada por GPT sea objetivamente correcta. Los modelos de IA generativa están sujetos a alucinaciones de IA o confabulaciones, en las que sus algoritmos detectan patrones en datos que no existen. Las confabulaciones hacen que los modelos produzcan contenido inexacto que se presenta al usuario como si fuera un hecho confiable. Esta tendencia en lo que respecta a ChatGPT fue explorada extensamente en un documento de 2024 por Hicks y otros13.
El sesgo del modelo es una divergencia entre las predicciones de un modelo basadas en sus datos de entrenamiento y lo que sucede en el mundo real. GPT se capacita con grandes cantidades de datos de Internet y, debido a que este contenido es creado por personas, puede contener opiniones discriminatorias—algunas veces intencionales, a menudo no. A medida que la IA se integra en la policía, el cuidado de la salud y otras áreas de la vida diaria, los sesgos de la IA pueden tener consecuencias en el mundo real.
Explore la biblioteca de IBM de los modelos fundacionales en la plataforma watsonx para escalar IA generativa para su negocio con confianza.
Aprenda más sobre un estudio empresarial de próxima generación para que los creadores de IA entrenen, validen, ajusten y desplieguen modelos de IA.
Redefina la manera en que trabaja con la IA empresarial.
Pase de los modelos piloto de IA a la producción y al impacto con tecnologías de IA creadas para empresas.
Aumente la competencia en la industria de productos de consumo con IA generativa.
Diseñar experiencias con IA generativa permite una mayor personalización y automatización y transforma a los creadores de contenido en curadores de contenido.
¿Pueden ayudar las herramientas de ética de la IA? ¿Las herramientas en sí mismas están sesgadas? He aquí un vistazo rápido a las últimas investigaciones.
1 Hola GPT-4o (el enlace se encuentra fuera de ibm.com), OpenAI, 13 de mayo de 2024
2 Attention Is All You Need (el enlace se encuentra fuera de ibm.com), Vaswani y otros, 12 de junio de 2017
3 Demostración en tiempo real de la traducción en tiempo real de GPT-4o (el enlace se encuentra fuera de ibm.com), OpenAI, 13 de mayo de 2024
4 GPT-4 Architecture, Infrastructure, Training Dataset, Costs, Vision, MoE (el enlace se encuentra fuera de ibm.com), Patel & Wong, 10 de julio de 2023
5 Mejores modelos lingüísticos y sus participaciones (el enlace se encuentra fuera de ibm.com), OpenAI, 14 de febrero de 2019
6 Exclusivo: OpenAI Lobbied the E.U. to Water Down AI Regulation (el enlace se encuentra fuera de ibm.com), Perrigo, 20 de junio de 2023
7 A Computer Scientist Breaks Down Generative AI's Hefty Carbon Footprint (el enlace se encuentra fuera de ibm.com), Saenko y otros, 25 de mayo de 2023
8 Microsoft Readies AI Chip as Machine Learning Costs Surge (el enlace se encuentra fuera de ibm.com), Gardizy & Ma, 18 de abril de 2023
9 GenAI: ¿Demasiado gasto y pocos beneficios? (el enlace se encuentra fuera de ibm.com), Nathan, Grimberg y Rhodes, 25 de junio de 2024
10 OpenAI Platform (el enlace se encuentra fuera de ibm.com), OpenAI
11 Caso 1:23-cv-11195 (el enlace se encuentra fuera de ibm.com), Barron y otros, 27 de diciembre de 2023
12 Scarlett Johansson dice que una voz de ChatGPT es 'inquietantemente similar' a la suya y OpenAI está deteniendo su uso (el enlace se encuentra fuera de ibm.com), Grantham-Philips, 21 de mayo de 2024
13 ChatGPT es una mierda (el enlace se encuentra fuera de ibm.com), Hicks y otros, 8 de junio de 2024