¿Qué es GPT-4o?

Autores

Staff writer

Staff Editor, AI Models

IBM Think

¿Qué es GPT-4o?

GPT-4o es un modelo de transformador generativo preentrenado multimodal y multilingüe lanzado en mayo de 2024 por el desarrollador de inteligencia artificial (IA) OpenAI.

Es el modelo insignia de modelos de lenguaje grandes (LLM) en la familia GPT-4 de modelos de IA, que también incluye GPT-4o mini, GPT-4 Turbo y el GPT-4 original.

El “o” en GPT-4o significa omni y destaca que GPT-4o es un modelo de IA multimodal con capacidades de sonido y visión. Esto significa que puede aceptar conjuntos de datos de instrucciones como una mezcla de entrada de texto, audio, imagen y video. GPT-4o también es capaz de generar imágenes. GPT-4o aporta capacidades de entrada y salida multimedia a la misma inteligencia GPT-4 impulsada por transformador que alimenta a los otros modelos de su línea.

Revelado en mayo de 2024 como parte de las actualizaciones de primavera de OpenAI, el nuevo modelo de ChatGPT parecía traducir el lenguaje hablado en tiempo real, adaptar las respuestas de audio para incluir contenido emocional y entablar conversaciones realistas.

Tanto GPT-4o como GPT-4o mini admiten el ajuste, lo que permite a los desarrolladores aplicar estos modelos a casos de uso específicos.

¿Qué es GPT-4o mini?

GPT-4o mini es un modelo GPT-4o más pequeño y rentable y el modelo de IA generativa más rápido de la familia de productos OpenAI. A diferencia de los LLM más grandes con decenas o cientos de miles de millones de parámetros, GPT-4o mini es un modelo pequeño y ágil. A pesar de su tamaño compacto, supera a GPT-3.5 Turbo con una velocidad similar y a aproximadamente el 60 % del costo.

Al igual que su hermano mayor, GPT-4o mini tiene capacidades multimodales, admite idiomas distintos del inglés y puede manejar tareas típicas de IA, como razonamiento, matemáticas y programación. A partir de la publicación, GPT-4o mini puede procesar texto y entrada de imágenes. OpenAI afirma que el soporte para contenido de audio y video está pendiente.

Los desarrolladores pueden acceder a GPT-4o mini a través de una API a un costo de 0.15 USD por millón de tokens de entrada y 0.60 centavos de dólar por millón de tokens de salida.

Imagen de un centro comercial con gente y una animación de ondas de radar en el centro

Diferencias entre GPT-4o & GPT-4 Turbo

GPT-4o es un modelo insignia integral capaz de procesar entradas y salidas multimodales por sí solo como una única red neuronal. Con los modelos anteriores, como GPT-4 Turbo y GPT-3.5, los usuarios necesitaban API de OpenAI y otros modelos de apoyo para introducir y generar distintos tipos de contenidos. Aunque GPT-4 Turbo puede procesar instrucciones de imagen, no es capaz de procesar audio sin ayuda de la API.

La naturaleza multimodal de GPT-4o es el mayor avance en comparación con GPT-4 Turbo y sustenta muchos de sus avances:

Conversaciones de audio en tiempo real
Capacidades de tono de voz
Procesamiento de video incorporado
Generación de imágenes
Mayor eficiencia del token

Conversaciones de audio en tiempo real

La velocidad más rápida y las capacidades multimodales de GPT-4o le permiten interactuar de manera conversacional y traducir idiomas a un ritmo más humano que GPT-4 Turbo. En una demostración en video como parte de su anuncio de lanzamiento¹, se mostró a ChatGPT-4o traducir en tiempo real entre hablantes de inglés y español. GPT-4o ofrece soporte de voz de chatbot en más de 50 idiomas.

Debido a que puede procesar entradas de audio por sí mismo, GPT-4o tiene una latencia más baja (el tiempo que se tarda en producir una salida desde el momento en que se recibe una entrada) que los modelos anteriores. Responde a la entrada de audio en 320 milisegundos, comparable al tiempo de respuesta humano típico de 210 milisegundos.

Las iteraciones anteriores de GPT-4 requerían múltiples modelos ensamblados en un pipeline para proporcionar un servicio similar, aumentando su latencia a 5.4 segundos. Antes de GPT-4o, la API Whisper de OpenAI convertía las instrucciones de audio en texto, las alimentaba a GPT-4 Turbo y, a continuación, los servicios de Text to Speech (TTS) convertían las respuestas de GPT en audio.

GPT-4 Turbo también era un modelo más lento en general. En las pruebas de punto de referencia realizadas por la organización de evaluación de IA Artificial Analysis², GPT-4o demostró una velocidad de 110 tokens por segundo, aproximadamente tres veces más rápido que GPT-4 Turbo. En la misma prueba, GPT-4o también superó a muchos competidores, como Claude 3 Opus y Gemini 1.5 Pro.

Capacidades de tono de voz

El pipeline Whisper-GPT-TTS anterior significaba que, al enviar entradas de audio, GPT-4 Turbo recibía solo una transcripción de texto de lo que se decía. La transcripción aísla el contenido hablado por el usuario mientras filtra el ruido de fondo, las identidades del hablante y el tono de voz, privando a GPT de datos contextuales sustanciales.

Como modelo multimodal, GPT-4o puede procesar la totalidad de una entrada de audio y responder adecuadamente a este contexto adicional. Su procesamiento de lenguaje natural (PLN) mejorado le permite incluir sentimiento, tono y contenido emocional en su generación de salida cuando se emplea en modo de voz.

Procesamiento de video incorporado

GPT-4o maneja la entrada de imágenes y videos, además de texto y audio. GPT-4o puede conectarse a una transmisión de cámara en tiempo real o grabar la pantalla de un usuario, luego describir lo que ve y responder preguntas. Los usuarios pueden encender las cámaras de sus teléfonos inteligentes y hablar con ChatGPT-4o de la misma manera que con un amigo o colega.

Anteriormente, la API GPT-4 Vision permitía a GPT-4 Turbo analizar el contenido visual.

Generación de imágenes

Según la declaración de lanzamiento de OpenAI, GPT-4o ofrece capacidades de generación de imágenes autónomas. GPT-4 Turbo solo pudo generar imágenes conectándose al modelo DALL-E 3 de OpenAI. GPT-4 Turbo presentaría una instrucción y luego DALL-E crearía la imagen.

Mayor eficiencia del token

OpenAI mejoró las capacidades de tokenización de GPT-4 con GPT-4o. La tokenización es el proceso mediante el cual los LLM convierten palabras en datos. Cada token representa una palabra completa o parte de una y puntuación. Los modelos de IA convierten palabras en tokens y luego aplican matemáticas complejas para analizar esos datos.

GPT-4o convierte idiomas no romanos, como chino, hindi y árabe, en tokens de manera mucho más eficiente que sus predecesores. Debido a que OpenAI cobra a los usuarios de API por token de entrada o salida, la eficiencia mejorada de GPT-4o en scripts no romanos hace que sea más rentable para los casos de uso en esos idiomas.

¿Qué es GPT?

¿Qué más puede hacer GPT-4o?

Además de sus nuevas capacidades multimodales, GPT-4o aporta muchas de las mismas funciones que se vieron en iteraciones anteriores:

Respuesta a preguntas
Análisis y resumen de documentos
Análisis de sentimientos
Análisis de datos
Programación

Respuesta a preguntas

Con un límite de conocimiento de octubre de 2023, GPT-4o es el modelo más actual de OpenAI en términos de su base de conocimientos. Un límite de conocimiento es el punto en el tiempo en el que concluyen los datos de entrenamiento de un modelo. Los usuarios pueden hacer preguntas sobre GPT-4o y recibir respuestas, aunque hay riesgo de alucionaciones.

Análisis y resumen de documentos

Los usuarios pueden subir archivos y hacer que ChatGPT los analice y resuma. La ventana de contexto de GPT-4o de 128 000 tokens le permite procesar grandes conjuntos de datos de entrada, aunque eso no es tan grande como el de Claude 3.

La ventana de contexto de un LLM representa el número máximo de tokens que puede desplegar mientras mantiene la concientización contextual sobre toda la secuencia de entrada. Una ventana de contexto más grande permite que los modelos de IA admitan instrucciones más complejas e incluyan más información de los usuarios al generar respuestas.

GPT-4 ya demostró una capacidad real para leer documentos a través del reconocimiento óptico de caracteres (OCR) mediante el uso de la API GPT-4 Vision.

Análisis de sentimiento

El análisis de sentimientos es el proceso de discernir cómo se siente una persona a partir de sus declaraciones o comportamientos. Los investigadores emplean modelos de IA para realizar análisis de sentimientos a escala, por ejemplo, al analizar los comentarios de los usuarios. Como modelo multimodal, GPT-4o puede identificar el sentimiento a partir de una entrada de audio.

Análisis de datos

GPT-4o puede procesar conjuntos de datos complejos y extraer insights aplicables en la práctica, como se ve con las plataformas de analytics de autoservicio. También puede representar datos como tablas y gráficos.

Programación

GPT-4o no es el primer LLM con capacidades de programación, pero su naturaleza multimodal puede simplificar los flujos de trabajo para los programadores. En lugar de copiar y pegar código en la interfaz de usuario, los usuarios pueden compartir sus pantallas y permitir que GPT-4o analice su código, proporcione feedback y genere fragmentos de código.

Lista de LLMs más conocidos

¿Cómo funciona GPT-4o?

Al revelar GPT-4o, OpenAI publicó los resultados de las pruebas de puntos de referencia de LLM que comparan su nuevo modelo con la competencia. GPT-4 Turbo, GPT-4 como se lanzó inicialmente, Claude 3 Opus de Anthropic, Llama 3 400B de Meta y Gemini 1.5 Pro y Gemini 1.0 Ultra de Google se probaron junto con GPT-4o en varias pruebas de puntos de referencia líderes.

Las pruebas incluyeron Massive Multitask Language Understanding (MMLU), que evalúa la base de conocimientos y las habilidades de resolución de problemas, y HumanEval, una prueba de verificación de código. OpenAI no probó GPT-4o con los modelos de Google en Graduate-Level Google-Proof Q&A (GPQA), un examen de ciencias que requiere un razonamiento extenso. Llama 3 400B tampoco se incluyó en Multilingual Grade School Math (MGSM), un examen de matemáticas que se realiza en 10 idiomas.

GPT-4o ocupó el primer lugar en cuatro de las seis pruebas, quedando segundo detrás de Claude 3 Opus en MGSM y de GPT-4 Turbo en Discrete Reasoning Over Paragraphs (DROP), que prueba la capacidad de un modelo para razonar en varios párrafos.

En general, GPT-4o no demostró un aumento significativo en el rendimiento sobre GPT-4 Turbo. Sus avances comparativos radican principalmente en sus capacidades multimodales y su mayor velocidad.

¿Qué son los modelos de visión-lenguaje (VLM)?

¿Cómo se puede acceder a GPT-4o?

OpenAI está poniendo GPT-4o a disposición de los usuarios gratis y premium en varias ubicaciones y productos:

ChatGPT Plus, Team y Enterprise
ChatGPT gratis
Aplicación de escritorio y móvil
Aplicaciones de IA
Microsoft Azure OpenAI Studio

ChatGPT Plus, Teams y Enterprise

Los suscriptores de los servicios premium ChatGPT de OpenAI tienen diferentes niveles de acceso a GPT-4o. Los usuarios de ChatGPT Plus pueden enviar hasta 80 mensajes cada 3 horas en GPT-4o, y los usuarios del equipo obtienen más acceso. Los usuarios Enterprise tienen acceso ilimitado a GPT-4o.

ChatGPT gratis

Los usuarios del nivel gratis ChatGPT pueden interactuar con GPT-4o como modelo predeterminado detrás del chatbot mientras la demanda lo permita. Cuando un usuario gratis alcanza su límite, se le revierte a GPT-4o mini³.

Aplicaciones de escritorio y móviles

OpenAI lanzó una aplicación de escritorio macOS junto con GPT-4o que integra el nuevo modelo con el MacBook de un usuario. Las aplicaciones móviles ChatGPT de OpenAI también otorgan acceso a GPT-4o según el nivel de suscripción del usuario.

Aplicaciones de IA

Los usuarios de ChatGPT Plus, Teams y Enterprise pueden crear GPT personalizados a través de los cuales ellos y otros pueden usar versiones especializadas de GPT-4o adaptadas a casos de uso específicos. Los desarrolladores también pueden conectarse a GPT-4o a través de API para crear otras herramientas de IA.

Microsoft Azure OpenAI Studio

GPT-4o y GPT-4o mini están disponibles en Azure OpenAI Studio de Microsoft, parte de la plataforma de IA empresarial Azure de Microsoft. A partir de la publicación, Copilot continúa ofreciendo GPT-4 Turbo, aunque Microsoft anunció en mayo de 2024⁴ que su servicio de IA pronto recibiría soporte para GPT-4o.

¿Qué es una ventana de contexto?

¿Cuáles son los riesgos del uso de GPT-4o?

Para mitigar el uso potencial en estafas de vishing, deepfakes y otros tipos de fraude de audio, OpenAI limitó GPT-4o a cuatro voces preestablecidas en el lanzamiento. Pero como ocurre con cualquier lanzamiento de IA generativa, GPT-4o es un modelo imperfecto. Los riesgos de su uso incluyen:

Alucinaciones

Al igual que todos los modelos de IA, GPT-4o puede alucinar cuando detecta patrones en sus datos que no existen, lo que hace que presente información incorrecta como basada en hechos. Nunca es recomendable emplear contenido generado por IA sin antes examinarlo o verificarlo.

Filtraciones de datos

OpenAI continúa almacenando entradas proporcionadas por los usuarios y entrenando sus modelos con ellas. Los usuarios que ingresan datos protegidos en ChatGPT pueden encontrar que sus datos aparecen en las respuestas del modelo a otros usuarios.

Violaciones de propiedad intelectual

OpenAI entrena sus modelos con datos disponibles en línea, incluido material protegido por derechos de autor, como artículos de noticias. Los modelos pueden generar contenido protegido por derechos de autor sin darse cuenta como parte de una respuesta.

OpenAI clasificó a GPT-4o como un modelo de riesgo medio en su escala interna. Los modelos se evalúan en función de cuatro métricas de amenaza: ciberseguridad, y amenazas químicas, biológicas, radiológicas y nucleares (NBQ), persuasión y autonomía del modelo. OpenAI evalúa los modelos según el grado en que se pueden emplear para impulsar avances en cada campo de amenaza.

Una vez evaluados, los modelos reciben una puntuación que va de baja a crítica en cada campo, y luego se les asigna una puntuación general correspondiente a su clasificación de amenaza más alta después de considerar cualquier medida de mitigación.

GPT-4o obtuvo una puntuación baja en tres de cuatro categorias, con un puntaje medio en persuasión. Esto significa que “puede crear contenido (potencialmente interactivo) con una eficacia persuasiva comparable al contenido típico escrito por humanos”.⁵

Notas de pie de página

1. Hello GPT-4o, OpenAI, 13 de mayo de 2024

2. GPT-4o: Quality, Performance & Price Analysis, Artificial Analysis, 2024

3. Using ChatGPT's Free Tier - FAQ, OpenAI, 2024

4. Microsoft’s Copilot Embraces the Power of OpenAI's New GPT-4o, CNET, 24 de mayo de 2024

5. Preparedness  Framework  (Beta), OpenAI, 18 de diciembre de 2023

Cómo elegir el modelo fundacional adecuado

Aprenda a elegir el enfoque correcto para preparar conjuntos de datos e implementar modelos fundacionales.

¿Qué es GPT-4o?

Autores

¿Qué es GPT-4o?

¿Qué es GPT-4o mini?

Diferencias entre GPT-4o & GPT-4 Turbo

Conversaciones de audio en tiempo real

Capacidades de tono de voz

Procesamiento de video incorporado

Generación de imágenes

Mayor eficiencia del token

¿Qué más puede hacer GPT-4o?

Respuesta a preguntas

Análisis y resumen de documentos

Análisis de sentimiento

Análisis de datos

Programación

¿Cómo funciona GPT-4o?

¿Cómo se puede acceder a GPT-4o?

ChatGPT Plus, Teams y Enterprise

ChatGPT gratis

Aplicaciones de escritorio y móviles

Aplicaciones de IA

Microsoft Azure OpenAI Studio

¿Cuáles son los riesgos del uso de GPT-4o?

Alucinaciones

Filtraciones de datos

Violaciones de propiedad intelectual

Notas de pie de página

Recursos