¿Qué es Google Gemini?

Una fotografía en blanco y negro del Centro Espacial Goddard llena de personas y equipos informáticos.

Autores

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es Google Gemini?

Gemini es el modelo de lenguaje de gran tamaño (LLM) de Google. En términos más generales, se trata de una familia de modelos de IA multimodal diseñados para procesar múltiples modalidades o tipos de datos, incluidos audio, imágenes, código de software, texto y vídeo.

Gemini también es el modelo que impulsa el chatbot IA generativa (IA generativa) de Google (antes Bard) del mismo nombre, al igual que Claude de Anthropic recibe su nombre tanto por el chatbot como por la familia de LLM que lo respaldan. Las aplicaciones Gemini, tanto en la web como en el móvil, actúan como una interfaz de chatbot para los modelos subyacentes.

Google está integrando gradualmente el chatbot Gemini en su conjunto de tecnologías. Por ejemplo, Gemini es el asistente de inteligencia artificial (IA) predeterminado en los últimos teléfonos Google Pixel 9 y Pixel 9 Pro, en sustitución de Google Assistant. En Google Workspace, Gemini está disponible en el panel lateral de Docs para ayudar a escribir y editar contenido, y en el panel lateral de Gmail para ayudar a redactar correos electrónicos, sugerir respuestas y buscar información en la bandeja de entrada de un usuario.

Otras aplicaciones de Google también están incorporando Gemini. Google Maps, por ejemplo, se basa en las capacidades del modelo Gemini para proporcionar resúmenes de lugares y áreas.

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Se ha suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Cómo funciona Google Gemini?

Gemini ha sido entrenado en un corpus masivo de conjuntos de datos multilingües y multimodales. Emplea un modelo de transformador, una arquitectura de redes neuronales que el propio Google introdujo en 2017.1

Este es un breve resumen de cómo funcionan los modelos de transformador:

  • Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas embeddings que capturan la semántica y la posición de los tokens en la secuencia de entrada.

  • Un mecanismo de autoatención permite a los transformadores "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición.

  • Los decodificadores utilizan este mecanismo de autoatención y las incrustaciones de los codificadores para generar la secuencia de salida estadísticamente más probable.

A diferencia de los modelos de transformadores generativos preentrenados (GPT) que solo aceptan instrucciones basadas en texto o los modelos de difusión utilizados para la generación de imágenes que toman instrucciones de texto e imagen, Google Gemini admite secuencias intercaladas de audio, imagen, texto y video como entradas y puede producir outputs intercalados de texto e imagen.2

Versiones de los modelos de IA de Gemini

La familia Gemini de modelos de IA multimodal viene en múltiples variantes. Cada variante está optimizada para diferentes dispositivos y tareas.

El modelo de primera generación de Gemini, 1.0, viene en Nano y Ultra. El modelo de próxima generación, 1.5, viene en Pro y Flash.

Se puede desarrollar y experimentar con las características y funciones de IA de Gemini a través de la API de Gemini en las plataformas de desarrollo de IA Google AI Studio y Google Cloud Vertex. Por ahora, solo están disponibles Gemini 1.5 Pro y Gemini 1.5 Flash.

Gemini 1.0 Nano

Gemini 1.0 Nano es la versión más pequeña de la familia 1.0 diseñada para funcionar en dispositivos móviles, incluso sin una red de datos. Puede realizar tareas en el dispositivo, como describir imágenes, sugerir respuestas a mensajes de chat, resumir texto y transcribir voz.

Gemini Nano está disponible en dispositivos Android a partir del Pixel 8 Pro. Más allá de sus límites solo para dispositivos móviles, Google está incorporando Gemini Nano en su cliente de escritorio Chrome.

Gemini 1.0 Ultra

Gemini 1.0 Ultra es la versión más grande de la familia 1.0 con capacidades analíticas avanzadas. Está diseñado para tareas altamente complejas como la codificación, el razonamiento matemático y el razonamiento multimodal. La ventana de contexto - el número de tokens que un modelo puede procesar a la vez - de Gemini Nano y Gemini Ultra es de 32 000 tokens2.

Gemini 1.5 Pro

Gemini 1.5 Pro es un modelo multimodal de tamaño medio con una ventana de contexto de hasta 2 millones de tokens. Esta larga ventana de contexto permite a Gemini Pro procesar información a mayor escala: desde horas de audio y vídeo hasta miles de líneas de código o cientos de páginas de documentos.3

Además de una arquitectura del transformador, Gemini 1.5 Pro aplica una arquitectura Mixture of Experts (MoE). Los modelos MoE se dividen en redes neuronales expertas más pequeñas, cada una especializada en un determinado dominio o tipo de datos. El modelo aprende a activar selectivamente solo a los expertos más relevantes en función del tipo de entrada. Esto se traduce en un rendimiento más rápido al tiempo que reduce los costes computacionales.4

Gemini 1.5 Flash

Gemini 1.5 Flash es una versión ligera de Gemini Pro. Se entrenó utilizando una técnica de machine learning (ML) llamada destilación del conocimiento, en la que los conocimientos de Gemini 1.5 Pro se transfirieron al Gemini 1.5 Flash más compacto. También cuenta con una ventana de contexto larga de hasta 1 millón de tokens, pero tiene una latencia más baja que lo hace más rápido y eficiente.3

Breve historia de Google Gemini

Google ha sido pionero en la arquitectura LLM y se basa en su sólida investigación para desarrollar sus propios modelos de IA.

  • 2017: Los investigadores de Google presentan la arquitectura del transformador, que sustenta muchos de los LLM actuales.

  • 2020: La empresa presenta el chatbot Meena, un agente conversacional basado en redes neuronales con 2600 millones de parámetros.5

  • 2021: Google presenta LaMDA (Language Model for Dialogue Applications), su LLM conversacional.6

  • 2022: Se lanza PaLM (Pathways Language Model), con capacidades más avanzadas en comparación con LaMDA.7

  • 2023: Bard comienza durante el primer trimestre del año, respaldado por una versión ligera y optimizada de LaMDA.8 En el segundo trimestre se lanza PaLM 2, con habilidades mejoradas de codificación, multilingüe y razonamiento, y Bard lo adopta.9 Google anuncia Gemini 1.0 en el último trimestre del año.

  • 2024: Google cambia el nombre de Bard a Gemini y actualiza sus modelos de IA multimodal a la versión 1.5.

La palabra "Gémini" significa "gemelos" en latín y es tanto un signo del zodiaco como una constelación. Era un nombre apropiado dado que el modelo Gemini es una creación de Google DeepMind, una fusión de fuerzas entre los equipos de DeepMind y Google Brain. La compañía también se inspiró en el Proyecto Gemini de la NASA, una nave espacial de dos personas integral para el éxito de la misión Apolo.10

Rendimiento de Gemini

Gemini Ultra supera a modelos similares en varios puntos de referencia de LLM. Supera a Claude 2, GPT-4 y Llama 2 en referencias como GSM8K para razonamiento matemático, HumanEval para generación de código y MMLU para comprensión del lenguaje natural.2

En particular, Gemini Ultra superó incluso el rendimiento de expertos humanos en MMLU. Sin embargo, GPT-4 aún funciona mejor que Gemini Ultra en el punto de referencia HellaSwag para el razonamiento de sentido común y la inferencia del lenguaje natural.2

Google también evaluó las capacidades multimodales de Gemini Ultra. Obtuvo mejores resultados que otros modelos en los puntos de referencia de comprensión de documentos, comprensión de imágenes y reconocimiento automático de voz. Y a pesar de superar a los LLM en los puntos de referencia de traducción automática de voz, subtítulos de vídeo en inglés, comprensión y razonamiento multimodal y respuesta a preguntas en vídeo, el rendimiento de Gemini Ultra en estas áreas deja margen de mejora.2

Mientras tanto, el rendimiento tanto de Gemini 1.5 Flash como de Gemini 1.5 Pro es comparable o incluso superior a Gemini 1.0 Ultra.11 A medida que aumenta su ventana de contexto, Gemini 1.5 Pro mantiene un alto nivel de rendimiento.4

Casos de uso de Gemini

Google Gemini aún se encuentra en sus primeras etapas, pero este modelo de IA altamente capaz tiene el potencial de implementarse en una amplia gama de aplicaciones:

  • Codificación avanzada

  • Comprensión de imágenes y textos

  • Traducción de idiomas

  • Análisis de malware

  • Expertos en IA personalizados

  • Agentes universales de IA

  • Asistentes de voz

Codificación avanzada

El modelo de IA de Gemini puede funcionar en lenguajes de programación como C++, Java y Python para comprender, explicar y generar código. Google utilizó versiones afinadas de Gemini Pro como modelos fundacionales para desarrollar AlphaCode2, un sistema de generación de código que puede resolver problemas de programación competitivos con elementos de informática teórica y matemáticas complejas.

Comprensión de imágenes y textos

Gemini se puede utilizar para extraer texto de imágenes e imágenes de pie de foto. Puede analizar imágenes como gráficos, diagramas y figuras sin la ayuda de herramientas de reconocimiento óptico de caracteres (OCR) que convierten imágenes de texto en un formato legible por máquina.

Traducción de idiomas

Debido a sus capacidades multilingües, los modelos de IA de Google se pueden utilizar para traducir diferentes idiomas. En la aplicación de videoconferencia Meet, por ejemplo, los usuarios pueden activar los subtítulos traducidos para traducir a y desde idiomas específicos.

Análisis de malware

Tanto Gemini 1.5 Pro como Gemini 1.5 Flash pueden emplearse para el análisis de malware. Gemini Pro puede determinar con precisión si un archivo o fragmento de código es malicioso y puede generar un informe detallado de sus hallazgos.12 Mientras tanto, Gemini Flash puede realizar una disección rápida y a gran escala de malware.13

Expertos en IA personalizados

Google lanzó recientemente una nueva característica llamada Gems que permite a los usuarios personalizar el chatbot Gemini para crear expertos de IA personalizados en cualquier tarea o tema. Algunos ejemplos de gemas prefabricadas incluyen un entrenador de aprendizaje para ayudar a desglosar temas complejos y hacerlos más fáciles de entender, un compañero de lluvia de ideas para ofrecer ideas frescas para el próximo vídeo y un editor de redacción para proporcionar comentarios sobre la gramática y la estructura.

Las gemas vienen con una suscripción Gemini Advanced, que utiliza el modelo Gemini 1.5 Pro.

Agentes de IA universales

A través del Proyecto Astra, Google se basa en sus modelos Gemini para crear un agente de IA universal que pueda procesar, recordar y comprender información multimodal en tiempo real. Para mejorar la recuperación y la eficiencia, Project Astra aprovecha el almacenamiento en caché, la codificación continua de fotogramas de vídeo y el acoplamiento de entrada de voz y vídeo en una línea temporal de eventos.14

En una de las demostraciones de Google, el asistente de IA Gemini pudo explicar las partes de un orador, reconocer el vecindario en el que se encontraba una persona y recordar dónde ponía sus gafas.14

Asistentes de voz

Con Gemini Live, los usuarios pueden tener un diálogo con el chatbot Gemini que se siente más natural y conversacional. Ofrece respuestas más intuitivas y puede adaptarse al estilo conversacional de una persona.

Riesgos de Gemini

Al igual que otros LLM, Google Gemini sigue lidiando con los riesgos de la IA. Se recomienda precaución, especialmente para las personas que tengan la intención de utilizar Gemini y las organizaciones que estén considerando el modelo para uso comercial o integración en sus flujos de trabajo.

Sesgo: en febrero de 2024, Google decidió pausar la capacidad del chatbot Gemini para crear imágenes de personas debido a su representación inexacta de figuras históricas, borrando una historia de prejuicios raciales.15

Alucinaciones: en el momento de redactar este artículo, los resultados de búsqueda generales de la IA respaldada por Gemini siguen generando ocasionalmente outputs objetivamente incorrectos.

Violaciones de propiedad intelectual: las autoridades francesas multaron a Google por entrenar su chatbot de IA con noticias y contenidos sin el conocimiento ni el consentimiento de los editores del país.16

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM en la cartera de IBM watsonx para escalar la IA generativa para su negocio con confianza.

Explore watsonx.ai Explore las soluciones de IA
Notas a pie de página

1 Transformer: A Novel Neural Network Architecture for Language Understanding. Google Research. 31 de agosto de 2017.

2 Gemini: A Family of Highly Capable Multimodal Models. Google DeepMind. Consultado el 16 de septiembre de 2024.

3 Gemini Models. Google DeepMind, Consultado el 16 de septiembre de 2024.

4 Our next-generation model: Gemini 1.5. Google. 15 de febrero de 2024.

5 Towards a Conversational Agent that Can Chat About…Anything. Google Research. 28 de enero de 2020.

6 LaMDA: our breakthrough conversation technology. Google. 18 de mayo de 2021.

7 Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance. Google Research. 4 de abril de 2022.

8 Try Bard and share your feedback. Google. 21 de marzo de 2023.

9 Introducing PaLM 2. Google. 10 de mayo de 2023.

10 How Google’s AI model Gemini got its name. Google. 15 de mayo de 2024.

11 Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. Google DeepMind. Consultado el 16 de septiembre de 2024.

12 From Assistant to Analyst: The Power of Gemini 1.5 Pro for Malware Analysis. Google Cloud. 30 de abril de 2024.

13 Scaling Up Malware Analysis with Gemini 1.5 Flash. Google Cloud. 16 de julio de 2024.

14 Project Astra. Google DeepMind. Consultado el 16 de septiembre de 2024.

15 Google chief admits ‘biased’ AI tool’s photo diversity offended users. The Guardian. 28 de febrero de 2024.

16 Google multado con 250 millones de euros en Francia por violar el acuerdo de propiedad intelectual, The Guardian, 20 de marzo de 2024.