Gemma es la familia de modelos de lenguaje pequeños (SLM) gratuitos y abiertos de Google. Están construidos con la misma tecnología que la familia Gemini de modelos de lenguaje de gran tamaño (LLM) y se consideran versiones "ligeras" de Gemini.
Como son más ágiles que los modelos Gemini, los modelos Gemma se pueden implementar en ordenadores portátiles y dispositivos móviles, pero también están optimizados para unidades de procesamiento gráfico (GPU) NVIDIA y unidades de procesamiento tensorial (TPU) de Google nube. Sin embargo, a diferencia de Gemini, Gemma no es multilingüe ni multimodal.
Estos modelos de inteligencia artificial (IA) de texto a texto derivan su nombre de la misma palabra latina, que significa "piedra preciosa". Gemma es un grupo de modelos abiertos, con Google proporcionando acceso gratuito a las ponderaciones del modelo, y los modelos están disponibles gratuitamente para uso individual y comercial y redistribución.1
Los modelos de primera generación de Gemma se presentaron en febrero de 2024,1 mientras que los modelos de segunda generación se anunciaron en junio de 2024.2
La colección de modelos de IA de Gemma incluye Gemma y Gemma 2 en su núcleo, además de algunos modelos más especializados que se han optimizado para tareas específicas y tienen una arquitectura diferente que los sustenta. Los modelos de la línea Gemma tienen variantes básicas o preentrenadas y variantes ajustadas por instrucciones.
Gema Es la primera generación de los modelos Gemma. Gemma 2B es la más pequeña con dos mil millones de parámetros, mientras que Gemma 7B tiene siete mil millones de parámetros. Estos modelos se entrenaron con conjuntos de datos de código y matemáticas y, en su mayoría, con contenidos en inglés procedentes de documentos web.3
Gemma 2 es la segunda generación de la familia Gemma. Según Google, Gemma 2 tiene un mejor rendimiento y es más eficiente en la inferencia de IA (cuando un modelo genera una respuesta a la consulta de un usuario) en comparación con su predecesor.2
El modelo está disponible en dos, nueve y 27 mil millones de tamaños de parámetros. Sus conjuntos de datos de entrenamiento abarcan documentos web, código y artículos científicos en inglés.4
Este modelo de texto a código está afinado para tareas de codificación. Es compatible con múltiples lenguajes de programación, incluidos C++, C#, Go, Java, JavaScript, Kotlin, Python y Rust.5
CodeGemma tiene una variante preentrenada 7B para la finalización y generación de código, una variante ajustada por instrucciones 7B para el chat de código en lenguaje natural y el seguimiento de instrucciones y una variante preentrenada 2B para la finalización rápida de código.5
DataGemma se compone de modelos Gemma y Gemma 2 ajustados que complementan sus respuestas con datos de Data Commons de Google, un repositorio de datos estadísticos públicos. Los modelos RIG de DataGemma aplican la generación intercalada de recuperación para crear consultas en lenguaje natural para obtener datos de Data Commons. Mientras tanto, los modelos RAG de DataGemma emplean la generación aumentada por recuperación para obtener datos de Data Commons que pueden aumentar las instrucciones de los modelos.6
Este modelo de visión-lenguaje acepta tanto imágenes como texto como entrada y produce texto como salida. Como tal, es ideal para responder preguntas sobre imágenes, detectar objetos dentro de imágenes, generar pies de imagen y leer texto incrustado en imágenes. Su arquitectura subyacente consiste en un codificador de imágenes por transformador de visión y un descodificador de texto por transformador inicializado a partir de Gemma 2B.7
PaliGemma tiene un conjunto de modelos preentrenados de propósito general y un conjunto de modelos orientados a la investigación ajustados en ciertos conjuntos de datos de investigación. Google señala que la mayoría de los modelos de PaliGemma requieren un ajuste fino y que los resultados deben probarse antes de su implementación en los usuarios.8
RecurrentGemma utiliza una arquitectura de red neuronal recurrente desarrollada por investigadores de Google. Esto hace que sea más rápido en la inferencia, especialmente cuando se generan secuencias largas, y requiere menos memoria que Gemma. Viene en modelos 2B y 9B preentrenados y ajustados por instrucciones.9
CodeGemma y PaliGemma tienen sus propios casos de uso específicos. Pero, en general, la gente puede usar Gemma para tareas de procesamiento del lenguaje natural (PNL) y comprensión del lenguaje natural, que incluyen:
Gemma se basa en un modelo transformador, una arquitectura de redes neuronales que se originó en Google en 2017.10
Este es un breve resumen de cómo funcionan los modelos de transformador:
Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas incrustaciones que capturan la semántica y la posición de los tokens en la secuencia de entrada.
Un mecanismo de autoatención permite a los transformadores "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición.
Los decodificadores utilizan este mecanismo de autoatención y las incrustaciones de los codificadores para generar la secuencia de salida estadísticamente más probable.
Sin embargo, Gemma utiliza una variante de la arquitectura del transformador conocida como transformador de solo decodificador11. En este modelo, las secuencias de entrada se introducen directamente en el decodificador, que aún utiliza incrustaciones y mecanismos de atención para generar la secuencia de salida.
Los modelos de primera generación de Gemma mejoran los transformadores a través de algunos elementos arquitectónicos:
Cada capa de la red neuronal aplica incrustaciones posicionales rotativas en lugar de incrustaciones posicionales absolutas. Las incrustaciones también se comparten entre entradas y salidas para comprimir el modelo.3
Gemma 7B emplea la atención multicabezal, con múltiples "cabezas de atención" que tienen sus propias claves y valores para capturar diferentes tipos de relaciones entre los tokens. Por el contrario, Gemma 2B emplea la atención multiconsulta, en la que todas las cabezas de atención comparten un único conjunto de claves y valores, lo que mejora la velocidad y disminuye la carga de memoria.11
Gemma 2 utiliza redes neuronales más profundas que Gemma. Estas son algunas otras diferencias arquitectónicas notables:4
En todas las demás capas de su red neuronal, Gemma 2 alterna entre una atención de ventana deslizante local y una atención global. La atención de ventana deslizante local es un mecanismo dinámico para centrarse en ciertas "ventanas" de tamaño fijo de secuencias de entrada, lo que permite a los modelos concentrarse solo en unas pocas palabras a la vez. Mientras tanto, la atención global se ocupa de cada token de la secuencia.
Gemma 2 también emplea la atención a consultas agrupadas, un método de divida y vencerá que divide las consultas en grupos más pequeños y calcula la atención dentro de cada grupo por separado.
Además, los modelos Gemma 2 2B y 9B aplican la destilación de conocimiento, que implica "destilar" el conocimiento de un modelo más grande en uno más pequeño entrenando al modelo segundo para emular el proceso de razonamiento del primero y hacer coincidir sus predicciones.
En términos de ajuste de las instrucciones, que prepara al modelo para seguir mejor las instrucciones, tanto Gemma como Gemma 2 aplican el aprendizaje supervisado de ajustes y refuerzos a partir del feedback humano(RLHF).4 El ajuste detallado supervisado utiliza ejemplos etiquetados de tareas orientadas a la instrucción para enseñar a la modelo cómo estructurar sus respuestas. Mientras tanto, el RLHF utiliza un modelo de recompensas para traducir las valoraciones de calidad de los evaluadores humanos en señales de recompensa numéricas, lo que ayuda a los modelos a saber qué respuestas obtienen comentarios positivos.
Las evaluaciones del rendimiento de Gemma 7B en las referencias LLM que abarcan generación de código, razonamiento de sentido común, comprensión del lenguaje, razonamiento matemático y respuesta a preguntas indican que es comparable a SLM de una escala similar, como Llama 3 8B y Mistral 7B. Gemma 2 9B y 27B obtuvieron un rendimiento aún mejor, superando tanto a Llama 3 8B como a Mistral 7B en la mayoría de las referencias.12
Sin embargo, Llama 3.2 3B y Ministral 3B, los últimos SLM de Meta y Mistral, respectivamente, han superado a Gemma 2 2B en varios puntos de referencia.13 El PHI-3-mini de Microsoft, un modelo de lenguaje de 3,8 mil millones de parámetros, también obtuvo un rendimiento superior al del Gemma 7B.14
Se puede acceder a los modelos Gemma a través de estas plataformas:
Google AI Studio
Hugging Face (también integrado en Hugging Face Transformers)
Kaggle
Vertex AI Model Garden
Además, los desarrolladores pueden implementar los modelos en marcos de machine learning de código abierto como JAX, LangChain, PyTorch y TensorFlow, y a través de interfaces de programación de aplicaciones (API) como Keras 3.0. Además, dado que Gemma incluye optimización en las GPU NVIDIA, los desarrolladores pueden utilizar las herramientas de NVIDIA, incluido el marco NeMo para afinar los modelos y TensorRT-LLM para optimizarlos para una inferencia eficiente en las GPU NVIDIA.
Para el desarrollo de la IA empresarial, los modelos Gemma se pueden implementar en Google Cloud Vertex AI y Google Kubernetes Engine (GKE). Para quienes tengan una potencia de cálculo limitada, Google Colab ofrece acceso gratuito en la nube a recursos como GPU y TPU.
Al igual que otros modelos de IA, Google Gemma sigue lidiando con los riesgos de la IA, que incluyen:
Sesgo: los modelos más pequeños pueden aprender del sesgo presente en sus homólogos más grandes, y este efecto dominó puede reflejarse en sus resultados.
Alucinaciones: verificar y monitorizar los resultados de los SLMs como Gemma es esencial para asegurarse de que lo que producen es preciso y objetivamente correcto.
Violaciones de la privacidad: Google señala que los conjuntos de datos de entrenamiento de Gemma y Gemma 2 se han filtrado para eliminar cierta información personal y otros datos confidenciales.4 Sin embargo, los usuarios individuales y las empresas deben tener cuidado con los datos que utilizan para ajustar Gemma y evitar filtrar datos personales o de propiedad.
En lo que respecta a la seguridad y la protección, Google evaluó a Gemma según varias métricas, como la ciberseguridad ofensiva, el conocimiento QBRN (químico, biológico, radiológico y nuclear), la autoproliferación (la capacidad de replicarse de forma autónoma) y la persuasión. El conocimiento de Gemma en dominios CBRN es bajo. Del mismo modo, el modelo tiene bajas capacidades en ciberseguridad ofensiva, autoproliferación y persuasión.4
Google lanzó un kit de herramientas de IA generativa responsable para ayudar a los investigadores y desarrolladores de IA a construir aplicaciones de IA responsables y seguras.1
Todos los vínculos residen fuera de ibm.com
1 Gemma: Introducing new state-of-the-art open models. Google. 21 de febrero de 2024
2 Gemma 2 is now available to researchers and developers, Google. 27 de junio de 2024
3 Gemma: Open Models Based on Gemini Research and Technology. Google DeepMind. 21 de febrero de 2024
4 Gemma 2: Improving Open Language Models at a Practical Size. Google DeepMind. 27 de junio de 2024
5 CodeGemma model card. Google AI for developers. 5 de agosto de 2024
6 Knowing When to Ask — Bridging Large Language Models and Data. arXiv. 10 de septiembre de 2024
7 PaliGemma model card. GoogleAI for developers. 5 de agosto de 2024
8 PaliGemma. Google AI for developers. 5 de agosto de 2024
9 RecurrentGemma model card. Google AI for developers. 5 de agosto de 2024
10 Transformer: A Novel Neural Network Architecture for Language Understanding. Google Research. 31 de agosto de 2017
11 Gemma explained: An overview of Gemma model family architectures. Google for Developers. 15 de agosto de 2024
12 Gemma Open Models. Google AI for Developers. Consultado el 5 de noviembre de 2024
13 Un Ministral, des Ministraux. Mistral AI. 16 de octubre de 2024
14 Introducing Phi-3: Redefining what’s possible with SLMs. Microsoft. 23 de abril de 2024
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.