Gemma es la familia de modelos de lenguaje pequeño (SLM) gratis y abiertos de Google. SLMs. Se crean a partir de la misma tecnología que la familia Gemini de modelos de lenguaje grande (LLM) y se consideran versiones "ligeras" de Gemini.
Debido a que son más delgados que los modelos Gemini, los modelos Gemma se pueden desplegar en computadora portátil y dispositivos móviles, pero también están optimizados para unidades de procesamiento de gráficos (GPU) de NVIDIA y unidades de procesamiento tensorial (TPU) de Google Cloud. Sin embargo, a diferencia de Géminis, Gemma no es multilingüe ni multimodal.
Estos modelos de inteligencia artificial (IA) de texto a texto derivan su nombre de la misma palabra latina, que significa “piedra preciosa”. Gemma es un grupo de modelos abiertos, a los que Google proporciona acceso gratis y los modelos están disponibles gratuitamente para uso individual y comercial y para su redistribución.1
Los modelos de primera generación de Gemma se introdujeron en febrero de 2024,1 mientras que los modelos de segunda generación se anunciaron en junio de 2024.2
La colección de modelos de IA de Gemma incluye Gemma y Gemma 2 en su núcleo, además de algunos modelos más especializados que se han optimizado para tareas específicas y tienen una arquitectura diferente que los sustenta. Los modelos de la línea Gemma tienen variantes básicas o preentrenadas y variantes ajustadas por instrucciones.
Gema Es la primera generación de los modelos Gemma. Gemma 2B es la más pequeña con 2 mil millones de parámetros, mientras que Gemma 7B tiene 7 mil millones de parámetros. Estos modelos se capacitaron con conjuntos de datos de código y matemáticas y, principalmente, con contenido en inglés de documentos sitio web.3
Gemma 2 Es la segunda generación de la familia Gemma. Según Google, Gemma 2 tiene un mejor rendimiento y es más eficiente en la inferencia de AI (cuando un modelo genera una respuesta a la consulta de un usuario) en comparación con su predecesor.2
El modelo está disponible en tamaños de 2, 9 y 27 mil millones de parámetros. Sus conjuntos de datos de entrenamiento abarcan documentos sitio web en inglés, códigos y artículos científicos.4
Este modelo de texto a código está ajustado para tareas de programación. Admite múltiples lenguajes de programación, incluidos C++, C#, Go, Java, JavaScript, Kotlin, Python y Rust.5
CodeGemma tiene una variante preentrenada 7B para completar y generar código, una variante ajustada por instrucciones 7B para chat de código en lenguaje natural y seguimiento de instrucciones y una variante preentrenada 2B para completar código rápidamente.5
DataGemma está compuesto por modelos afinados Gemma y Gemma 2 que complementan sus respuestas con datos de Data Commons de Google, un repositorio de datos estadísticos públicos. Los modelos DataGemma RIG aplican generación intercalada de recuperación para crear consultas en lenguaje natural para obtener datos de Data Commons. Mientras tanto, los modelos DataGemma RAG emplean generación aumentada por recuperación de Data Commons que pueden aumentar las instrucciones de los modelos.6
Este modelo de visión y lenguaje acepta tanto imágenes como texto como entrada y produce texto como salida. Como tal, es ideal para responder preguntas sobre imágenes, detectar objetos dentro de imágenes, generar leyendas de imágenes y leer texto incrustado en imágenes. Su arquitectura subyacente consiste en un codificador de imágenes de transformador de visión y un decodificador de texto de transformador inicializado desde Gemma 2B.7
PaliGemma tiene un conjunto de modelos de propósito general preentrenados y un conjunto de modelos orientados a la investigación ajustados en determinados conjuntos de datos de investigación. Google señala que la mayoría de los modelos de PaliGemma requieren un ajuste fino y los resultados deben probarse antes de su despliegue para los usuarios.8
RecurrentGemma utiliza una arquitectura de red neuronal recurrente desarrollada por investigadores de Google. Esto hace que sea más rápido en la inferencia, especialmente cuando se generan secuencias largas, y requiere menos memoria que Gemma. Viene en modelos 2B y 9B preentrenados y ajustados por instrucciones. 9
CodeGemma y PaliGemma tienen sus propios casos de uso específicos. Pero, en general, las personas pueden usar Gemma para tareas de procesamiento de lenguaje natural (NLP) y natural language understanding, que incluyen:
Gemma se basa en un modelo transformador, una arquitectura de Neural Networks que se originó en Google en 2017.10
Esta es una breve descripción de cómo funcionan los modelos transformadores:
Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas incrustaciones, que capturan la semántica y la posición de los tokens en la secuencia de entrada.
Un mecanismo de autoatención permite a los transformers "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición.
Los decodificadores utilizan este mecanismo de autoatención y las incrustaciones de los codificadores para generar la secuencia de salida estadísticamente más probable.
Sin embargo, Gemma utiliza una variante de la arquitectura transformadora conocida como transformador de solo decodificador.11 En este modelo, las secuencias de entrada se introducen directamente en el decodificador, que aún utiliza incrustaciones y mecanismos de atención para generar la secuencia de resultados.
Los modelos de primera generación de Gemma mejoran los transformadores a través de algunos elementos arquitectónicos:
Cada capa de Neural Networks aplica embedas posicionales rotativas en lugar de embedas posicionales absolutas. Las embedecimientos también se comparten entre entradas y salidas para comprimir el modelo.3
Gemma 7B emplea la atención multicabezal, con múltiples "cabezas de atención" que tienen sus propias claves y valores para capturar diferentes tipos de relaciones entre token. Por el contrario, Gemma 2B emplea la atención multiconsulta, donde todos los cabezales de atención comparten un único conjunto de claves y valores, lo que mejora la velocidad y disminuye la carga de memoria.11
Gemma 2 utiliza redes neuronales más profundas que Gemma. Estas son algunas otras diferencias arquitectónicas notables:4
Para cada otra capa de su Neural Networks, Gemma 2 alterna entre una atención de ventana deslizante local y una atención global. La atención de la ventana deslizante local es un mecanismo dinámico para centrarse en ciertas "ventanas" de secuencias de entrada de tamaño fijo, lo que permite que los modelos se concentren solo en unas pocas palabras a la vez. Mientras tanto, la atención global atiende a cada token de la secuencia.
Gemma 2 también emplea atención de consulta agrupada, un enfoque de divide y vencerás que divide las consultas en grupos más pequeños y calcula la atención dentro de cada grupo por separado.
Además, los modelos Gemma 2 2B y 9B aplican la destilación de conocimientos, que consiste en "destilar" los conocimientos de un modelo más grande en otro más pequeño, capacitando al modelo más pequeño para que emule el proceso de razonamiento del modelo más grande e iguale sus predicciones.
En términos de ajuste de instrucciones, que prepara al modelo para seguir mejor las instrucciones, tanto Gemma como Gemma 2 aplican el ajuste fino monitorear y el aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF).4 El ajuste fino monitorear emplea ejemplos etiquetados de tareas orientadas a instrucciones para mostrar al modelo cómo estructurar sus respuestas. Mientras tanto, RLHF emplea un modelo de recompensa para traducir las calificaciones de calidad de los evaluadores humanos en señales de recompensa numéricas, lo que ayuda a los modelos a aprender qué respuestas generarán feedback positivo.
Las evaluaciones del rendimiento de Gemma 7B en los puntos de referencia de LLM que abarcan la generación de código, el razonamiento de sentido común, la comprensión del lenguaje, el razonamiento matemático y la respuesta a preguntas indican que es comparable a los SLM de escala similar, como Llama 3 8B y Mistral 7B. Gemma 2 9B y 27B tuvieron un rendimiento aún mejor, superando tanto a Llama 3 8B como a Mistral 7B en la mayoría de los puntos de referencia.12
Sin embargo, Llama 3.2 3B y Ministral 3B, los últimos SLMs de Meta y Mistral, respectivamente, superaron a Gemma 2 2B en varios puntos de referencia.13 El modelo de lenguaje de Microsoft Phi-3-mini, con 3.8 mil millones de parámetros, también obtuvo un mejor rendimiento que Gemma 7B.14
Se puede acceder a los modelos de Gemma a través de estas plataformas:
Google AI Studio
Hugging Face (también integrado en Hugging Face Transformers)
Kaggle
Jardín de modelos de Vertex AI
Además, los desarrolladores pueden implementar los modelos en marcos de machine learning de código abierto, como JAX, LangChain, PyTorch y TensorFlow, y a través de interfaces de programación de aplicaciones (API) como Keras 3.0. Además, debido a que Gemma incluye optimización en todas las GPU NVIDIA, los desarrolladores pueden usar las herramientas de NVIDIA, incluida la infraestructura NeMo para ajustar los modelos y TensorRT-LLM para optimizarlos para una inferencia eficiente en las GPU NVIDIA.
Para el desarrollo de IA empresarial, los modelos de Gemma se pueden desplegar en Google Cloud Vertex AI y Google Kubernetes Engine (GKE). Para aquellos con potencia computacional limitada, Google Colab proporciona acceso gratuito basado en la nube a recursos, como GPU y TPU.
Al igual que otros modelos de IA, Google Gemma continúa lidiando con los riesgos de la IA, que incluyen:
Sesgo: los modelos más pequeños pueden aprender del sesgo presente en sus contrapartes más grandes, y este efecto dominó puede reflejar en sus resultados.
Alucinaciones: Verificar y monitorear los resultados de SLMs como Gemma es fundamental para asegurarse de que lo que producen sea preciso y objetivamente correcto.
Violaciones de privacidad: Google señala que los conjuntos de datos de entrenamiento para Gemma y Gemma 2 se han filtrado para eliminar cierta información personal y otros datos confidenciales.4 Sin embargo, los usuarios individuales y las empresas deben tener cuidado con los datos que utilizan para ajustar Gemma y evitar filtrar datos personales o de propiedad exclusiva.
En lo que respecta a la seguridad, Google evaluó a Gemma en varias métricas, incluida la ciberseguridad ofensiva , el conocimiento QBRN (químico, biológico, radiológico y nuclear), la autoproliferación (la capacidad de replicación autónoma) y la persuasión. El conocimiento de Gemma en dominios QBRN es bajo. Del mismo modo, el modelo tiene bajas capacidades en ciberseguridad ofensiva, autoproliferación y persuasión.4
Google lanzó un kit de herramientas de IA generativa responsable para ayudar a los investigadores y desarrolladores de IA a construir aplicaciones de IA responsables y seguras.1
Todos los enlaces se encuentran fuera de ibm.com
1 Gemma: Introducing new state-of-the-art open models, Google, 21 de febrero de 2024
2 Gemma 2 is now available to researchers and developers, Google, 27 de junio de 2024
3 Gemma: Open Models Based on Gemini Research and Technology, Google DeepMind, 21 de febrero de 2024
4 Gemma 2: Improving Open Language Models at a Practical Size, Google DeepMind, 27 de junio de 2024
5 CodeGemma model card, Google AI for developers, 5 de agosto de 2024
6 Knowing When to Ask — Bridging Large Language Models and Data, arXiv, 10 de septiembre de 2024
7 PaliGemma model card, Google AI for developers, 5 de agosto de 2024
8 PaliGemma, Google AI for developers, 5 de agosto de 2024
9 RecurrentGemma model card, Google AI for developers, 5 de agosto de 2024
10 Transformer: A Novel Neural Network Architecture for Language Understanding, Google Research, 31 de agosto de 2017
11 Explicación de Gemma: An overview of Gemma model family architectures, Google for Developers, 15 de agosto de 2024
12 Gemma Open Models, Google AI for Developers, consultado el 5 de noviembre de 2024
13 Un Ministral, des Ministraux, Mistral AI, 16 de octubre de 2024
14 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23 de abril 2024
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas mediante la incorporación de IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.