IBM Granite 4.0 Tiny Preview: un adelanto de la próxima generación de modelos Granite

Cuadrados que ilustran los modelos de granite

Autor

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Nos complace presentar IBM Granite 4.0 Tiny Preview, una versión preliminar del modelo más pequeño de la próxima familia de modelos de lenguaje Granite 4.0, a la comunidad de código abierto.

Granite 4.0 Tiny Preview es extremadamente compacto y eficiente desde el punto de vista informático: con la precisión del 8PM, se pueden ejecutar varias sesiones simultáneas que realizan tareas de contexto largo (128 000) en hardware de nivel de consumidor, incluidas las GPU comúnmente disponibles por menos de 350 USD.1

Aunque el modelo solo está parcialmente entrenado - solo ha visto 2.5 T de los 15 T planificados o más tokens de entrenamiento - , ya ofrece un rendimiento que rivaliza con el de IBM Granite 3.3 2B Instruct a pesar de menos parámetros activos y una reducción de aproximadamente el 72 % en los requisitos de memoria 2. Anticipamos que el rendimiento de Granite 4.0 Tiny estará a la par con el de Granite 3.3 8B Instruct para cuando haya completado el entrenamiento y el entrenamiento posterior.

Gráfico que compara el rendimiento de los modelos de lenguaje

Como su nombre indica, Granite 4.0 Tiny estará entre las ofertas más pequeñas de la familia de modelos Granite 4.0. Se lanzará oficialmente este verano como parte de una línea de modelos que también incluye Granite 4.0 Small y Granite 4.0 Medium. Granite 4.0 continúa el firme compromiso de IBM de hacer de la eficiencia y la practicidad la piedra angular de su desarrollo empresarial de LLM.

Esta versión preliminar de Granite 4.0 Tiny ya está disponible en Hugging Face, aunque todavía no recomendamos la versión preliminar para uso empresarial, bajo una licencia Apache 2.0 estándar. Nuestra intención es permitir que incluso los desarrolladores con poca GPU experimenten y jueguen con el modelo en GPU de nivel de consumidor. La novedosa arquitectura del modelo está pendiente de soporte en los transformadores Hugging Face y vLLM, que anticipamos que se completará en breve para ambos proyectos. Se espera que el soporte oficial para ejecutar este modelo localmente a través de socios de plataforma, incluidos Ollama y LMStudio, llegue a tiempo para el lanzamiento completo del modelo a finales de este verano.

Rendimiento de Enterprise en hardware de consumo

Los requisitos de memoria LLM a menudo se proporcionan, literal y figurativamente, sin el contexto adecuado. No es suficiente saber que un modelo se puede cargar correctamente en sus GPU: necesita saber que su hardware puede manejar el modelo en las longitudes de contexto que requiere su caso de uso.

Además, muchos casos de uso empresarial implican no un despliegue de modelo único, sino una inferencia por lotes de múltiples instancias concurrentes. Por lo tanto, IBM se esfuerza por medir e informar los requisitos de memoria teniendo en cuenta el contexto largo y las sesiones simultáneas.

Comparación de los requisitos de RAM para modelos de lenguaje

Granite 4.0 Tiny es uno de los modelos de lenguaje más eficientes en memoria disponibles en la actualidad. Incluso en contextos muy largos, varias instancias simultáneas de Granite 4.0 Tiny pueden ejecutarse fácilmente en una GPU de consumo modesta.

Una arquitectura MoE híbrida completamente nueva

Mientras que las generaciones anteriores de Granite LLM utilizaban una arquitectura transformadora convencional, todos los modelos de la familia Granite 4.0 utilizan una nueva arquitectura híbrida Mamba-2/Transformer, que combina la velocidad y la eficiencia de Mamba con la precisión de la autoatención basada en transformadores. Granite 4.0 Tiny-Preview, específicamente, es un modelo híbrido de mezcla de expertos (MoE) degrano fino, con 7B parámetros totales y solo 1B parámetros activos en el momento de la inferencia.

Muchas de las innovaciones que informan la arquitectura Granite 4 surgieron de la colaboración de IBM Research con los creadores originales de Mamba en Bamba , un modelo híbrido experimental de código abierto cuyo sucesor (Bamba v2) se lanzó a principios de esta semana.

Una breve historia de los modelos Mamba

Mamba (PDF) es un tipo de modelo de espacio de estado (SSM), introducido en 2023, unos 6 años después del debut de los transformadores en 2017.

Los SSM son conceptualmente similares a las redes neuronales recurrentes (RNN) que dominaban el procesamiento de lenguaje natural (PLN) en la era anterior a los transformadores. Originalmente, se diseñaron para predecir el siguiente estado de una secuencia continua (como una señal eléctrica) utilizando solo información del estado actual, el estado anterior y el rango de posibilidades (el espacio de estado ). Aunque se han utilizado en varios dominios durante décadas, los SSM comparten ciertas deficiencias con los RNN que, hasta hace poco, limitaban su potencial para el modelado del lenguaje.

A diferencia del mecanismo de autoatención de los transformadores, los SSM convencionales no tienen la capacidad inherente de enfocarse selectivamente o ignorar piezas específicas de información contextual. Entonces, en 2023, Albert Gu de Carnegie Mellon y Tri Dao de Princeton introdujeron un tipo de red neuronal de secuencia de espacio de estado estructurado ("S4") que agrega un mecanismo de selección y un método de escaneo (para eficiencia computacional), abreviado como modelo "S6"—y logró Resultados de modelado de lenguaje competitivos con los transformadores. Apodaron a su modelo "Mamba" porque, entre otras razones, todas esas S suenan como el silbido de una serpiente.

En 2024, Gu y Dao lanzaron Mamba-2, una implementación simplificada y optimizada de la arquitectura Mamba. Igualmente importante, sudocumento técnico (PDF) desarrolló la compatibilidad entre los SSM y la autoatención.

Mamba-2 vs. transformadores

Las principales ventajas de Mamba sobre los modelos basados en transformadores se centran en la eficiencia y la velocidad.

Los transformadores tienen una debilidad crucial: los requisitos informáticos de autoatención escalan cuadráticamente con el contexto. En otras palabras, cada vez que se duplica la longitud de su contexto, el mecanismo de atención no solo utiliza el doble de recursos, sino que utiliza el cuádruple de recursos. Este "cuello de botella cuadrático" reduce cada vez más la velocidad y el rendimiento a medida que crece la ventana de contexto (y la caché KV correspondiente).

Por el contrario, las necesidades computacionales de Mamba se escalan linealmente: si duplica la longitud de una secuencia de entrada, Mamba utiliza solo el doble de recursos. Mientras que la autoatención debe calcular repetidamente la relevancia de cada token anterior para cada nuevo token, Mamba simplemente mantiene un "resumen" condensado y de tamaño fijo del contexto anterior de tokens anteriores. A medida que el modelo "lee" cada nuevo token, determina la relevancia de ese token y luego actualiza (o no actualiza) el resumen en consecuencia. Esencialmente, mientras que la autoatención retiene cada bit de información y luego pondera la influencia de cada uno en función de su relevancia, Mamba retiene selectivamente solo la información relevante.

Dicho esto, el método más intensivo en memoria y computacionalmente redundante de los transformadores tiene sus propias ventajas. Por ejemplo, la investigación ha demostrado (PDF) que los transformadores siguen superando tanto a Mamba como a Mamba-2 en tareas que requieren aprendizaje en contexto (como las instrucciones de pocas tomas), la copiao el razonamiento de contexto largo.

Lo mejor de ambos mundos

Afortunadamente, las fortalezas respectivas de los transformadores y Mamba no son mutuamente excluyentes. En el propio documento original de Mamba-2, los autores Dao y Gu sugieren que un modelo híbrido podría superar el rendimiento de un transformador puro o SSM, una noción validada por la investigación de NVIDIA del año pasado (PDF) . Para explorar esto más a fondo, IBM Research colaboró con Dao y Gu, junto con Minjia Zhang de la Universidad de Illinois en Urbana-Champaign (UIUC), en Bamba y Bamba V2. Bamba, a su vez, informó muchos de los elementos arquitectónicos de Granite 4.0.

La arquitectura Granite 4.0 MoE emplea 9 bloques Mamba por cada bloque transformador. En esencia, los mecanismos de selectividad de los bloques Mamba capturan de manera eficiente el contexto global, que luego se pasa a los bloques transformadores que permiten un análisis más matizado del contexto local. El resultado es una reducción drástica en el uso de la memoria y la latencia sin una compensación aparente en el rendimiento.

Granite 4.0 Tiny duplica estas ganancias de eficiencia implementándolas dentro de un infraestructura compacta y detallada de mezcla de Expertos (MoE), que comprende 7B de parámetros totales y 64 Expertos, lo que produce 1B de parámetros activos en el momento de la inferencia. Más detalles están disponibles en la tarjeta del modelo Hugging Face de Granite 4.0 Tiny Preview .

Longitud de contexto sin restricciones

Uno de los aspectos más tentadores de los modelos de lenguaje basados en SSM es la capacidad teórica de manejar secuencias infinitamente largas. Pero debido a limitaciones prácticas, la palabra "teórico" suele hacer mucho trabajo pesado.

Una de esas restricciones, especialmente para los modelos de SSM híbrido, proviene de la codificación posicional (PE) utilizada para representar información sobre el orden de las palabras. La PE agrega pasos computacionales, y la investigación ha demostrado que los modelos que utilizan técnicas de PE, como la codificación posicional rotativa (RoPE), tienen dificultades para generalizar a secuencias más largas de lo que han visto en el entrenamiento.3

La arquitectura Granite 4.0 no utiliza codificación posicional (NoPE). Nuestras pruebas demuestran de manera convincente que esto no ha tenido ningún efecto adverso en el rendimiento a largo plazo. En la actualidad, ya hemos validado el rendimiento de Tiny Preview para al menos 128K tokens, y esperamos validar un rendimiento similar en longitudes de contexto significativamente más largas por el tiempo en que el modelo haya completado el entrenamiento y el entrenamiento posterior. Vale la pena señalar que un desafío clave para validar definitivamente el rendimiento en tareas en el entorno del contexto de 1 millón de tokens es la escasez de conjuntos de datos adecuados.

La otra restricción práctica sobre la longitud del contexto de Mamba es la computación. El escalado lineal es mejor que el escalado cuadrático, pero aún así se acumula con el tiempo. Nuevamente, Granite 4.0 Tiny tiene dos ventajas clave:

  • A diferencia de PE, NoPE no agrega ninguna carga computacional adicional al mecanismo de atención en las capas transformadoras del modelo.
  • Granite 4.0 Tiny es extremadamente compacto y eficiente, dejando mucho espacio de hardware para el escalado lineal. 

En pocas palabras, la arquitectura Granite 4.0 MoE en sí no impone restricciones en la longitud del contexto. Puede llegar tan lejos como su hardware lo lleve.

Lo que está sucediendo a continuación

Estamos entusiasmados de continuar con el entrenamiento previo de Granite 4.0 Tiny, dados los resultados tan prometedores en una etapa tan temprana del proceso. También estamos entusiasmados de aplicar nuestros aprendizajes posteriores al entrenamiento de Granite 3.3, particularmente con respecto a las capacidades de razonamiento y el seguimiento de instrucciones complejas, a los nuevos modelos. Al igual que sus predecesores en Granite 3.2 y Granite 3.3, Granite 4.0 Tiny Preview ofrecethinking on Ythinking off funcionalidad (aunque su entrenamiento posterior centrado en el razonamiento es muy incompleto).

Se presentará más información sobre los nuevos desarrollos de la serie Granite en IBM Think 2025, así como en las próximas semanas y meses.

Eche un vistazo a Granite 4.0 Tiny Preview en Hugging Face →

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Soluciones relacionadas
IBM Granite

Logre un ahorro de costos de más del 90 % con los modelos más pequeños y abiertos de Granite, diseñados para la eficiencia de los desarrolladores. Estos modelos listos para la empresa ofrecen un rendimiento excepcional en comparación con los puntos de referencia de seguridad y en una amplia gama de tareas empresariales, desde ciberseguridad hasta RAG.

Explorar Granite
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM watsonx en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai Explorar los modelos de IA de IBM Granite
Notas de pie de página

1. Por ejemplo, el consumo teórico de RAM para 5 sesiones simultáneas de hasta 128 000 de longitud de contexto es adecuado para una GPU NVIDIA GeForce RTX 3060 con 12 GB de RAM, que, a partir del 29 de abril de 2025, comienza en 329 USD. (Fuente: NVIDIA).
2. Reducción de memoria calculada a una longitud de contexto de 128K y 16 sesiones simultáneas.
3. "El impacto de la codificación posicional en la generalización de la longitud en transformadores ", arXiv, 6 de noviembre de 2023