IBM Granite 4.0 Tiny Preview: un adelanto de la próxima generación de modelos Granite

2 de mayo de 2025

Autor

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Writer, AI Models

IBM

Nos complace presentar IBM Granite 4.0 Tiny Preview, una versión preliminar del modelo más pequeño de la próxima familia de modelos de lenguaje Granite 4.0, a la comunidad de código abierto.

Granite 4.0 Tiny Preview es extremadamente compacto y eficiente: con una precisión del FP8, se pueden ejecutar varias sesiones simultáneas que realizan tareas de contexto largo (128 000) en hardware de consumo, incluidas las GPU comúnmente disponibles por menos de 350 USD.1

Aunque el modelo solo está parcialmente entrenado (solo ha visto 2,5 T de los 15 T planificados o más tokens de entrenamiento), ya ofrece un rendimiento que rivaliza con el de IBM Granite 3.3 2B Instruct a pesar de menos parámetros activos y una reducción de aproximadamente el 72 % en los requisitos de memoria.2 Anticipamos que el rendimiento de Granite 4.0 Tiny será similar al de Granite 3.3 8B Instruct cuando haya completado el entrenamiento y el postentrenamiento.

Como su nombre indica, Granite 4.0 Tiny estará entre las ofertas más pequeñas de la familia de modelos Granite 4.0. Se lanzará oficialmente este verano como parte de una línea de modelos que también incluye Granite 4.0 Small y Granite 4.0 Medium. Granite 4.0 continúa el firme compromiso de IBM de hacer de la eficiencia y la practicidad la piedra angular de su desarrollo de LLM empresarial.

Esta versión preliminar de Granite 4.0 Tiny ya está disponible en Hugging Face, aunque todavía no recomendamos la versión preliminar para uso empresarial, bajo una licencia Apache 2.0 estándar. Nuestra intención es permitir que incluso los desarrolladores con poca GPU experimenten y jueguen con el modelo en GPU de consumo. La novedosa arquitectura del modelo está pendiente de soporte en los transformadores Hugging Face y vLLM, que anticipamos que se completará en breve para ambos proyectos. Se espera que el soporte oficial para ejecutar este modelo localmente a través de partners de plataforma, incluidos Ollama y LMStudio, llegue a tiempo para el lanzamiento completo del modelo a finales de este verano.

Rendimiento empresarial en hardware de consumo

Los requisitos de memoria LLM a menudo se proporcionan, literal y figurativamente, sin el contexto adecuado. No basta con saber que un modelo se puede cargar correctamente en sus GPU: necesita saber que su hardware puede manejar el modelo en las longitudes de contexto que requiere su caso de uso.

Además, muchos casos de uso empresarial implican no una implementación de modelo único, sino la inferencia por lotes de varias instancias simultáneas. Por lo tanto, IBM se esfuerza por medir e informar los requisitos de memoria teniendo en cuenta el contexto largo y las sesiones simultáneas.

Granite 4.0 Tiny es uno de los modelos de lenguaje más eficientes en memoria disponibles en la actualidad. Incluso en contextos muy largos, varias instancias simultáneas de Granite 4.0 Tiny pueden ejecutarse fácilmente en una GPU de consumo modesta.

Una arquitectura MoE híbrida completamente nueva

Mientras que las generaciones anteriores de Granite LLM utilizaban una arquitectura de transformador convencional, todos los modelos de la familia Granite 4.0 utilizan una nueva arquitectura híbrida Mamba-2/Transformer, que combina la velocidad y la eficiencia de Mamba con la precisión de la autoatención basada en transformadores. Granite 4.0 Tiny-Preview, en concreto, es un modelo híbrido de mezcla de expertos (MoE) de grano fino, con 7B de parámetros totales y solo 1B de parámetros activos en el momento de la inferencia.

Muchas de las innovaciones que informan la arquitectura Granite 4 surgieron de la colaboración de IBM Research con los creadores originales de Mamba en Bamba, un modelo híbrido experimental de código abierto cuyo sucesor (Bamba v2) se lanzó a principios de esta semana.

Breve historia de los modelos Mamba

Mamba (PDF) es un tipo de modelo de espacio de estados (SSM), presentado en 2023, unos 6 años después del debut de los transformadores en 2017.

Los SSM son conceptualmente similares a las redes neuronales recurrentes (RNN) que dominaban el procesamiento del lenguaje natural (PLN) en la era anterior a los transformadores. Originalmente se diseñaron para predecir el siguiente estado de una secuencia continua (como una señal eléctrica) utilizando solo información del estado actual, el estado anterior y el rango de posibilidades (el espacio de estado). Aunque se han utilizado en varios dominios durante décadas, los SSM comparten ciertas deficiencias con los RNN que, hasta hace poco, limitaban su potencial para el modelado del lenguaje.

A diferencia del mecanismo de autoatención de los transformadores, los SSM convencionales no tienen la capacidad inherente de centrarse selectivamente en piezas específicas de información contextual o ignorarlas. Así que en 2023, Albert Gu de Carnegie Mellon y Tri Dao de Princeton introdujeron un tipo de red neuronal de secuencia de espacio de estado estructurado ("S4") que añade un mecanismo de selección y un método de escaneo (para eficiencia computacional), abreviado como modelo "S6", y logró resultados de modelado lingüístico competitivos con los transformadores. Apodaron a su modelo "Mamba" porque, entre otras razones, todas esas S suenan como el silbido de una serpiente.

En 2024, Gu y Dao lanzaron Mamba-2, una implementación simplificada y optimizada de la arquitectura Mamba. Y lo que es igualmente importante, sudocumento técnico (PDF) detallaba la compatibilidad entre los SSM y la autoatención.

Mamba-2 vs. transformadores

Las principales ventajas de Mamba sobre los modelos basados en transformadores se centran en la eficiencia y la velocidad.

Los transformadores tienen una debilidad crucial: los requisitos informáticos de autoatención escalan cuadráticamente con el contexto. En otras palabras, cada vez que se duplica la longitud de su contexto, el mecanismo de atención no solo utiliza el doble de recursos, sino que utiliza el cuádruple de recursos. Este "cuello de botella cuadrático" reduce cada vez más la velocidad y el rendimiento a medida que crece la ventana de contexto (y la correspondiente caché KV).

Por el contrario, las necesidades computacionales de Mamba se escalan linealmente: si usted duplica la longitud de una secuencia de entrada, Mamba utiliza solo el doble de recursos. Mientras que la autoatención debe calcular repetidamente la relevancia de cada token anterior para cada token nuevo, Mamba simplemente mantiene un "resumen" condensado y de tamaño fijo del contexto anterior de los tokens anteriores. A medida que el modelo "lee" cada nuevo token, determina la relevancia de ese token y luego actualiza (o no) el resumen en consecuencia. Esencialmente, mientras que la autoatención retiene cada bit de información y luego pondera la influencia de cada uno en función de su relevancia, Mamba retiene selectivamente solo la información relevante.

Dicho esto, el método más intensivo en memoria y computacionalmente redundante de los transformadores tiene sus propias ventajas. Por ejemplo, lainvestigación ha demostrado (PDF) que los transformadores siguen superando tanto a Mamba como a Mamba-2 en tareas que requieren aprendizaje en contexto (como few-shot prompting), lacopia o el razonamiento de contexto largo.

Lo mejor de ambos mundos

Afortunadamente, las fortalezas respectivas de los transformadores y Mamba no son mutuamente excluyentes. En el propio documento original de Mamba-2, los autores Dao y Gu sugieren que un modelo híbrido podría superar el rendimiento de un transformador puro o SSM, una noción validada por la investigación de NVIDIA del año pasado (PDF) . Para explorar esto más a fondo, IBM Research colaboró con Dao y Gu, junto con Minjia Zhang de la Universidad de Illinois en Urbana-Champaign (UIUC), en Bamba y Bamba V2. Bamba, a su vez, informó muchos de los elementos arquitectónicos de Granite 4.0.

La arquitectura Granite 4.0 MoE emplea 9 bloques Mamba por cada bloque transformador. En esencia, los mecanismos de selectividad de los bloques Mamba capturan de manera eficiente el contexto global, que luego se pasa a los bloques transformadores que permiten un análisis más matizado del contexto local. El resultado es una reducción drástica del uso de la memoria y la latencia sin una compensación aparente en el rendimiento.

Granite 4.0 Tiny duplica estas ganancias de eficiencia implementándolas dentro de un marco compacto y detallado de mezcla de expertos (MoE), que comprende 7B de parámetros totales y 64 expertos, lo que produce 1B de parámetros activos en el momento de la inferencia. Encontrará más información disponible en la tarjeta modelo Hugging Face de Granite 4.0 Tiny Preview.

Longitud de contexto sin restricciones

Uno de los aspectos más tentadores de los modelos de lenguaje basados en SSM es la capacidad teórica de manejar secuencias infinitamente largas. Pero debido a limitaciones prácticas, la palabra "teórico" suele hacer mucho trabajo pesado.

Una de esas limitaciones, especialmente para los modelos SSM híbridos, proviene de la codificación posicional (PE) utilizada para representar información sobre el orden de las palabras. La PE añade pasos computacionales, y la investigación ha demostrado que los modelos que utilizan técnicas de PE como la codificación posicional rotativa (RoPE) tienen dificultades para generalizar a secuencias más largas de lo que han visto en el entrenamiento.3

La arquitectura Granite 4.0 no utiliza codificación posicional (NoPE) . Nuestras pruebas demuestran de forma convincente que esto no ha tenido ningún efecto adverso en el rendimiento a largo plazo. En la actualidad, ya hemos validado el rendimiento de contexto largo de Tiny Preview para al menos 128K tokens, y esperamos validar un rendimiento similar en longitudes de contexto significativamente más largas en el momento en que el modelo haya completado el entrenamiento y el postentrenamiento. Vale la pena señalar que un desafío clave para validar definitivamente el rendimiento en tareas en el contexto de 1 millón de tokens es la escasez de conjuntos de datos adecuados.

La otra restricción práctica sobre la longitud del contexto de Mamba es la computación. El escalado lineal es mejor que el escalado cuadrático, pero aún así se acumula con el tiempo. Una vez más, Granite 4.0 Tiny tiene dos ventajas clave:

  • A diferencia de PE, NoPE no añade ninguna carga computacional adicional al mecanismo de atención en las capas de transformador del modelo.
  • Granite 4.0 Tiny es extremadamente compacto y eficiente, dejando mucho espacio de hardware para el escalado lineal. 

En pocas palabras, la arquitectura MoE de Granite 4.0 no impone restricciones a la longitud del contexto. Puede llegar tan lejos como su hardware le lleve.

Lo que viene

Estamos encantados de continuar preentrenando Granite 4.0 Tiny, dados los resultados tan prometedores en una fase tan temprana del proceso. También estamos entusiasmados de aplicar nuestros aprendizajes de Granite 3.3 posteriores al entrenamiento, particularmente con respecto a las capacidades de razonamiento y el seguimiento de instrucciones complejas, a los nuevos modelos. Al igual que sus predecesores Granite 3.2 y Granite 3.3, Granite 4.0 Tiny Preview ofrece funcionalidadthinking on ythinking off (aunque su entrenamiento posterior centrado en el razonamiento es muy incompleto).

Se presentará más información sobre los nuevos desarrollos de la serie Granite en IBM Think 2025, así como en las semanas y meses siguientes.

Eche un vistazo a Granite 4.0 Tiny Preview en Hugging Face →

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Soluciones relacionadas
IBM Granite

Consiga un ahorro de costes superior al 90 % con los modelos más pequeños y abiertos de Granite, diseñados para la eficiencia de los desarrolladores. Estos modelos listos para la empresa ofrecen un rendimiento excepcional en comparación con los puntos de referencia de seguridad y en una amplia gama de tareas empresariales, desde ciberseguridad hasta RAG.

Explore Granite
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM en la cartera de IBM watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai Explore los modelos de IA de IBM Granite
Notas a pie de página

1. Por ejemplo, el consumo teórico de RAM para 5 sesiones simultáneas de hasta 128 000 de longitud de contexto es adecuado para una GPU NVIDIA GeForce RTX 3060 con 12 GB de RAM, disponible desde el 29 de abril de 2025 a partir de 329 USD. (Fuente: NVIDIA).
2. Reducción de memoria calculada a una longitud de contexto de 128K y 16 sesiones simultáneas.
3. "The Impact of Positional Encoding on Length Generalization in Transformers," arXiv, 6 de noviembre de 2023