El lanzamiento de Granite 4.0 inicia una nueva era para la familia de modelos de lenguaje de gran tamaño listos para la empresa de IBM, que aprovecha los novedosos avances arquitectónicos para duplicar los modelos de lenguaje pequeños y eficientes que proporcionan un rendimiento competitivo a costes y latencia reducidos. Los modelos Granite 4.0 se desarrollaron prestando especial atención a las tareas esenciales para los flujos de trabajo agenticos, tanto en implementaciones independientes como en bloques de construcción rentables en sistemas complejos junto con modelos de razonamiento más amplios.

La colección Granite 4.0 comprende varios tamaños de modelos y estilos de arquitectura para proporcionar una producción óptima en una amplia gama de restricciones de hardware, que incluyen:

Granite-4.0-H-Small, un modelo híbrido de mezcla de expertos (MoE) con 32B de parámetros totales (9B activos)

un modelo híbrido de mezcla de expertos (MoE) con 32B de parámetros totales (9B activos) Granite-4.0-H-Tiny, un MoE híbrido con 7000 millones de parámetros totales (1000 millones activos)

un MoE híbrido con 7000 millones de parámetros totales (1000 millones activos) Granite-4.0-H-Micro, un modelo híbrido denso con parámetros 3B.

un modelo híbrido denso con parámetros 3B. Esta versión también incluye Granite-4.0-Micro, un modelo denso 3B con una arquitectura del transformador convencional basada en la atención, para adaptarse a plataformas y comunidades que aún no admiten arquitecturas híbridas.

Granite 4.0-H Small es un modelo muy resistente que ofrece un rendimiento sólido y rentable en flujos de trabajo empresariales, como agentes multitarea y automatización de la atención al cliente. Los modelos Tiny y Micro están diseñados para aplicaciones locales, edge y de baja latencia, y también pueden servir como bloque de construcción dentro de flujos de trabajo de agencia más grandes para la ejecución rápida de tareas clave como la llamada a funciones.

El rendimiento de referencia de Granite 4.0 muestra mejoras sustanciales con respecto a las generaciones anteriores (incluso los modelos Granite 4.0 más pequeños superan significativamente a Granite 3.3 8B, a pesar de tener menos de la mitad de su tamaño), pero su punto fuerte más notable es un aumento notable de la eficiencia de inferencia. En comparación con los LLM convencionales, nuestros modelos híbridos Granite 4.0 requieren significativamente menos RAM para ejecutarse, especialmente para tareas que implican largas longitudes de contexto (como consumir una gran base de código o una documentación extensa) y varias sesiones al mismo tiempo (como un agente de servicio de atención al cliente que maneja muchos detalles de consultas de los usuarios simultáneamente).

Y lo que es más importante, esta drástica reducción de los requisitos de memoria de Granite 4.0 implica una reducción igualmente drástica del coste del hardware necesario para ejecutar cargas de trabajo pesadas a altas velocidades de inferencia. Nuestro objetivo es reducir las barreras de entrada proporcionando a las empresas y a los desarrolladores de código abierto un acceso rentable a LLM altamente competitivos.