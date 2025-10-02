El lanzamiento de Granite 4.0 inicia una nueva era para la familia de modelos de lenguaje grandes listos para la empresa de IBM, aprovechando los novedosos avances arquitectónicos para duplicar los modelos de lenguaje pequeños y eficientes que brindan un rendimiento competitivo a costos y latencia reducidos. Los modelos Granite 4.0 se desarrollaron con un énfasis particular en las tareas esenciales para los flujos de trabajo agénticos, tanto en despliegues independientes como como bloques de construcción rentables en sistemas complejos junto con modelos de razonamiento más grandes.

La colección Granite 4.0 comprende múltiples tamaños de modelos y estilos de arquitectura para proporcionar una producción óptima en una amplia gama de limitaciones de hardware, que incluyen:

Granite-4.0-H-Small, un modelo híbrido de mezcla de expertos (MoE) con 32 000 millones de parámetros totales (9B activos)

un modelo híbrido de mezcla de expertos (MoE) con 32 000 millones de parámetros totales (9B activos) Granite-4.0-H-Tiny, un MoE híbrido con 7B parámetros totales (1B activo)

un MoE híbrido con 7B parámetros totales (1B activo) Granite-4.0-H-Micro, un modelo híbrido denso con parámetros 3B.

un modelo híbrido denso con parámetros 3B. Esta versión también incluye Granite-4.0-Micro, un modelo denso 3B con una arquitectura transformadora convencional impulsada por la atención, para adaptarse a plataformas y comunidades que aún no admiten arquitecturas híbridas.

Granite 4.0-H Small es un modelo de caballo de batalla para un rendimiento sólido y rentable en flujos de trabajo empresariales, como agentes multiherramienta y automatización de atención al cliente. Los modelos Tiny y Micro están diseñados para aplicaciones locales, perimetrales y de baja latencia, y también pueden servir como componente básico dentro de flujos de trabajo agénticos más grandes para la ejecución rápida de tareas clave, como la llamada a funciones.

El rendimiento de punto de referencia de Granite 4.0 muestra mejoras sustanciales con respecto a las generaciones anteriores (incluso los modelos Granite 4.0 más pequeños superan significativamente a Granite 3.3 8B, a pesar de tener menos de la mitad de su tamaño), pero su fortaleza más notable es un aumento notable en la eficiencia de inferencia. En comparación con los LLM convencionales, nuestros modelos híbridos Granite 4.0 requieren significativamente menos RAM para ejecutarse, especialmente para tareas que implican contextos de larga duración (como ingerir una gran base de código o documentación extensa) y varias sesiones al mismo tiempo (como un agente de atención al cliente que maneja muchos consultas de los usuarios simultáneamente).

Lo más importante es que esta reducción drástica en los requisitos de memoria de Granite 4.0 implica una reducción igualmente drástica en el costo del hardware necesario para ejecutar cargas de trabajo pesadas a altas velocidades de inferencia. Nuestro objetivo es reducir las barreras de entrada proporcionando a las empresas y a los desarrolladores de código abierto un acceso rentable a LLM altamente competitivos.