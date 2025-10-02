Toda la información clave en un solo vistazo:
El lanzamiento de Granite 4.0 inicia una nueva era para la familia de modelos de lenguaje de gran tamaño listos para la empresa de IBM, que aprovecha los novedosos avances arquitectónicos para duplicar los modelos de lenguaje pequeños y eficientes que proporcionan un rendimiento competitivo a costes y latencia reducidos. Los modelos Granite 4.0 se desarrollaron prestando especial atención a las tareas esenciales para los flujos de trabajo agenticos, tanto en implementaciones independientes como en bloques de construcción rentables en sistemas complejos junto con modelos de razonamiento más amplios.
La colección Granite 4.0 comprende varios tamaños de modelos y estilos de arquitectura para proporcionar una producción óptima en una amplia gama de restricciones de hardware, que incluyen:
Granite 4.0-H Small es un modelo muy resistente que ofrece un rendimiento sólido y rentable en flujos de trabajo empresariales, como agentes multitarea y automatización de la atención al cliente. Los modelos Tiny y Micro están diseñados para aplicaciones locales, edge y de baja latencia, y también pueden servir como bloque de construcción dentro de flujos de trabajo de agencia más grandes para la ejecución rápida de tareas clave como la llamada a funciones.
El rendimiento de referencia de Granite 4.0 muestra mejoras sustanciales con respecto a las generaciones anteriores (incluso los modelos Granite 4.0 más pequeños superan significativamente a Granite 3.3 8B, a pesar de tener menos de la mitad de su tamaño), pero su punto fuerte más notable es un aumento notable de la eficiencia de inferencia. En comparación con los LLM convencionales, nuestros modelos híbridos Granite 4.0 requieren significativamente menos RAM para ejecutarse, especialmente para tareas que implican largas longitudes de contexto (como consumir una gran base de código o una documentación extensa) y varias sesiones al mismo tiempo (como un agente de servicio de atención al cliente que maneja muchos detalles de consultas de los usuarios simultáneamente).
Y lo que es más importante, esta drástica reducción de los requisitos de memoria de Granite 4.0 implica una reducción igualmente drástica del coste del hardware necesario para ejecutar cargas de trabajo pesadas a altas velocidades de inferencia. Nuestro objetivo es reducir las barreras de entrada proporcionando a las empresas y a los desarrolladores de código abierto un acceso rentable a LLM altamente competitivos.
La prioridad que IBM otorga a la eficiencia práctica de la inferencia en cualquier hardware va acompañada de nuestro énfasis en la seguridad y la transparencia de nuestro ecosistema de modelos. Después de una extensa auditoría externa de meses de duración del proceso de desarrollo de IA de IBM, IBM® Granite se convirtió recientemente en la única familia de modelos de lenguaje abierto en lograr la certificación ISO 42001, cumpliendo con el primer estándar internacional del mundo para responsabilidad, explicabilidad, protección de datos y fiabilidad en sistemas de gestión de IA (AIMS). Esa fiabilidad fundacional se ve reforzada por nuestra reciente asociación con HackerOne en un programa de recompensas por errores para Granite, así como por nuestra nueva práctica de firma criptográfica de todos los puntos de control del modelo 4.0 disponibles en Hugging Face (lo que permite a los desarrolladores y empresas garantizar la procedencia y autenticidad de los modelos).
Los socios empresariales seleccionados, incluidos EY y Lockheed Martin, tuvieron acceso temprano para probar las capacidades de Granite 4.0 a escala en casos de uso clave. Los comentarios de estos socios de lanzamiento temprano, junto con los comentarios de la comunidad de código abierto, se utilizarán para mejorar y optimizar los modelos para futuras actualizaciones.
La versión de hoy incluye las variantes Base e Instruct de Micro, Tiny y Small. Está previsto que a finales de 2025 se lancen tamaños de modelo adicionales (tanto más grandes como más pequeños), así como variantes con soporte de razonamiento explícito.
Los modelos híbridos Granite 4.0 son significativamente más rápidos y más eficientes en cuanto a memoria que los modelos de tamaño comparable construidos con arquitecturas del transformador estándar. La arquitectura híbrida de Granite 4 combina una pequeña cantidad de capas de atención de estilo transformador estándar con la mayoría de las capas Mamba, más específicamente, Mamba-2. Mamba procesa los matices del lenguaje de una manera totalmente distinta y significativamente más eficiente que los modelos de lenguaje convencionales.
Los requisitos de memoria GPU de los LLM suelen indicarse en términos de la cantidad de RAM necesaria solo para cargar los pesos del modelo. Pero muchos casos de uso empresarial, especialmente los que implican la implementación a gran escala, la IA agéntica en entornos complejos o los sistemas RAG, implican un contexto prolongado, la inferencia por lotes de varias instancias de modelos concurrentes a la vez, o ambas cosas. De acuerdo con el énfasis de IBM en la practicidad empresarial, evaluamos y optimizamos Granite 4 teniendo en cuenta el contexto largo y las sesiones simultáneas.
En comparación con los modelos convencionales basados en transformadores, Granite 4.0-H puede ofrecer una reducción de más del 70 % en la RAM necesaria para gestionar entradas largas y varios lotes simultáneos.
Los modelos híbridos Granite 4.0 son compatibles con las GPU AMD Instinct MI-300X, lo que permite reducir aún más su huella de memoria.
Los LLM convencionales tienen dificultades para mantener el rendimiento a medida que aumenta la longitud del contexto o el tamaño del lote. Nuestros modelos híbridos continúan acelerando su producción incluso en cargas de trabajo donde la mayoría de los modelos se ralentizan o exceden la capacidad del hardware. Cuanto más les arrojes, más evidentes serán sus ventajas.
IBM trabajó con Qualcomm Technologies, Inc. y Nexa IA para garantizar la compatibilidad de los modelos Granite 4.0 con NPU de Hexagon1 para optimizar aún más la velocidad de inferencia para la implementación en dispositivos en teléfonos inteligentes y ordenadores.
Por supuesto, la utilidad real de esas ventajas de eficiencia se debe al hecho de que la calidad de la salida de los modelos Granite 4.0 es competitiva con la de los modelos en o por encima de sus respectivas clases de peso, especialmente en los puntos de referencia que evalúan el rendimiento en tareas clave de IA agéntica como seguimiento de instrucciones y llamada a funciones.
Todos los modelos Granite 4.0 ofrecen importantes mejoras de rendimiento en todos los ámbitos con respecto a la generación anterior de modelos Granite. Aunque la nueva arquitectura híbrida de Granite contribuye a la eficiencia y eficacia del entrenamiento de modelos, la mayor parte de las mejoras en la precisión de los modelos se derivan de los avances en nuestras metodologías de entrenamiento (y postentrenamiento) y de la continua expansión y refinamiento del corpus de datos de entrenamiento de Granite. Así es como y por qué incluso Granite 4.0-Micro, construido sobre una arquitectura del transformador similar a la de los modelos anteriores de Granite, supera significativamente a Granite 3.3 8B.
Destacan especialmente en tareas esenciales para casos de uso y flujos de trabajo de IA agéntica. Según lo evaluado por Stanford HELM, Granite-4.0-H-Small supera a todos los modelos de peso abierto (con la única excepción de Llama 4 Maverick, un modelo de parámetros 402B de más de 12 veces su tamaño) en IFEval, un punto de referencia ampliamente utilizado para evaluar la capacidad de un modelo para seguir instrucciones explícitas.
En muchos flujos de trabajo agénticos, es crucial que las instrucciones no solo se sigan de manera confiable, sino que también se traduzcan con precisión en llamadas de herramientas efectivas. Para ello, Granite-4.0-H-Small sigue el ritmo de modelos mucho más grandes, tanto abiertos como cerrados, en la referencia Berkeley Function Calling Leaderboard v3 (BFCLv3). Además, lo consigue a un precio inigualable dentro de este conjunto competitivo.
Granite 4.0 también sobresale en MTRAG, una referencia que mide el rendimiento y la fiabilidad en tareas complejas de generación aumentada por recuperación (RAG) que implican múltiples turnos, preguntas sin respuesta, preguntas no independientes e información que abarca múltiples dominios.
Las métricas de evaluación adicionales están disponibles en las tarjetas modelo Hugging Face de Granite 4.0.
Todos los modelos Granite se crean teniendo en cuenta la seguridad, la protección y el gobierno responsable.
A principios de este mes, IBM Granite se convirtió en la primera familia de modelos de lenguaje abierto en recibir la acreditación bajo ISO/IEC 42001:2023, certificando que Granite está alineado con las buenas prácticas reconocidas internacionalmente para una IA segura y responsable y que el sistema de gestión de IA (AIMS) de IBM cumple con los más altos niveles de escrutinio. Las organizaciones pueden construir con confianza con los modelos Granite 4.0 incluso en contextos de alto riesgo, como sectores altamente regulados y entornos de implementación de misión crítica.
Al igual que todos los modelos Granite, los modelos Granite 4.0 se entrenaron íntegramente con datos cuidadosamente seleccionados, adquiridos éticamente y aprobados por la empresa. Como reflejo de nuestra plena confianza en la fiabilidad de nuestros modelos, IBM ofrece una indemnización ilimitada por reclamaciones de propiedad intelectual de terceros contra el contenido generado por los modelos Granite cuando se utilizan en IBM® watsonx.
Más allá de nuestras extensas pruebas internas y red teaming, IBM también se ha asociado recientemente con HackerOne para lanzar un programa de recompensas por errores para Granite, que ofrecía hasta 100 000 dólares por la identificación de cualquier defecto imprevisto, modos de fallo o vulnerabilidades a jailbreaking y otros ataques adversarios. Cualquier información de este tipo que descubran los investigadores que participan en el programa de recompensas por errores servirá de base para las mejoras y actualizaciones continuas de la seguridad de nuestros modelos, en particular a través de la generación de datos sintéticos para mejorar la alineación de los modelos.
IBM se centra en la seguridad no solo de nuestros propios modelos, sino también de la cadena de distribución de modelos. Con ese fin, IBM ha iniciado la práctica de firmar criptográficamente todos los puntos de control del modelo Granite antes del lanzamiento: todos los puntos de control del modelo Granite ahora se envían con un archivo model.sig para permitir una verificación pública fácil de la procedencia del modelo Granite para garantizar su integridad y autenticidad.
A pesar de sus muchas ventajas, los modelos de transformadores tienen un inconveniente crítico: sus necesidades computacionales se escalan cuadráticamente con la longitud de la secuencia. Si la longitud del contexto se duplica, el número de cálculos que debe realizar un modelo de transformador (y almacenar en la memoria) se cuadruplica. Este "cuello de botella cuadrático" disminuye inevitablemente la velocidad y aumenta el coste a medida que aumenta la longitud del contexto. En contextos de larga duración, puede agotar rápidamente la capacidad de RAM incluso de las GPU de consumo de gama alta.
Mientras que los transformadores se basan en la autoatención, Mamba utiliza un mecanismo de selectividad completamente distinto que es inherentemente más eficiente. Los requisitos computacionales de Mamba se escalan linealmente con la longitud de la secuencia: cuando el contexto se duplica, Mamba realiza solo el doble, no el cuádruple, de los cálculos. Aún mejor, los requisitos de memoria de Mamba permanecen constantes, independientemente de la longitud de la secuencia. Cuanto más trabajo le dedique a un modelo Mamba, mayores serán sus ventajas sobre los transformadores.
Sin embargo, los transformadores y la autoatención siguen teniendo algunas ventajas sobre Mamba y Mamba-2, especialmente para el rendimiento en tareas que implican aprendizaje en contexto (como el few-shot prompting). Afortunadamente, combinar ambos en un modelo híbrido ofrece lo mejor de ambos mundos. Para obtener más información, vuelva a visitar nuestro adelanto de Granite-4.0-Tiny-Preview.
La arquitectura que impulsa Granite 4.0-H-Micro, Granite 4.0-H-Tiny y Granite 4.0-H-Small combina capas Mamba-2 y bloques de transformadores convencionales secuencialmente en una proporción de 9:1. Esencialmente, los bloques Mamba-2 procesan de manera eficiente el contexto global y pasan periódicamente esa información contextual a través de un bloque transformador que ofrece un análisis más matizado del contexto local a través de la autoatención antes de pasarlo a la siguiente agrupación de capas Mamba-2.
Cabe señalar que la mayor parte de la infraestructura de servicio de LLM del mundo se adaptó históricamente a modelos solo de transformadores. Tras nuestro lanzamiento experimental de Granite 4.0-Tiny-Preview a principios de este año, hemos colaborado ampliamente con socios del ecosistema para establecer soporte para la arquitectura Granite 4 Hybrid en marcos de inferencia que incluyen vLLM, llama.cpp, NexaML y MLX en preparación para el lanzamiento de hoy.
Granite-4.0-H-Tiny y Granite-4.0-H-Small pasan la salida de cada bloque Mamba-2 y transformador a un bloque de mezcla de expertos (MoE) de grano fino (cuyas especificaciones han cambiado ligeramente desde Granite 4.0-Tiny-Preview). Aunque los MoE detallados han sido un área de investigación activa de IBM desde el lanzamiento de Granite 3.0 en 2024, Tiny y Small son nuestros primeros MoE en utilizar expertos compartidos que siempre están activados, lo que mejora la eficiencia de sus parámetros y permite a los otros "expertos" desarrollar mejor conocimientos claramente especializados.
Granite 4.0-H-Micro utiliza capas de retroalimentación densas convencionales en lugar de bloques MoE, pero por lo demás refleja la arquitectura compartida por Tiny y Small.
Uno de los aspectos más tentadores de los modelos de lenguaje basados en modelos de espacio de estados (SSM) como Mamba es su potencial teórico para manejar secuencias infinitamente largas. Todos los modelos Granite 4.0 han sido entrenados con muestras de datos de hasta 512 000 tokens de longitud de contexto. El rendimiento se ha validado en tareas que implican una longitud de contexto de hasta 128 000 tokens, pero en teoría, la longitud del contexto puede extenderse aún más.
En los modelos de transformadores estándar, la ventana de contexto máxima está fundamentalmente restringida por las limitaciones de la codificación posicional. Dado que el mecanismo de atención de un transformador procesa todos los tokens a la vez, no conserva ninguna información sobre el orden de los tokens. La codificación posicional (PE) vuelve a añadir esa información. Algunas investigaciones sugieren que los modelos que utilizan técnicas comunes de PE, como la codificación posicional rotativa (RoPE), tienen dificultades con secuencias más largas de lo que han visto en el entrenamiento2.
La arquitectura Granite 4.0-H no utiliza codificación posicional (NoPE). Descubrimos que, en pocas palabras, no lo necesitan: Mamba conserva de forma inherente la información sobre el orden de los tokens, porque los "lee" secuencialmente.
En sus diferentes implementaciones de arquitectura, todos los modelos Granite 4.0 se entrenan con muestras extraídas del mismo corpus de tokens de 22T cuidadosamente compilado de datos de entrenamiento centrados en la empresa, así como las mismas metodologías mejoradas de preentrenamiento, régimen posterior al entrenamiento y plantilla de chat.
Granite 4.0 se entrenó previamente en un amplio espectro de muestras seleccionadas de DataComp-LM (DCLM), GneissWeb, subconjuntos TxT360, Wikipedia y otras fuentes relevantes para la empresa. Además, recibieron formación posterior para sobresalir en las tareas empresariales, aprovechando conjuntos de datos sintéticos y abiertos en dominios como el lenguaje, el código, las matemáticas y el razonamiento, el multilingüismo, la seguridad, las llamadas a herramientas, el RAG y la ciberseguridad. Todos los conjuntos de datos de entrenamiento se prepararon con el marco del kit de preparación de datos de código abierto.
Una diferencia notable con respecto a las generaciones anteriores de modelos Granite es la decisión de dividir nuestros modelos Granite 4.0 postentrenados en variantes separadas de ajuste de instrucciones (publicadas hoy) y de razonamiento (que se lanzarán más adelante este otoño). Haciéndonos eco de los hallazgos de investigaciones recientes de la industria, descubrimos en el entrenamiento que dividir los dos dio como resultado un mejor rendimiento de seguimiento de instrucciones para los modelos Instruct y un mejor rendimiento de razonamiento complejo para los modelos Thinking. Esto tiene el beneficio añadido de simplificar las plantillas de chat para ambas variantes.
A finales de este otoño, a las variantes Base e Instruct de los modelos Granite 4.0 se unirán sus homólogos "Thinking", cuyo entrenamiento posterior para mejorar el rendimiento en tareas complejas impulsadas por la lógica está en curso.
Para finales de año, planeamos lanzar también tamaños de modelos adicionales, incluidos no solo Granite 4.0 Medium, sino también Granite 4.0 Nano, una serie de modelos significativamente más pequeños diseñados para (entre otras cosas) inferencia en dispositivos edge.
Los modelos Granite 4.0 ya están disponibles en un amplio espectro de proveedores de plataformas y marcos de inferencia como modelos independientes rápidos y eficientes y como bloques de construcción clave de flujos de trabajo conjuntos junto con los principales modelos de gran frontera. También puede probarlos en Granite Playground.
La nueva arquitectura Granite Hybrid tiene soporte completo y optimizado en vLLM 0.10.2 y Hugging Face Transformers. La arquitectura Granite Hybrid también es compatible con llama.cpp y MLX, aunque el trabajo para optimizar completamente el rendimiento en estos tiempos de ejecución aún está en curso. Agradecemos a nuestros socios del ecosistema su colaboración y esperamos que nuestro trabajo ayude a facilitar una mayor experimentación con modelos híbridos.
Los modelos Granite 4.0 Instruct ya están disponibles en IBM watsonx.ai, el estudio de desarrollo de IA integrado de IBM para simplificar y escalar la implementación de la IA. Los modelos Granite 4.0 Instruct también están disponibles a través de los socios de la plataforma, entre los que se incluyen, por orden alfabético, Dell Technologies (en Dell Pro IA Studio y Dell Enterprise Hub), Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE y Replicate. Los modelos Granite 4.0 Base están disponibles a través de Hugging Face.
Los modelos Granite 4.0 también son compatibles con Unsloth para un fine-tuning y eficiente en cuanto a memoria, y se pueden aprovechar en Continue para potenciar asistentes de codificación de IA personalizados.
Las guías y recetas de Granite Docs pueden ayudarle a empezar, e incluyen tutoriales útiles como:
1. Los productos de la marca Qualcomm son productos de Qualcomm Technologies, Inc. y/o sus filiales. Qualcomm Hexagon es una marca comercial o marca registrada de Qualcomm Incorporated.
