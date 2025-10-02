Aquí está la información clave, de un vistazo:
El lanzamiento de Granite 4.0 inicia una nueva era para la familia de modelos de lenguaje grandes listos para la empresa de IBM, aprovechando los novedosos avances arquitectónicos para duplicar los modelos de lenguaje pequeños y eficientes que brindan un rendimiento competitivo a costos y latencia reducidos. Los modelos Granite 4.0 se desarrollaron con un énfasis particular en las tareas esenciales para los flujos de trabajo agénticos, tanto en despliegues independientes como como bloques de construcción rentables en sistemas complejos junto con modelos de razonamiento más grandes.
La colección Granite 4.0 comprende múltiples tamaños de modelos y estilos de arquitectura para proporcionar una producción óptima en una amplia gama de limitaciones de hardware, que incluyen:
Granite 4.0-H Small es un modelo de caballo de batalla para un rendimiento sólido y rentable en flujos de trabajo empresariales, como agentes multiherramienta y automatización de atención al cliente. Los modelos Tiny y Micro están diseñados para aplicaciones locales, perimetrales y de baja latencia, y también pueden servir como componente básico dentro de flujos de trabajo agénticos más grandes para la ejecución rápida de tareas clave, como la llamada a funciones.
El rendimiento de punto de referencia de Granite 4.0 muestra mejoras sustanciales con respecto a las generaciones anteriores (incluso los modelos Granite 4.0 más pequeños superan significativamente a Granite 3.3 8B, a pesar de tener menos de la mitad de su tamaño), pero su fortaleza más notable es un aumento notable en la eficiencia de inferencia. En comparación con los LLM convencionales, nuestros modelos híbridos Granite 4.0 requieren significativamente menos RAM para ejecutarse, especialmente para tareas que implican contextos de larga duración (como ingerir una gran base de código o documentación extensa) y varias sesiones al mismo tiempo (como un agente de atención al cliente que maneja muchos consultas de los usuarios simultáneamente).
Lo más importante es que esta reducción drástica en los requisitos de memoria de Granite 4.0 implica una reducción igualmente drástica en el costo del hardware necesario para ejecutar cargas de trabajo pesadas a altas velocidades de inferencia. Nuestro objetivo es reducir las barreras de entrada proporcionando a las empresas y a los desarrolladores de código abierto un acceso rentable a LLM altamente competitivos.
La priorización de IBM de la eficiencia de la inferencia práctica en cualquier hardware se corresponde con nuestro énfasis en la seguridad y la transparencia de nuestro ecosistema modelo. Luego de una extensa auditoría externa de meses de duración del proceso de desarrollo de IA de IBM, IBM Granite se convirtió recientemente en la única familia de modelos de lenguaje abierto en lograr la certificación ISO 42001, cumpliendo con el primer estándar internacional del mundo en responsabilidad, explicabilidad, privacidad de datos y confiabilidad en sistemas de gestión de IA (AIMS). Esa confiabilidad fundamental se ve reforzada por nuestra reciente asociación con HackerOne en un programa de recompensas por errores para Granite, así como nuestra nueva práctica de firma criptográfica de todos los puntos de control del modelo 4.0 disponibles en Hugging Face (lo que permite a los desarrolladores y empresas garantizar la procedencia y autenticidad de los modelos ).
Los socios empresariales seleccionados, incluidos EY y Lockheed Martin, tuvieron acceso temprano para probar las capacidades de Granite 4.0 a escala en casos de uso clave. El feedback de estos socios de lanzamiento anticipado, junto con el feedback de la comunidad de código abierto, se utilizarán para mejorar y optimizar los modelos para futuras actualizaciones.
El lanzamiento de hoy incluye las variantes Base e Instruct de Micro, Tiny y Small. Se planea lanzar modelos de tamaños adicionales (tanto más grandes como más pequeños), así como variantes con soporte de razonamiento explícito, para fines de 2025.
Los modelos híbridos Granite 4.0 son significativamente más rápidos y más eficientes en cuanto a la memoria que los modelos de tamaño comparable construidos con arquitecturas transformadoras estándar. La arquitectura híbrida de Granite 4 combina una pequeña cantidad de capas de atención de estilo transformador estándar con la mayoría de las capas de Mamba, más específicamente, Mamba-2. Mamba procesa los matices del lenguaje de una manera totalmente distinta y significativamente más eficiente que los modelos de lenguaje convencionales.
Los requisitos de memoria de GPU de los LLM a menudo se informan en términos de cuánta RAM se necesita solo para cargar las ponderaciones del modelo. Pero muchos casos de uso empresarial, especialmente aquellos que involucran despliegue a gran escala, IA agéntica en entornos complejos o sistemas RAG, implican un contexto prolongado, inferencia por lotes de varias instancias de modelos concurrentes a la vez, o ambas cosas. De acuerdo con el énfasis de IBM en la practicidad empresarial, evaluamos y optimizamos Granite 4 teniendo en cuenta el contexto largo y las sesiones simultáneas.
En comparación con los modelos convencionales basados en transformadores, Granite 4.0-H puede ofrecer una reducción de más del 70 % en la RAM necesaria para manejar entradas largas y múltiples lotes simultáneos.
Los modelos híbridos Granite 4.0 son compatibles con las GPU AMD Instinct™ MI-300X, lo que permite reducir aún más su huella de memoria.
Los LLM convencionales tienen dificultades para mantener el rendimiento a medida que aumenta la longitud del contexto o el tamaño del lote. Nuestros modelos híbridos continúan acelerando su producción incluso en cargas de trabajo donde la mayoría de los modelos se ralentizan o superan por completo la capacidad del hardware. Cuanto más les arroje, más evidentes serán sus ventajas.
IBM trabajó con Qualcomm Technologies, Inc. y Nexa IA para garantizar la compatibilidad de los modelos Granite 4.0 con Hexagon NPU1 para optimizar aún más la velocidad de inferencia para el despliegue en dispositivos en teléfonos inteligentes y PC.
Por supuesto, la utilidad real de esas ventajas de eficiencia está impulsada por el hecho de que la calidad de los resultados de los modelos Granite 4.0 es competitiva con la de los modelos en o por encima de sus respectivas clases de ponderación, especialmente en los puntos de referencia que evalúan el rendimiento en tareas clave de IA agéntica como seguimiento de instrucciones y llamadas a funciones.
Todos los modelos Granite 4.0 ofrecen importantes mejoras de rendimiento generales con respecto a la generación anterior de modelos Granite. Si bien la nueva arquitectura híbrida Granite contribuye a la eficiencia y eficacia del entrenamiento de modelos, la mayor parte de las mejoras en la precisión del modelo se derivan de los avances en nuestras metodologías de entrenamiento (y posteriores al entrenamiento) y la expansión y refinamiento continuos del corpus de datos de entrenamiento de Granite. Así es como y por qué incluso Granite 4.0-Micro, construido sobre una arquitectura transformadora convencional similar a la de los modelos anteriores de Granite, supera significativamente a Granite 3.3 8B.
Sobresalen particularmente en tareas esenciales para los casos de uso y los flujos de trabajo de IA agéntica. Según lo evaluado por Stanford HELM, Granite-4.0-H-Small supera todos los modelos de ponderación abierta (con la única excepción de Llama 4 Maverick, un modelo de parámetros 402B de más de 12 veces su tamaño) en IFEval, un punto de referencia ampliamente utilizado para evaluar la capacidad de un modelo para seguir instrucciones explícitas.
En muchos flujos de trabajo de agentes, es crucial que las instrucciones no solo se sigan de manera confiable, sino que también se traduzcan con precisión en llamadas de herramientas efectivas. Con ese fin, Granite-4.0-H-Small sigue el ritmo de modelos mucho más grandes, tanto abiertos como cerrados, en el punto de referencia Berkeley Function Calling Leaderboard v3 (BFCLv3). Además, lo logra a un precio inigualable dentro de este conjunto competitivo.
Granite 4.0 también sobresale en MTRAG, un punto de referencia que mide el rendimiento y la confiabilidad en tareas complejas de generación aumentada por recuperación (RAG, por sus siglas en inglés) que implican múltiples turnos, preguntas sin respuesta, preguntas no independientes e información que abarca múltiples dominios.
Las métricas de evaluación adicionales están disponibles en las tarjetas modelo Hugging Face de Granite 4.0.
Todos los modelos Granite se construyen con seguridad, protección y gobernanza responsable en su núcleo.
A principios de este mes, IBM Granite se convirtió en la primera familia de modelos de lenguaje abierto en recibir la acreditación bajo ISO/IEC 42001:2023, certificando que Granite está alineado con las mejores prácticas reconocidas internacionalmente para una IA responsable y que el sistema de gestión de IA de IBM cumple con los más altos niveles de escrutinio. Las organizaciones pueden construir con confianza con los modelos Granite 4.0 incluso en contextos de alto riesgo, como industrias altamente reguladas y entornos de despliegue de misión crítica.
Al igual que todos los modelos Granite, los modelos Granite 4.0 se entrenaron completamente con datos cuidadosamente curados, adquiridos éticamente y aprobados por la empresa. Como reflejo de nuestra plena confianza en la confiabilidad de nuestros modelos, IBM ofrece una indemnización ilimitada por reclamaciones de IP de terceros contra el contenido generado por los modelos Granite cuando se utilizan en IBM® watsonx.ai.
Más allá de nuestras extensas pruebas internas y equipos rojos, IBM también se asoció recientemente con HackerOne para lanzar un programa de recompensas por errores para Granite, que ofrece hasta $100 000 por la identificación de fallas imprevistas, modos de falla o vulnerabilidades a jailbreaking y otros ataques adversarios. Cualquier información invaluable de este tipo que descubran los investigadores que participan en el programa de recompensas por errores servirá de base para las mejoras y actualizaciones continuas de la seguridad de nuestros modelos, en particular a través de la generación de datos sintéticos para mejorar la alineación del modelo.
IBM se centra en la seguridad no solo de nuestros modelos, sino también de la cadena de distribución de modelos. Con ese fin, IBM ha iniciado la práctica novedosa de firmar criptográficamente todos los puntos de control del modelo Granite antes del lanzamiento: todos los puntos de control del modelo Granite ahora se envían con un archivo model.sig para permitir una verificación pública fácil de la procedencia del modelo Granite para garantizar su integridad y autenticidad.
A pesar de sus muchas ventajas, los modelos transformadores tienen un inconveniente crítico: sus necesidades computacionales se escalan cuadráticamente con la longitud de la secuencia. Si la longitud del contexto se duplica, el número de cálculos que debe realizar un modelo transformador (y almacenar en memoria) se cuadruplica. Este “cuello de botella cuadrático” inevitablemente disminuye la velocidad y aumenta el costo a medida que aumenta la longitud del contexto. En contextos de larga duración, puede agotar rápidamente la capacidad de RAM incluso de las GPU de consumo de alta gama.
Mientras que los transformadores se basan en la autoatención, Mamba emplea un mecanismo de selectividad completamente distinto que es inherentemente más eficiente. Los requisitos computacionales de Mamba se escalan linealmente con la longitud de la secuencia: cuando el contexto se duplica, Mamba realiza solo el doble, no el cuádruple, de los cálculos. Aún mejor, los requisitos de memoria de Mamba permanecen constantes, independientemente de la longitud de la secuencia. Cuanto más trabajo le dedique a un modelo Mamba, mayores serán sus ventajas sobre los transformadores.
Sin embargo, los transformadores y la autoatención aún tienen algunas ventajas sobre Mamba y Mamba-2, particularmente para el rendimiento en tareas que implican aprendizaje en contexto (como few-shot prompting). Afortunadamente, combinar ambos en un modelo híbrido ofrece lo mejor de ambos mundos. Para obtener más insight, revise nuestro adelanto de Granite-4.0-Tiny-Preview.
La arquitectura que impulsa Granite 4.0-H-Micro, Granite 4.0-H-Tiny y Granite 4.0-H-Small combina capas de Mamba-2 y bloques de transformadores convencionales secuencialmente en una proporción de 9:1. Esencialmente, los bloques de Mamba-2 procesan de manera eficiente el contexto global y pasan periódicamente esa información contextual a través de un bloque transformador que ofrece un análisis más matizado del contexto local a través de la autoatención antes de pasarlo a la siguiente agrupación de capas de Mamba-2.
Vale la pena señalar que la mayor parte de la infraestructura de servicio de LLM del mundo se adaptó históricamente a modelos solo transformadores. Tras nuestro lanzamiento experimental de Granite 4.0-Tiny-Preview a principios de este año, colaboramos ampliamente con socios del ecosistema para establecer soporte para la arquitectura Granite 4 Hybrid en infraestructuras que incluyen vLLM, llama.cpp, NexaML y MLX en preparación para el lanzamiento de hoy.
Granite-4.0-H-Tiny y Granite-4.0-H-Small pasan la salida de cada bloque Mamba-2 y transformador a un bloque de mezcla de expertos (MoE) detallado (cuyas especificaciones han cambiado ligeramente desde Granite 4.0-Tiny-Preview). Si bien los MoE detallados han sido un área de investigación activa de IBM desde el lanzamiento de Granite 3.0 en 2024, Tiny y Small son nuestros primeros MoE en utilizar expertos compartidos que siempre están activados, lo que mejora la eficiencia de sus parámetros y habilita a los otros "expertos" para desarrollar mejores conocimientos claramente especializados.
Granite 4.0-H-Micro utiliza capas de feedback densas convencionales en lugar de bloques MoE, pero por lo demás refleja la arquitectura compartida por Tiny y Small.
Uno de los aspectos más tentadores de los modelos de lenguaje basados en modelos de espacio de estado (SSM) como Mamba es su potencial teórico para manejar secuencias infinitamente largas. Todos los modelos Granite 4.0 han sido entrenados con muestras de datos de hasta 512 000 tokens de longitud de contexto. El rendimiento se ha validado en tareas que implican una longitud de contexto de hasta 128 000 tokens, pero, en teoría, la longitud del contexto puede extenderse aún más.
En los modelos de transformadores estándar, la ventana de contexto máxima está fundamentalmente restringida por las limitaciones de la codificación posicional. Debido a que el mecanismo de atención de un transformador procesa cada token a la vez, no conserva ninguna información sobre el orden de los tokens. La codificación posicional (PE) vuelve a agregar esa información. Algunas investigaciones sugieren que los modelos que utilizan técnicas comunes de PE, como la codificación posicional rotativa (RoPE), tienen dificultades en secuencias más largas de lo que han visto en el entrenamiento.2
La arquitectura Granite 4.0-H no utiliza codificación posicional (NoPE). Encontramos que, en pocas palabras, no lo necesitan: Mamba inherentemente sí conserva información sobre el orden de los tokens, porque los “lee” secuencialmente.
En sus diferentes implementaciones de arquitectura, todos los modelos Granite 4.0 se entrenan con muestras extraídas del mismo corpus de tokens de 22T cuidadosamente compilado de datos de entrenamiento centrados en la empresa, así como las mismas metodologías mejoradas de preentrenamiento, régimen posterior al entrenamiento y plantilla de chat.
Granite 4.0 se entrenó previamente en un amplio espectro de muestras curadas de DataComp-LM (DCLM), GneissWeb, subconjuntos TxT360, Wikipedia y otras fuentes relevantes para la empresa. Recibieron capacitación posterior para sobresalir en tareas empresariales, aprovechando conjuntos de datos sintéticos y abiertos en dominios que incluyen lenguaje, código, matemáticas y razonamiento, multilingüismo, seguridad, llamadas de herramientas, RAG y ciberseguridad. Todos los conjuntos de datos de entrenamiento se prepararon con el marco del kit de preparación de datos de código abierto.
Una desviación notable de las generaciones anteriores de modelos de Granite es la decisión de dividir nuestros modelos Granite 4.0 posteriormente entrenados en variantes separadas ajustadas a la instrucción (lanzadas hoy) y de razonamiento (que se lanzarán a finales de este otoño). Haciéndonos eco de los hallazgos de investigaciones recientes de la industria, descubrimos en el entrenamiento que dividir los dos dio como resultado un mejor rendimiento de seguimiento de instrucciones para los modelos Instruct y un mejor rendimiento de razonamiento complejo para los modelos Thinking. Esto tiene el beneficio adicional de simplificar las plantillas de chat para ambas variantes.
A finales de este otoño, a las variantes Base e Instruct de los modelos Granite 4.0 se unirán sus contrapartes “Thinking”, cuya capacitación posterior para mejorar el rendimiento en tareas complejas impulsadas por la lógica está en curso.
Para fin de año, planeamos lanzar también tamaños de modelos adicionales, incluidos no solo Granite 4.0 Medium, sino también Granite 4.0 Nano, una matriz de modelos significativamente más pequeños diseñados para (entre otras cosas) inferencia en dispositivos edge.
Los modelos Granite 4.0 ahora están disponibles en un amplio espectro de proveedores de plataformas e infraestructura para nosotros como modelos independientes rápidos y eficientes y como bloques de construcción clave de flujos de trabajo junto con los principales modelos de gran frontera. También puede probarlos en Granite Playground.
La nueva arquitectura Granite Hybrid tiene soporte completo y optimizado en vLLM 0.10.2 y Hugging Face Transformers. La arquitectura Granite Hybrid también es compatible con llama.cpp y MLX, aunque el trabajo para optimizar completamente el rendimiento en estos tiempos de ejecución aún está en curso. Agradecemos a nuestros socios del ecosistema por su colaboración y esperamos que nuestro trabajo ayude a facilitar una mayor experimentación con modelos híbridos.
Los modelos Granite 4.0 Instruct ya están disponibles en IBM watsonx.ai, El estudio de desarrollo de IA integrado de IBM para hacer que el despliegue de IA sea simple y escalable. Los modelos de Instruct de Granite 4.0 también están disponibles a través de socios de plataforma que incluyen,en orden alfabético,Dell Technologies (en Dell Pro IA Studio y Dell Enterprise Hub), Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE y Replicate. Los modelos Granite 4.0 Base están disponibles a través de Hugging Face.
Los modelos Granite 4.0 también son compatibles con Unsloth para un ajuste rápido y eficiente de la memoria, y se pueden aprovechar en Continue para potenciar los asistentes de programación de IA personalizados.
Las guías y recetas de Granite Docs pueden ayudarle a empezar, incluidos tutoriales útiles, como:
Acceda a tutoriales, insights y recursos de Granite en un solo lugar.
Dé los primeros pasos con watsonx.ai y explore los tutoriales prácticos y la información de expertos de IBM Developer.
Descubra el evento de aprendizaje para desarrolladores y tecnólogos en una misión.
Acceda a una colección completa de contenido relacionado con los agentes de IA, como documentos explicativos y educativos, tutoriales, episodios de podcasts y mucho más.
Descubra por qué IBM ha sido reconocida como líder en el 2025 Gartner® Magic Quadrant™ para plataformas de ciencia de datos y machine learning.
Explore recetas fácilmente consumibles (notebooks de python) que muestran las capacidades de los modelos Granite.
Modelos de lenguaje pequeños de código abierto que ofrecen rendimiento y transparencia de nivel empresarial a un precio competitivo.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
Conozca Granite, nuestra familia de modelos de IA diseñados específicamente para las empresas desde cero para garantizar la confianza y la escalabilidad en las aplicaciones impulsadas por IA.
1. Los productos de la marca Qualcomm son productos de Qualcomm Technologies, Inc. o sus subsidiarias. Qualcomm Hexagon es una marca comercial o marca registrada de Qualcomm Incorporated.
2. “The Impact of Positional Encoding on Length Generalization in Transformers,” arXiv, 6 de noviembre de 2023