Granite 3.2, la última versión de nuestra tercera generación de modelos IBM Granite, es un paso esencial en la evolución de la serie Granite más allá de los modelos de lenguaje sencillos. Encabezado por características de razonamiento experimental y nuestro primer modelo oficial de lenguaje de visión (VLM), Granite 3.2 introduce varias capacidades nuevas e importantes en la familia Granite.
El lanzamiento también incluye una serie de mejoras en la eficiencia, eficacia y versatilidad de nuestras ofertas existentes. La priorización por parte de IBM de modelos prácticos y listos para la empresa continúa la búsqueda de un rendimiento de vanguardia con cada vez menos parámetros.
Como siempre, los últimos modelos de Granite son de código abierto bajo la licencia Apache 2.0. Todos los modelos Granite ya están disponibles en Hugging Face. Algunos modelos también están disponibles a través de plataformas adicionales, como IBM watsonx.ai. Encontrará tutoriales, recetas y otros recursos en la sección "Primeros pasos" al final de este artículo.
Las iteraciones más recientes de los principales modelos de lenguaje de gran tamaño (LLM) de solo texto de IBM, Granite 3.2 Instruct 8B y Granite 3.2 Instruct 2B, se han entrenado para ofrecer capacidades de razonamiento mejoradas en relación con sus homólogos 3.1. Nuestra implementación del razonamiento va en contra de ciertas tendencias del sector, en consonancia con el enfoque práctico de IBM para mejorar el rendimiento de los modelos.
Estas características experimentales de los nuevos modelos Granite 3.2 Instruct representan solo una de las múltiples exploraciones en curso en IBM Research sobre la evolución de los modelos basados en el razonamiento. Otros trabajos sobre técnicas de escalado de inferencia demuestran que Granite 3.2 8B Instruct puede calibrarse para igualar o superar el rendimiento de razonamiento matemático de modelos mucho más grandes, incluidos GPT-4o-0513 de OpenAI y Claude-3.5-Sonnet-1022 de Anthropic.
La intuición que impulsa los avances recientes en el razonamiento de modelos de lenguaje proviene de una investigación de 2022 que demuestra que simplemente agregar la frase "piense paso a paso", una técnica de prompt engineering comúnmente llamada prompting de cadena de pensamiento (CoT), mejora significativamente los resultados del modelo en tareas de razonamiento1.
Una investigación posterior de 2024 postuló además que ampliar los recursos en tiempo de inferencia, es decir, los recursos utilizados para generar cada resultado durante la inferencia, podría mejorar el rendimiento del modelo tanto como aumentar el tamaño de un modelo o los recursos utilizados para entrenarlo. Los enfoques más recientes se han centrado principalmente en esa escala de inferencias mediante la incorporación de varios marcos de aprendizaje por refuerzo (RL) que incentivan "procesos de pensamiento" más largos y complejos. Y lo más interesante es que se ha demostrado empíricamente que el escalado de la inferencia permite que incluso los LLM más pequeños superen las capacidades de razonamiento de modelos mucho más grandes.
A pesar de sus puntos fuertes, los modelos de razonamiento no están exentos de inconvenientes. Al comprender esto, IBM tomó medidas deliberadas para mitigar estas desventajas en la implementación específica de capacidades de razonamiento para Granite 3.2.
Los "modelos de razonamiento" suelen ser más lentos y caros que los LLM generales, puesto que hay que generar (y pagar) todos los tokens que el modelo utiliza para "pensar" en la respuesta final antes de proporcionar realmente un output al usuario. IBM Research señaló un ejemplo de DeepSeek-R1, un destacado modelo de razonamiento, que tardó 50,9 segundos en responder a la pregunta "¿Dónde está Roma?".
Hay escenarios en los que ese tiempo y cálculo extra pueden justificarse fácilmente, pero también hay muchos escenarios en los que se convierte en un despilfarro de recursos. En lugar de exigir a los desarrolladores que hagan malabarismos con estas compensaciones cada vez que eligen un modelo para una aplicación o flujo de trabajo determinados, los modelos IBM Granite 3.2 Instruct permiten activar o desactivar su proceso de pensamiento ampliado simplemente al añadir el parámetro
Puede aprovechar el proceso de pensamiento de Granite 3.2 cuando sea necesario o priorizar la eficiencia cuando no lo sea.
En la relativamente corta historia de los modelos de razonamiento, muchos enfoques destacados han priorizado las ganancias de rendimiento solo en un conjunto limitado de dominios impulsados por la lógica, como las matemáticas o la codificación. Aunque el trabajo continuo de IBM con técnicas de escalado de inferencia ha producido mejoras de rendimiento particularmente impresionantes en los puntos de referencia técnicos asociados convencionalmente con el "razonamiento", como AIME y MATH-500, nuestro enfoque para Granite 3.2 Instruct fue enriquecer los procesos de pensamiento de nuestros modelos para mejorar más ampliamente su capacidad para seguir instrucciones complejas.
Un enfoque limitado en las tareas técnicas explícitamente dirigidas por los desarrolladores del modelo a veces puede ser a expensas de otros dominios, incluidos el rendimiento general y la seguridad, cuyos conocimientos pueden ser "olvidados" por el modelo si no están adecuadamente cubiertos en los conjuntos de datos utilizados para mejorar el rendimiento del razonamiento. Para evitar esto, IBM desarrolló Granite 3.2 Instruct aplicando un marco de aprendizaje de refuerzo basado en la optimización de preferencias de pensamiento (TPO)directamente a Granite 3.1 Instruct.
A diferencia de muchos enfoques habituales de las capacidades de razonamiento, la menor dependencia de TPO de operadores o funciones lógicas para calificar y recompensar los resultados de los modelos facilita su ampliación a tareas generales. Esto permitió a Granite 3.2 Instruct disfrutar de un mayor rendimiento en tareas que requieren un razonamiento complejo sin comprometer el rendimiento en otros lugares.
Los beneficios de este enfoque son más evidentes en las comparaciones con los modelos DeepSeek-R1-Distill, que (a pesar de sus nombres) son en realidad versiones de los modelos Llama y Qwen afinadas para emular el proceso de razonamiento de DeepSeek-R1. Cabe señalar aquí que, a diferencia de los modelos R1-Distill, los modelos IBM Granite 3.2 Instruct no se entrenaron con ningún dato generado por DeepSeek, lo que simplifica enormemente sus implicaciones normativas.
Considere el rendimiento previo y posterior al razonamiento de modelos Llama, Qwen y Granite de tamaño similar en ArenaHard y Alpaca-Eval-2, referencias populares que miden la capacidad de un modelo para pensar en instrucciones difíciles. Mientras que la técnica de DeepSeek disminuye el rendimiento en estas tareas no específicas, las técnicas CoT utilizadas para evolucionar Granite 3.1 Instruct a Granite 3.2 Instruct mejoraron significativamente el seguimiento de instrucciones.
Del mismo modo, Granite 3.2 evita los sacrificios en el rendimiento general que suele implicar la introducción de capacidades de razonamiento.
IBM mantiene las preocupaciones esenciales de la empresa, incluida la seguridad, en el centro de todas las decisiones de diseño. Aunque los modelos destilados de DeepSeek muestran una caída significativa en el rendimiento de seguridad (medido por el rendimiento en la referencia AttaQ), el enfoque de IBM preservó la solidez de Granite 3.2 Instruct frente a los ataques adversarios.
Como se ha mencionado, el lanzamiento de Granite 3.2 marca solo el comienzo de las exploraciones de IBM en capacidades de razonamiento para modelos empresariales. Gran parte de nuestra investigación en curso tiene como objetivo beneficiarse del proceso de pensamiento inherentemente más largo y sólido de Granite 3.2 para una mayor optimización del modelo.
Una de estas vías de exploración se centra en reforzar Granite 3.2 con técnicas de escalado de inferencias más complejas, como el filtrado de partículas y la votación por mayoría (también llamada autoconsistencia). Los primeros experimentos demuestran que, cuando se utiliza junto con estas técnicas de escalado de inferencia, el rendimiento de Granite 3.2 en tareas de razonamiento matemático puede igualar o superar el rendimiento de modelos de frontera mucho más grandes.
Granite Vision 3.2 2B es un modelo de lenguaje de gran tamaño y ligero con capacidades de visión artificial que se dirigen a casos de uso empresariales cotidianos, entrenado con un enfoque particular en la comprensión visual de documentos. Al manejar entradas de imagen y texto, el rendimiento de Granite Vision 3.2 en puntos de referencia empresariales esenciales, como DocVQA y ChartQA, rivaliza con el de modelos abiertos incluso significativamente más grandes.
Aunque Granite Vision 3.2 2B no está diseñado explícitamente para reemplazar modelos Granite de solo texto de tamaño similar en tareas de lenguaje, puede gestionar de manera competente escenarios de entrada y salida de texto.
Granite Vision 3.2 2B puede gestionar una amplia variedad de tareas de comprensión visual, pero se especializa en las tareas más relevantes para la comprensión de documentos y la generación aumentada por recuperación (RAG).
La mayoría de los VLM, también denominados modelos multimodales de lenguaje de gran tamaño (MLLM), están entrenados para tareas de visión predominantemente en imágenes naturales. Esto no produce necesariamente un rendimiento óptimo en las imágenes de documentos, cuyas características visuales únicas (diseños, fuentes, gráficos, infografías) difieren significativamente de las de las imágenes naturales. En relación con la mayoría de los casos de uso generalizados de entrada y salida de texto, la comprensión de los documentos requiere una comprensión más específica y precisa del contexto visual.
Los dos retos principales para permitir que los MLLM procesen eficazmente los documentos y los elementos visuales asociados son la codificación adecuada de imágenes de alta resolución y la interpretación precisa del texto situado visualmente dentro de esos documentos. Los enfoques especializados suelen basarse en sistemas externos de reconocimiento óptico de caracteres (OCR) para procesar texto dentro de imágenes en un marco de "percepción-comprensión" o en arquitecturas de modelos a medida diseñadas exclusivamente para la comprensión de documentos.
Ambos enfoques tienen inconvenientes. La dependencia de la comprensión externa de documentos impulsada por OCR puede provocar la acumulación de errores antes de que la información esencial llegue al lenguaje, mientras que muchos métodos dedicados "sin OCR" tienen dificultades para manejar entrada de alta resolución o sufren una falta de conocimiento general relativo a eso de un LLM competitivo2.
Más recientemente, se ha logrado un gran rendimiento en la comprensión de documentos mediante el ajuste de instrucciones de modelos de lenguaje de visión generalizada en conjuntos de datos centrados en documentos. Desafortunadamente, el progreso en este enfoque se ha visto algo limitado por la escasez de conjuntos de datos de código abierto adecuados. Para facilitar un mayor progreso con este enfoque, el desarrollo de Granite Vision 3.2 por parte de IBM implicó un extenso trabajo hacia un conjunto de datos integral de seguimiento de instrucciones para la comprensión visual de documentos.
El conjunto de datos DocFM es un gran conjunto de datos de ajuste de instrucciones para tareas de visión que se basa en un núcleo de datos empresariales cuidadosamente curados. En el documento técnico adjunto se proporcionan amplios detalles sobre las fuentes de datos utilizadas en la recopilación de conjuntos de datos de comprensión de documentos, los métodos de filtrado y limpieza utilizados para procesar esa recopilación inicial y las metodologías empleadas para generar sintéticamente tareas de entrenamiento para Granite Vision a partir de entonces.
Los datos de comprensión de documentos utilizados para entrenar Granite Vision cubren una variedad diversa de clases de documentos con las categorías de imágenes generales de documentos, gráficos, diagramas de flujo y diagramas. El conjunto de datos de seguimiento de instrucciones derivado finalmente de estas fuentes de datos abarca un abanico diverso de tareas que incluyen la respuesta a preguntas sobre documentos, la comprensión del texto de la escena, la extracción de valores clave, la fundamentación del texto, el análisis sintáctico del diseño, los subtítulos, la comprensión de la IU y el código.
DocFM es un conjunto de datos muy grande que IBM pretende utilizar para una variedad de esfuerzos de aprendizaje visual posteriores en el futuro. El entrenamiento de Granite Vision se basó en un subconjunto de DocFM para crear una serie de conjuntos de datos visuales sintéticos de preguntas y respuestas. En la tabla 5 del anexo del documento técnico se ofrece un resumen completo de los conjuntos de datos de comprensión de documentos utilizados para Granite Vision.
En el diseño y entrenamiento de Granite 3.2 Vision, IBM también introdujo una novedosa técnica de tiempo de prueba que, en lugar de depender de un modelo de guardarraíl externo para monitorizar la actividad dañina, incorpora un enfoque de seguridad dedicado directamente en el propio modelo.
Nuestra idea clave es que dentro de las numerosas cabezas de atención y capas transformadoras de Granite Vision hay un subconjunto disperso de características de la imagen que podrían ser útiles para identificar problemas de seguridad cuando las tareas de supervisión de la seguridad se formalizan como problemas de clasificación.
En un proceso detallado en el documento técnico de Granite Vision, IBM Research diseñó un proceso para aislar y examinar los vectores de atención producidos dentro del mecanismo de atención de Granite Vision para evaluar cuáles, por término medio, se correlacionan de forma fiable con determinadas clases de entradas dañinas. Una vez identificados, los cabezales de atención responsables de generar esos "vectores de seguridad" pueden utilizarse para determinar si una entrada determinada es segura.
IBM seguirá explorando las posibles aplicaciones de los vectores de atención dispersos. Una posible vía de exploración es investigar su uso en la adaptación de futuras versiones de Granite Guardian para una monitorización de seguridad totalmente multimodal.
Granite Guardian 3.2, la última generación de modelos de guardarraíl de IBM diseñados para detectar riesgos en instrucciones y respuestas, proporciona rendimiento a la par que los equivalentes de Guardian 3.1 a mayor velocidad con menores costes de inferencia y uso de memoria.
IBM Granite Guardian 3.2 introduce la confianza verbalizada, una nueva característica que proporciona una evaluación más matizada de los riesgos detectados para reconocer la ambigüedad inherente a ciertos escenarios de monitorización de seguridad.
En lugar de emitir únicamente un "Sí" o un "No" binario en el proceso de control del riesgo de las entradas y salidas, los modelos Granite Guardian 3.2 también indicarán su nivel relativo de certidumbre. Cuando se detectan posibles riesgos, los modelos Guardian 3.2 indican una confianza "High" (alta) o "Low" (baja), como se demuestra en el siguiente ejemplo:
Granite Guardian 3.2 presenta dos nuevos tamaños de modelo:
Granite Guardian 3.2 5B se derivó de Guardian Guardian 3.1 8B (que a su vez se creó mediante el ajuste del modelo de lenguaje base para la clasificación de seguridad). Inspirándose en la investigación que demuestra que las capas más profundas de una red neuronal suelen ser redundantes, no se aprovechan del todo mediante el preentrenamiento o simplemente son menos críticas que las capas más superficiales de las redes, IBM siguió una estrategia de poda iterativa para "afinar" el modelo 8B. El proceso dio como resultado una reducción de aproximadamente el 30 % de los parámetros del 8B, manteniendo un rendimiento cercano al del modelo original.
Granite Guardian 3.2 3B-A800M se creó ajustando nuestro modelo base de mezcla de expertos (MoE), que activa solo 800M de su recuento total de parámetros 3B en el momento de la inferencia. Su introducción añade una opción especialmente eficiente y rentable a la línea Granite Guardian.
La popular familia de modelos compactos Granite Time Series de código abierto de IBM, apodados Tiny Time Mixers (TTM), se ha descargado más de ocho millones de veces en Hugging Face. Mientras que las variantes anteriores de TTM lanzadas dentro de las series TTM-R1 y TTM-R2 admitían previsión zero-shot y few-shot para resoluciones de minutos a horas, la incorporación más reciente a la línea de series temporales de Granite, TTM-R2.1, admite previsiones diarias y semanales.
En la parte inferior de la tarjeta del modelo TTM-R2/R2.1 Hugging Face se incluye una lista detallada de todas las fuentes de datos utilizadas para entrenar TTM-R2 y TTM-R2.1. Puede encontrar una lista completa de variantes en la pestaña "Archivos y versiones".
En el Granite Time Series Cookbook encontrará una serie de recetas para iniciarse en el uso de las Tiny Time Mixers.
En el GIFT-Eval Time Series Forecasting Leaderboard de Salesforce, una exhaustiva referencia que evalúa el rendimiento de los modelos de series temporales en entradas multivariadas a través de 24 conjuntos de datos que abarcan 7 dominios, 10 frecuencias y longitudes de predicción que van desde previsiones a corto y largo plazo, los modelos TTM-R2 (incluidas las nuevas variantes TTM-R2.1) encabezan todos los modelos en precisión de previsión puntual medida por el error medio absoluto a escala (MASE)3. El TTM-R2 también se sitúa entre los cinco primeros en previsión probabilística, medida por la puntuación de probabilidad clasificada continua (CRPS).
Vale la pena señalar que los modelos TTM logran estas clasificaciones superando a los modelos muchas veces su tamaño. Con tamaños "diminutos" de 1 a 5 millones de parámetros, los modelos TTM son cientos de veces más pequeños que los modelos del 2o y 3o lugar de MASE, TimesFM-2.0 de Google (500 millones de parámetros) y Chronos-Bolt-Base de Amazon (205 millones de parámetros).
La versión TTM-R2.1 incluye una serie de modelos con diferentes longitudes de contexto y horizontes de previsión. Mientras que los modelos TTM-R2 anteriores ofrecen longitudes de contexto de 1536, 1024 o 512, TTM-R2.1 incluye modelos con longitudes de contexto más cortas que van de 512 a 52, lo que los hace muy adecuados para las previsiones diarias y semanales.
Los modelos TTM-R2.1 no sustituyen necesariamente a sus predecesores TTM-R2. La “mejor” versión de TTM depende de la naturaleza de sus datos y del caso de uso. Por ejemplo,
El móduloget_model simplifica la tarea seleccionando la variante de modelo adecuada entre la amplia oferta disponible.
El "
Cuando está activado, se añade un vector de embedding adicional (que indica la frecuencia de los datos) como "prefijo" a la entrada del modelo junto con la información de la ventana de contexto. Como se detalla en el documento técnico de TTM, el equipo del modelo descubrió que el ajuste de frecuencia mejora el rendimiento cuando se entrena previamente en grandes colecciones de conjuntos de datos con diversas resoluciones. Durante la inferencia, este token de prefijo permite que el modelo se adapte rápidamente a la frecuencia de los datos de entrada, lo que es especialmente útil cuando la longitud del contexto es muy corta.
Mientras que todos los modelos de embedding de Granite anteriores (y, además, casi todos los modelos de embedding en la era moderna del deep learning) aprenden embeddings densos, el modelo de embedding de Granite más reciente,Granite-Embedding-Sparse-30M-English, tiene una arquitectura ligeramente modificada que le permite aprender embeddings dispersos.
Optimizado para coincidencias exactas, búsqueda de palabras clave y clasificación en inglés, Granite-Embedding-30M-Sparse equilibra la eficacia y la escalabilidad en diversos presupuestos de recursos y latencia. Se publica a través de Granite Experiments, una área de investigación de IBM para probar ideas de código abierto con el fin de acelerar el ciclo de desarrollo.
Un modelo típico de embedding denso toma un texto de entrada (como un documento, una frase o una consulta) y genera un vector de embedding de tamaño fijo. El tamaño de ese vector (es decir, cuántos números (o dimensiones) contiene) es una elección de diseño. Los modelos que aprenden embeddings más pequeños son más rápidos, pero menos precisos. Los modelos que aprenden embeddings más grandes son más lentos, pero más precisos. Se denominan embeddings vectoriales “densos” porque cada dimensión almacena un valor específico.
Las dimensiones individuales de un embedding vectorial denso no se corresponden directamente con atributos del significado semántico de la entrada original de forma literal. Los embedding vectoriales densos son esencialmente una caja negra: los modelos pueden usarlas para realizar operaciones útiles, pero los humanos no podemos interpretarlas de manera significativa.
Los embeddings dispersos son más intuitivos. Su tamaño de embedding es el mismo que el tamaño de su vocabulario: es decir, cada dimensión del embedding vectorial se corresponde con una de las "palabras" (o, más exactamente, uno de los tokens)que el modelo ha aprendido. El valor específico contenido en cada dimensión de un vector de embedding disperso refleja la relevancia del token que esa dimensión representa para la entrada para la que el modelo genera un embedding. Los embeddings dispersos son, por lo tanto, bastante interpretables.
Para fragmentos de texto más cortos, como tuits, comentarios o breves reseñas de productos, los embeddings dispersos pueden ser significativamente más rápidas y ofrecer un rendimiento mejor (o al menos igual) que el de los embeddings densos. Por lo general, ofrecen un gran rendimiento "listo para usar" sin necesidad de ajustes.
Dicho esto, no están exentos de inconvenientes. Las posibilidades de mejorar el rendimiento de un modelo de embedding disperso más allá de su línea de base original mediante un ajuste fino son limitadas. En el caso de fragmentos de texto más largos, las ventajas de eficiencia empiezan a desaparecer o incluso a invertirse a medida que se utilizan más y más dimensiones para reflejar la relevancia de un número cada vez mayor de tokens del vocabulario del modelo.
El modelo disperso 30M Granite Embedding ofrece un rendimiento aproximadamente equivalente a su homólogo denso de 30M en los puntos de referencia de recuperación de información (BEIR), a la vez que ofrece una ligera ventaja sobre SPLADE-v3.
Todos los modelos Granite 3.2 están disponibles bajo la licencia permisiva Apache 2.0 en Hugging Face. Algunos modelos también están disponibles en IBM watsonx.ai, así como a través de partners de plataforma, entre los que se incluyen (en orden alfabético) LM Studio, Ollama y Replicate. En el futuro, este artículo se actualizará para reflejar la disponibilidad ampliada de la plataforma de los modelos Granite 3.2.
Hay varias guías y recetas para trabajar con modelos de Granite disponibles en documentos de Granite y Granite Snack Cookbook en GitHub. Los desarrolladores también pueden iniciarse en el uso de los modelos Granite en el área de investigación de modelos Granite o explorando nuestro conjunto de útiles demostraciones y tutoriales, como por ejemplo:
1. "Large Language Models Are Zero-Shot Reasoners". arXiv. 24 de mayo de 2022.
2. "DocPedia: unleashing the power of large multimodal model in the frequency domain for versatile document understanding". arXiv. 20 de noviembre de 2023.
3. En la fecha de publicación de este artículo
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.