Granite 3.2, la última versión de nuestra tercera generación de modelos IBM Granite, es un paso esencial en la evolución de la serie Granite más allá de los modelos de lenguaje sencillos. Encabezado por características de razonamiento experimental y nuestro primer modelo oficial de lenguaje de visión (VLM), Granite 3.2 introduce varias capacidades nuevas e importantes a la familia Granite.
El lanzamiento también incluye una serie de mejoras en la eficiencia, eficacia y versatilidad de nuestras ofertas existentes. La priorización por parte de IBM de modelos prácticos y listos para la empresa continúa la búsqueda de un rendimiento de vanguardia con cada vez menos parámetros.
Como siempre, los últimos modelos de Granite son de código abierto bajo la licencia Apache 2.0. Todos los modelos Granite ya están disponibles en Hugging Face. Algunos modelos también están disponibles a través de plataformas adicionales, como IBM watsonx.ai. Los tutoriales, las recetas y otros recursos están disponibles en la sección "Introducción" al final de este artículo.
Las iteraciones más recientes de los modelos de lenguaje grande (LLM) insignia de solo texto de IBM, Granite 3.2 Instruct 8B y Granite 3.2 Instruct 2B, se han entrenado para ofrecer capacidades de razonamiento mejoradas en relación con sus homólogos 3.1. Nuestra implementación del razonamiento va en cierta medida en contra de ciertas tendencias de la industria, de acuerdo con el enfoque práctico de IBM para mejorar el rendimiento del modelo.
Estas características experimentales de los nuevos modelos Granite 3.2 Instruct representan solo una de las múltiples exploraciones en curso en IBM Research sobre la evolución de modelos impulsada por el razonamiento. El trabajo adicional sobre técnicas de escalado de inferencia demuestra que Granite 3.2 8B Instruct se puede calibrar para igualar o superar el rendimiento de razonamiento matemático de modelos mucho más grandes, incluidos GPT-4o-0513 de OpenAI y Claude-3.5-Sonnet-1022 de Anthropic.
La intuición que impulsa los avances recientes en el razonamiento de modelos de lenguaje proviene de una investigación de 2022 que demuestra que simplemente agregar la frase "pensar paso a paso", una técnica de ingeniería rápida comúnmente llamada instrucciones de cadena de pensamiento (CoT), mejora significativamente los resultados del modelo en tareas de razonamiento.1
Investigaciones posteriores de 2024 postularon además que ampliar la computación en tiempo de inferencia,es decir, los recursos utilizados para generar cada salida durante la inferencia,podría mejorar el rendimiento del modelo tanto como ampliar el tamaño de un modelo o los recursos utilizados para entrenarlo. Los enfoques más recientes han perseguido principalmente dicha escala de inferencia mediante la incorporación de varias infraestructuras de aprendizaje por refuerzo (RL) que incentivan "procesos de pensamiento" más largos y complejos. Curiosamente, se ha demostrado empíricamente que el escalado de inferencias permite que los LLM incluso más pequeños superen las capacidades de razonamiento de modelos mucho más grandes.
A pesar de sus fortalezas, los modelos de razonamiento no están exentos de inconvenientes. Al comprender esto, IBM tomó medidas deliberadas para mitigar estas desventajas en la implementación específica de capacidades de razonamiento para Granite 3.2.
Los “modelos de razonamiento” suelen ser más lentos y costosos que los LLM generales, ya que debe generar (y pagar) todos los tokens que el modelo utiliza para “pensar” en la respuesta final antes de proporcionar resultados al usuario. IBM Research señaló un ejemplo de DeepSeek-R1, un modelo de razonamiento destacado, que tardó 50.9 segundos en responder a la pregunta:"¿Dónde está Roma?”
Hay situaciones en las que ese tiempo y cálculo extra pueden justificar fácilmente, pero también hay muchas en las que se convierte en un despilfarro de recursos. En lugar de exigir a los desarrolladores que hagan malabarismos con estas compensaciones cada vez que eligen un modelo para una aplicación o flujo de trabajo determinados, los modelos IBM Granite 3.2 Instruct permiten activar o desactivar su proceso de pensamiento ampliado simplemente agregando el parámetro
Puede aprovechar el proceso de pensamiento de Granite 3.2 cuando sea necesario o priorizar la eficiencia cuando no lo sea.
En la relativamente corta historia de los modelos de razonamiento, muchos enfoques destacados priorizaron las ganancias de rendimiento solo en un conjunto estrecho de dominios impulsados por la lógica, como las matemáticas o la programación. Si bien el trabajo continuo de IBM con técnicas de escalado de inferencia produjo mejoras de rendimiento particularmente impresionantes en los puntos de referencia técnicos convencionalmente asociados con el "razonamiento", como AIME y MATH-500, nuestro enfoque para Granite 3.2 Instruct fue enriquecer los procesos de pensamiento de nuestros modelos para mejorar de manera más amplia su capacidad para seguir instrucciones complejas.
Un enfoque limitado en las tareas técnicas explícitamente dirigidas por los desarrolladores del modelo a veces puede ser a expensas de otros dominios, incluido el rendimiento general y la seguridad, cuyo conocimiento puede ser "olvidado" por el modelo si no están adecuadamente cubiertos en los conjuntos de datos utilizados para mejorar el rendimiento del razonamiento. Para evitar esto, IBM desarrolló Granite 3.2 Instruct aplicando una infraestructura de aprendizaje por refuerzo basada en la optimización de preferencias de pensamiento (TPO)directamente a Granite 3.1 Instruct.
A diferencia de muchos enfoques habituales de las capacidades de razonamiento, la menor dependencia de TPO de operadores o funciones lógicas para calificar y recompensar los resultados de los modelos facilita su ampliación a tareas generales. Esto permitió a Granite 3.2 Instruct disfrutar de un mayor rendimiento en tareas que requieren un razonamiento complejo sin comprometer el rendimiento en otros lugares.
Los beneficios de este enfoque son más evidentes en las comparaciones con los modelos DeepSeek-R1-Distill, que (a pesar de sus nombres) son en realidad versiones de los modelos Llama y Qwen afinados para emular el proceso de razonamiento de DeepSeek-R1. Vale la pena señalar aquí que, a diferencia de los modelos R1-Distill, los modelos IBM Granite 3.2 Instruct no fueron entrenados utilizando ningún dato generado por DeepSeek, lo que simplifica enormemente sus implicaciones regulatorias.
Considere el desempeño pre y posterior al razonamiento de los modelos Llama, Qwen y Granite de tamaño similar en ArenaHard y Alpaca-Eval-2, puntos de referencia populares que miden la capacidad de un modelo para pensar su camino a través de instrucciones difíciles. Mientras que la técnica de DeepSeek disminuye el rendimiento en estas tareas no específicas, las técnicas CoT utilizadas para evolucionar Granite 3.1 Instruct a Granite 3.2 Instruct mejoraron significativamente el seguimiento de instrucciones.
Del mismo modo, Granite 3.2 evita los sacrificios en el rendimiento general que suele implicar la introducción de capacidades de razonamiento.
IBM mantiene las preocupaciones esenciales de la empresa, incluida la seguridad, en el centro de todas las decisiones de diseño. Si bien los modelos destilados de DeepSeek muestran una caída significativa en el rendimiento de seguridad (medido por el rendimiento en el punto de referencia AttaQ), el enfoque de IBM conservó la robustez de Granite 3.2 Instruct frente a los ataques adversarios.
Como se ha mencionado, el lanzamiento de Granite 3.2 marca solo el comienzo de las exploraciones de IBM en capacidades de razonamiento para modelos empresariales. Gran parte de nuestra investigación en curso tiene como objetivo beneficiarse del proceso de pensamiento inherentemente más largo y sólido de Granite 3.2 para una mayor optimización del modelo.
Una de esas vías de exploración se centra en reforzar Granite 3.2 con técnicas de escalado de inferencia más complejas, como el filtrado de partículas y la votación por mayoría (también llamada autoconsistencia). Los primeros experimentos demuestran que, cuando se emplea junto con estas técnicas de escalado de inferencia, el rendimiento de Granite 3.2 en tareas de razonamiento matemático puede igualar o superar el rendimiento de modelos de frontera mucho más grandes.
Granite Vision 3.2 2B es un modelo de lenguaje ligero y grande con capacidades de visión artificial que se enfoca en casos de uso empresariales cotidianos, entrenado con un enfoque particular en la comprensión visual de documentos. Al manejar entradas de imágenes y texto, el rendimiento de Granite Vision 3.2 en puntos de referencia empresariales esenciales, como DocVQA y ChartQA, rivaliza con el de modelos abiertos incluso significativamente más grandes.
Si bien Granite Vision 3.2 2B no pretende explícitamente ser un reemplazo inmediato para modelos de Granite de solo texto de tamaño similar en tareas de lenguaje, puede manejar de manera capaz de manejar escenarios de text-t-in y text-outs.
Granite Vision 3.2 2B puede gestionar una amplia variedad de tareas de comprensión visual, pero se especializa en las tareas más relevantes para la comprensión de documentos y la generación aumentada por recuperación (RAG).
La mayoría de los VLM, también llamados modelos multimodales de lenguaje de gran tamaño (MLLM), están entrenados para tareas de visión predominantemente en imágenes naturales. Esto no necesariamente produce un rendimiento óptimo en imágenes de documentos, cuyas características visuales únicas (diseños, fuentes, gráficos, infografías) difieren significativamente de las de las imágenes naturales. En relación con la mayoría de los casos de uso generalizados de entrada de imagen y salida de texto, la comprensión de documentos requiere una comprensión más específica y detallada del contexto visual.
Los dos retos principales para permitir que los MLLM procesen eficazmente los documentos y los elementos visuales asociados son la codificación adecuada de imágenes de alta resolución y la interpretación precisa del texto situado visualmente dentro de esos documentos. Los enfoques especializados suelen basarse en sistemas externos de reconocimiento óptico de caracteres (OCR) para procesar texto dentro de imágenes en un marco de "percepción-comprensión" o en arquitecturas de modelos a medida diseñadas exclusivamente para la comprensión de documentos.
Ambos enfoques tienen inconvenientes. La dependencia de la comprensión externa de documentos impulsada por OCR puede provocar la acumulación de errores antes de que la información esencial llegue al lenguaje, mientras que muchos métodos dedicados "sin OCR" tienen dificultades para manejar entrada de alta resolución o sufren una falta de conocimiento general relativo a eso de un LLM competitivo.2
Más recientemente, se logró un sólido rendimiento en la comprensión de documentos mediante el ajuste de instrucciones de modelos de lenguaje de visión generalizados en conjuntos de datos centrados en documentos. Desafortunadamente, el progreso en este enfoque se ha visto algo limitado por la escasez de conjuntos de datos de código abierto adecuados. Para facilitar un mayor progreso con este enfoque, el desarrollo de Granite Vision 3.2 por parte de IBM implicó un extenso trabajo hacia un conjunto de datos integral de seguimiento de instrucciones para la comprensión visual de documentos.
El conjunto de datos DocFM es un gran conjunto de datos de ajuste de instrucciones para tareas de visión que se basa en un núcleo de datos empresariales cuidadosamente curados. En el documento técnico adjunto se proporcionan amplios detalles sobre las fuentes de datos utilizadas en la recopilación de conjuntos de datos de comprensión de documentos, los métodos de filtrado y limpieza utilizados para procesar esa recopilación inicial y las metodologías empleadas para generar sintéticamente tareas de entrenamiento para Granite Vision a partir de entonces.
Los datos de comprensión de documentos utilizados para entrenar Granite Vision cubren una variedad diversa de clases de documentos con las categorías de imágenes generales de documentos, gráficos, diagramas de flujo y diagramas. El conjunto de datos de seguimiento de instrucciones derivado finalmente de estas fuentes de datos abarca un abanico diverso de tareas que incluyen la respuesta a preguntas sobre documentos, la comprensión del texto de la escena, la extracción de valores clave, la fundamentación del texto, el análisis sintáctico del diseño, los subtítulos, la comprensión de la interfaz de usuario (IU) y el código.
DocFM es un conjunto de datos de gran tamaño que IBM pretende emplear en el futuro para diversos proyectos de aprendizaje visual. El entrenamiento de Granite Vision se basó en un subconjunto de DocFM para crear un serial de conjuntos de datos visuales sintéticos de respuesta a preguntas. En la tabla 5 del apéndice del documento técnico se ofrece una visión general de los conjuntos de datos de comprensión de documentos empleados para Granite Vision.
En el diseño y entrenamiento de Granite 3.2 Vision, IBM también introdujo una novedosa técnica de tiempo de prueba que, en lugar de depender de un modelo de protección externo para monitorear la actividad dañina, incorpora un enfoque de seguridad dedicado directamente en el propio modelo.
Nuestro insight clave es que dentro de las numerosas cabezas de atención y capas transformadoras de Granite Vision hay un subconjunto disperso de características de la imagen que podrían ser útiles para identificar problemas de seguridad cuando las tareas de supervisión de la seguridad se formalizan como problemas de clasificación.
En un proceso que se detalla con más detalle en el documento técnico de Granite Vision, IBM Research diseñó un proceso para aislar y examinar los vectores de atención producidos dentro del mecanismo de atención de Granite Vision con el fin de evaluar cuáles, por término medio, se correlacionan de forma fiable con determinadas clases de entradas nocivas. Una vez identificadas, las cabezas de atención responsables de generar esos "vectores de seguridad" pueden emplear para determinar si una entrada dada es segura.
IBM continuará explorando las aplicaciones potenciales de los vectores de atención dispersa. Una posible vía de exploración es investigar su uso para adaptar versiones futuras de Granite Guardian para un monitoreo de seguridad totalmente multimodal.
Granite Guardian 3.2, la última generación de modelos de guardrail de IBM diseñados para detectar riesgos en instrucciones y respuestas, proporciona rendimiento a la par con los equivalentes de Guardian 3.1 a mayor velocidad con menores costos de inferencia y uso de memoria.
IBM Granite Guardian 3.2 introduce la confianza verbalizada, una nueva característica que proporciona una evaluación más matizada de los riesgos detectados para reconocer la ambigüedad inherente a ciertos escenarios de monitoreo de seguridad.
En lugar de emitir únicamente un "Sí" o un "No" binario en el proceso de control del riesgo de las entradas y salidas, los modelos Granite Guardian 3.2 también indicarán su nivel relativo de certidumbre. Cuando se detectan posibles riesgos, los modelos Guardian 3.2 indican una confianza “Alta” o “Baja”, como se demuestra en el siguiente ejemplo:
Granite Guardian 3.2 presenta dos nuevos tamaños de modelo:
Granite Guardian 3.2 5B se derivó de Guardian Guardian 3.1 8B (que a su vez se creó mediante el ajuste del modelo de lenguaje base para la clasificación de seguridad). Inspirándose en la investigación que demuestra que las capas más profundas de una red neuronal suelen ser redundantes, no se aprovechan del todo mediante el preentrenamiento o simplemente son menos críticas que las capas más superficiales de las redes, IBM siguió una estrategia de poda iterativa para "afinar" el modelo 8B. El proceso dio como resultado una reducción de aproximadamente el 30 % de los parámetros del 8B, manteniendo un rendimiento cercano al del modelo original.
Granite Guardian 3.2 3B-A800M se creó ajustando nuestro modelo base de mezcla de expertos (MoE), que activa solo 800M de su recuento total de parámetros 3B en el momento de la inferencia. Su introducción agrega una opción especialmente eficiente y rentable a la línea Granite Guardian.
La popular familia de modelos compactos Granite Time Series de código abierto de IBM, apodados Tiny Time Mixers (TTM), se ha descargado más de ocho millones de veces en Hugging Face. Mientras que las variantes anteriores de TTM lanzadas dentro de las series TTM-R1 y TTM-R2 admitían previsión zero-shot y few-shot para resoluciones de minutos a horas, la incorporación más reciente a la línea de series temporales de Granite, TTM-R2.1, admite pronósticos diarios y semanales.
Una lista detallada de todas las fuentes de datos utilizadas para entrenar TTM-R2 y TTM-R2.1 está disponible en la parte inferior de la tarjeta modelo TTM-R2/R2.1 Hugging Face. Puede encontrar una lista completa de variantes en la pestaña "Archivos y versiones".
En el Granite Time Series Cookbook encontrará una serie de recetas para iniciarse en el uso de las Tiny Time Mixers.
En la Leaderboard de Forecasting de seriales temporales GIFT-Eval de Salesforce, un punto de referencia integral que evalúa el rendimiento del modelo de seriales temporales en entradas multivariantes en 24 conjuntos de datos que abarcan 7 dominios, 10 frecuencias y longitudes de predicción que van desde pronósticos a corto y largo plazo, los modelos TTM-R2 (incluidas las nuevas variantes TTM-R2.1) superan a todos los modelos en cuanto a la precisión del pronóstico puntual medido por el error absoluto medio escalado (MASE). 3 TTM-R2 también se ubica entre los 5 primeros en pronóstico, medido según el puntaje de probabilidad clasificado continuo (CRPS).
Vale la pena señalar que los modelos TTM logran estas clasificaciones superando a los modelos muchas veces su tamaño. Con tamaños "diminutos" de 1 a 5 millones de parámetros, los modelos TTM son cientos de veces más pequeños que losmodelos de segundo y tercer lugar de MASE, TimesFM-2.0 de Google (500 millones de parámetros) y Chronos-Bolt-Base de Amazon (205 millones de parámetros).
La versión TTM-R2.1 incluye una serie de modelos con diferentes longitudes de contexto y horizontes de pronóstico. Mientras que los modelos TTM-R2 anteriores ofrecen longitudes de contexto de 1536, 1024 o 512, TTM-R2.1 incluye modelos con longitudes de contexto más cortas que van de 512 a 52, lo que los hace muy adecuados para las previsiones diarias y semanales.
Los modelos TTM-R2.1 no reemplazan necesariamente a sus predecesores TTM-R2. La "mejor" versión de TTM depende de la naturaleza de sus datos y caso de uso. Por ejemplo,
El módulo get_model simplifica la tarea seleccionando la variante de modelo adecuada entre la amplia oferta disponible.
El “
Cuando está activado, se añade un vector de incorporación adicional (que indica la frecuencia de los datos) como "prefijo" a la entrada del modelo junto con la información de la ventana de contexto. Como se detalla en el documento técnico de TTM, el equipo del modelo descubrió que el ajuste de frecuencia mejora el rendimiento cuando se entrena previamente en grandes colecciones de conjuntos de datos con diversas resoluciones. Durante la inferencia, este token de prefijo permite que el modelo se adapte rápidamente a la frecuencia de los datos de entrada, lo que es especialmente útil cuando la longitud del contexto es muy corta.
Mientras que todos los modelos de embedding de Granite anteriores (y, además, casi todos los modelos de embedding en la era moderna del aprendizaje profundo) aprenden incorporaciones densas , el modelo de incorporación de Granite más reciente, Granite-Embedding-Sparse-30M-English, que tiene una arquitectura ligeramente modificada que le permite aprender incorporaciones dispersas.
Optimizado para coincidencias exactas, búsqueda de palabras clave y clasificación en inglés, Granite-Embedding-30M-Sparse equilibra la eficacia y la escalabilidad en diversos presupuestos de recursos y latencia. Se publica a través de Granite Experiments, una área de investigación de IBM para probar ideas de código abierto con el fin de acelerar el ciclo de desarrollo.
Un modelo típico de incorporación densa toma un texto de entrada (como un documento, una frase o una consulta) y genera un vector de incorporación de tamaño fijo. El tamaño de ese vector, es decir, cuántos números (o dimensiones) contiene es una elección de diseño. Los modelos que aprenden embeddings más pequeños son más rápidos, pero menos precisos. Los modelos que aprenden incorporaciones más grandes son más lentos, pero más precisos. Se denominan embeddings vectoriales “densos” porque cada dimensión almacena un valor específico.
Las dimensiones individuales de una incorporación vectorial densa no se corresponden directamente con atributos del significado semántico de la entrada original de forma literal. Las incorporaciones vectoriales densas son esencialmente una caja negra: los modelos pueden usarlas para realizar operaciones útiles, pero los humanos no podemos interpretarlas de manera significativa.
Las incorporaciones dispersas son más intuitivas. Su tamaño de incorporación es el mismo que su tamaño de vocabulario: es decir, cada dimensión de la incorporación vectorial corresponde con una de las “palabras” o, más exactamente, una de los tokens que el modelo ha aprendido. El valor específico contenido en cada dimensión de un vector de incorporación dispersa refleja la relevancia del token que esa dimensión representa para la entrada para la cual el modelo está generando una incorporación. Las incorporaciones dispersas son, por tanto, bastante interpretables.
Para fragmentos de texto más cortos, como tuits, comentarios o breves reseñas de productos, las incorporaciones dispersas pueden ser significativamente más rápidas y ofrecer un rendimiento mejor (o al menos igual) que el de las incorporaciones densas. Por lo general, ofrecen un gran rendimiento "listo para usar" sin necesidad de ajustes.
Dicho esto, no están exentos de inconvenientes. Las posibilidades de mejorar el rendimiento de un modelo de incorporación dispersa más allá de su línea de base original mediante un ajuste fino son limitadas. En el caso de fragmentos de texto más largos, las ventajas de eficiencia empiezan a desaparecer o incluso a invertirse a medida que se utilizan más y más dimensiones para reflejar la relevancia de un número cada vez mayor de tokens del vocabulario del modelo.
El modelo disperso 30M Granite Embedding ofrece un rendimiento aproximadamente equivalente a su homólogo denso 30M en los puntos de referencia de recuperación de información (BEIR), al tiempo que ofrece una ligera ventaja sobre SPLADE-v3.
Todos los modelos Granite 3.2 están disponibles bajo la licencia permisiva Apache 2.0 en Hugging Face. Algunos modelos también están disponibles en IBM watsonx.ai, así como a través de partners de plataforma, entre los que se incluyen (en orden alfabético) LM Studio, Ollama y Replicate. En el futuro, este artículo se actualizará para reflejar la disponibilidad ampliada de la plataforma de los modelos Granite 3.2.
Hay varias guías y recetas para trabajar con modelos de Granite disponibles en Granite docs y Granite Snack Cookbook en GitHub. Los desarrolladores también pueden dar los primeros pasos con los modelos de Granite Playground o explorando nuestro conjunto de demostraciones y tutoriales útiles, como:
1. "Large Language Models Are Zero-Shot Reasoners," arXiv, 24 May 2022
2. "DocPedia: unleashing the power of large multimodal model in the frequency domain for versatile document understanding," arXiv, 20 de noviembre de 2023
3. En la fecha de publicación de este artículo.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.