IBM Granite 3.1: potente rendimiento, contexto más amplio, nuevos modelos de incrustaciones y mucho más

18 de diciembre de 2024

.

 

Autor

Kate Soule

Director, Technical Product Management, Granite, IBM

Dave Bergmann

Senior Writer, AI Models, IBM

Aquí está la información clave, de un vistazo:
 

  • Granite 3.1 8B Instruct ofrece importantes mejoras de rendimiento con respecto a Granite 3.0 8B Instruct. Su puntuación promedio en los puntos de referencia Hugging Face OpenLLM Leaderboard se encuentra ahora entre las más altas de cualquier modelo abierto de su categoría.
  • Hemos ampliado las ventanas de contexto de toda la familia de modelos de lenguaje Granite 3. Nuestros modelos densos más recientes (Granite 3.1 8B, Granite 3.1 2B), los modelos MoE (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) y los mecanismos de protección (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) destacan por una longitud de contexto de tokens 128K.
  • Estamos lanzando una familia de modelos de incrustaciones totalmente nuevos. Los nuevos modelos de Granite Embedding optimizados para la recuperación se ofrecen en cuatro tamaños, que oscilan entre 30 y 278 millones de parámetros. Al igual que sus homólogos generativos, ofrecen soporte multilingüe en 12 idiomas diferentes: inglés, alemán, español, francés, japonés, portugués, árabe, checo, italiano, coreano, neerlandés y chino.
  • .
  • Granite Guardian 3.1 8B y 2B destacan por una nueva capacidad de detección de alucinaciones de llamadas a funciones, lo que permite un mayor control y observabilidad de los agentes que realizan llamadas a herramientas.
  • Todos los modelos Granite 3.1, Granite Guardian 3.1 y Granite Embedding son de código abierto sujetos a la licencia Apache 2.0.
  • Estas últimas entradas en la serie Granite siguen al reciente lanzamiento por parte de IBM de Docling (un marco de código abierto para preparar documentos para RAG y otras aplicaciones de IA generativa) y Bee (un marco agnóstico de código abierto para IA generativa).
  • Granite TTM (TinyTimeMixers), la serie de modelos de series temporales compactos, pero de gran rendimiento de IBM, ya están disponibles en watsonx.ai a través de la versión beta de la API y el SDK de previsión de series temporales de watsonx.ai.
  • Los modelos de Granite 3.1 ya están disponibles en IBM watsonx.ai, así como a través de los asociados de la plataforma, incluyendo (por orden alfabético) Docker, Hugging Face, LM Studio, Ollama y Replicate.
  • Granite 3.1 también será aprovechado internamente por los asociados empresariales: Samsung está integrando modelos Granite seleccionados en su plataforma SDS; Lockheed Martin está integrando modelos Granite 3.1 en sus herramientas IA Factory, utilizadas por más de 10 000 desarrolladores e ingenieros.


Hoy se lanza IBM Granite 3.1, la última actualización de nuestra serie Granite de modelos de lenguaje abiertos, de alto rendimiento y optimizados para empresas. Este conjunto de mejoras, incorporaciones y nuevas capacidades se enfoca principalmente en aumentar el rendimiento, la precisión y la contabilidad en casos de uso empresariales esenciales como el uso de herramientas, la generación aumentada de recuperación (RAG) y los flujos de trabajo escalables de IA agéntica.

Granite 3.1 se basa en el impulso de la recopilación Granite 3.0 lanzada recientemente. IBM seguirá lanzando modelos y funcionalidades actualizados para la serie Granite 3 en los próximos meses, con nuevas capacidades multimodales para el primer trimestre de 2025.

Estos nuevos modelos Granite no son las únicas contribuciones recientes notables de IBM al ecosistema LLM de código abierto. El lanzamiento de hoy culmina con una reciente racha de innovadores lanzamientos de código abierto, desde un marco flexible para desarrollar agentes de IA hasta un conjunto de herramientas intuitivas para desbloquear información esencial oculta en PDF, presentaciones de diapositivas y otros formatos de archivo difíciles de digerir para los modelos. El uso de estas herramientas y marcos, junto con los modelos Granite 3.1, ofrece a los desarrolladores capacidades evolucionadas para RAG, agentes de IA y otros flujos de trabajo basados en LLM.

Como siempre, el compromiso histórico de IBM con el código abierto se refleja en la permisividad y la norma de las licencias de código abierto para cada una de las ofertas comentadas en este artículo.

Granite 3.1 8B Instruct: elevando el estándar para modelos empresariales ligeros

Los esfuerzos de IBM en la optimización continua de la serie Granite son más evidentes en el crecimiento de su modelo insignia 8B denso. IBM Granite 3.1 8B Instruct supera ahora a la mayoría de los modelos abiertos de su categoría de peso en puntuaciones promedio en las evaluaciones académicas de puntos de referencia, incluyendo Hugging Face OpenLLM Leaderboard.

La evolución de la serie de modelos Granite ha seguido priorizando la excelencia y la eficiencia en casos de uso empresarial, incluyendo la IA agéntica. Este progreso es más evidente en el rendimiento significativamente mejorado del modelo 8B más reciente en IFEval, un conjunto de datos que incluye tareas que prueban la capacidad de un modelo para seguir instrucciones detalladas, y en Multi-step Soft Reasoning (MuSR), cuyas tareas miden el razonamiento y la comprensión sobre y de textos largos.

Longitud de contexto ampliada

El refuerzo del rendimiento de Granite 3.0 a Granite 3.1 se ve reforzado por la ampliación de las ventanas de contexto de todos los modelos. La longitud de contexto de tokens 128K de Granite 3.1 está a la par con la de otras series de modelos abiertos líderes, incluyendo Llama 3.1-3.3 y Qwen2.5.

La ventana de contexto (o longitud de contexto) de un modelo de lenguaje extenso (LLM) es la cantidad de texto, en tokens, que un LLM puede considerar en un momento dado. Una ventana de contexto mayor permite a un modelo procesar entradas más grandes, realizar intercambios continuos más largos e incorporar más información a cada salida. La tokenización no implica una "tasa de cambio" fija de tokens a palabras, pero una estimación útil es 1.5 tokens por palabra. Un token de 128K equivale aproximadamente a un libro de 300 páginas.

Por encima de un umbral de tokens de 100K, surgen nuevas e impresionantes posibilidades, incluyendo la respuesta a preguntas sobre múltiples documentos, la comprensión de código a nivel de repositorio, la autorreflexión y los agentes autónomos impulsados por LLM.1 La longitud de contexto ampliada de Granite 3.1 se presta así a una gama mucho más amplia de casos de uso empresarial, desde el procesamiento de bases de código y largos documentos legales en su totalidad hasta la revisión simultánea de miles de transacciones financieras.

Granite Guardian 3.1: detección de alucinaciones en flujos de trabajo agénticos
.

Granite Guardian 3.1 8B y Granite Guardian 3.1 2B pueden detectar ahora las alucinaciones que puedan producirse en un flujo de trabajo de un agente, proporcionando la misma responsabilidad y confianza a la llamada de función que ya proporcionamos para RAG.

En el espacio entre la solicitud inicial enviada a un agente de IA y el resultado que el agente devuelve finalmente al usuario se producen muchos pasos y subprocesos. Para proporcionar supervisión en todo momento, los modelos Granite Guardian 3.1 monitorean cada llamada de función en busca de alucinaciones sintácticas y semánticas.

Por ejemplo, si un agente de IA supuestamente consulta una fuente de información externa, Granite Guardian 3.1 monitorea los flujos de información fabricados. Si un flujo de trabajo de un agente implica cálculos intermedios utilizando cifras recuperadas de un registro bancario, Granite Guardian 3.1 comprueba si el agente ha realizado la llamada a la función correcta junto con las cifras adecuadas.

El lanzamiento de hoy es un paso más hacia la responsabilidad y la confianza para cualquier componente de un flujo de trabajo empresarial basado en LLM. Los nuevos modelos Granite Guardian 3.1 están disponibles en Hugging Face. También estarán disponibles a través de Ollama a finales de este mes y en IBM watsonx.ai en enero de 2025.

Modelos de Granite Embedding

Las incrustaciones son una parte integral del ecosistema LLM. Un medio preciso y eficaz de representar palabras, consultas y documentos en forma numérica es fundamental para una serie de tareas empresariales que incluyen la búsqueda semántica, la búsqueda vectorial y la RAG, así como el mantenimiento de bases de datos vectoriales eficaces. Un modelo de incrustaciones eficaz puede mejorar significativamente la comprensión de la intención del usuario por parte de un sistema y aumentar la relevancia de la información y las fuentes en respuesta a una consulta.

Mientras que en los dos últimos años hemos asistido a la proliferación de LLM autorregresivos de código abierto cada vez más competitivos para tareas, como la generación y el resumen de textos, las versiones de modelos de incrustación de código abierto de los principales proveedores son relativamente escasas y distantes entre sí.

Los nuevos modelos de Granite Embedding son una evolución mejorada de la familia Slate de modelos de lenguaje basados solo en codificadores y en RoBERTA. Entrenados con el mismo cuidado y consideración para filtrar sesgo, odio, abuso y blasfemias ("HAP", por sus siglas en inglés) que el resto de la serie Granite, Granite Embedding se ofrece en cuatro tamaños de modelo, dos de los cuales admiten incrustaciones multilingües en 12 lenguajes naturales:

  • Granite-Embedding-30M-English
  • Granite-Embedding-125M-English
  • Granite-Embedding-107M-Multilingual
  • Granite-Embedding-278M-Multilingual

Mientras que la gran mayoría de los modelos de incrustación abiertos de la tabla de clasificación Hugging Face MTEB se basan en conjuntos de datos de entrenamiento cuya licencia solo tiene fines de investigación, como MS-MARCO, IBM verificó la elegibilidad comercial de todas las fuentes de datos utilizadas para entrenar Granite Embedding. Subrayando el cuidado puesto en dar soporte al uso empresarial, IBM da soporte a Granite Embedding con la misma indemnización ilimitada para reclamaciones de propiedad intelectual de terceros proporcionada para el uso de otros modelos desarrollados por IBM.

La diligencia de IBM a la hora de curar y filtrar los datos de entrenamiento no impidió que los modelos English Granite Embedding se mantuvieran a la altura de destacados modelos de incrustación de código abierto de tamaño similar en las evaluaciones internas de rendimiento realizadas utilizando el marco de evaluación BEIR.

Las pruebas de IBM también demostraron que dos de los nuevos modelos de incrustaciones, Granite-Embedding-30M-English y Granite-Embedding-107M-Mulilingual, superan significativamente a las ofertas rivales en cuanto a velocidad de inferencia.

Este lanzamiento inicia la ambiciosa hoja de ruta de IBM Research para seguir innovando con la familia de modelos Granite Embedding de código abierto. Las actualizaciones y mejoras previstas para 2025 incluyen la ampliación del contexto, la optimización para RAG y capacidades de recuperación multimodal.

Descifrado de documentos e IA agéntica

Junto a la continua evolución de la serie Granite, IBM mantiene su firme compromiso con la IA de código abierto a través del reciente desarrollo y publicación en código abierto de nuevas herramientas y marcos innovadores para crear con LLM. Optimizados para los modelos Granite, pero intrínsecamente abiertos y agnósticos con respecto a los modelos, estos recursos creados por IBM ayudan a los desarrolladores a aprovechar todo el potencial de los LLM, desde la facilitación de pipelines de ajuste hasta la regularización de fuentes RAG o el ensamblaje de agentes de IA autónomos.

Docling: preparación de documentos para RAG, entrenamiento previo y ajuste
.

Desde la escritura creativa hasta la RAG, la IA generativa es, en última instancia, un motor que ejecuta datos. El verdadero potencial de los grandes modelos de lenguaje no puede aprovecharse si algunos de esos datos están atrapados en formatos que los modelos no pueden reconocer. Los LLM son bastante nuevos, pero el problema no es, como proclamaba un titular del Washington Post de hace una década, "las soluciones a todos nuestros problemas pueden estar enterradas en PDF que nadie lee".

Por eso IBM Deep Search ha desarrollado Docling, una potente herramienta para analizar documentos en formatos populares, incluyendo PDF, DOCX, imágenes, PPTX, XLSX, HTML y AsciiDoc, y convertirlos en formatos aptos para modelos, como Markdown o JSON. Esto permite que modelos como Granite puedan acceder fácilmente a esos documentos, y a la información que contienen, a efectos de RAG y otros flujos de trabajo. Docling permite una fácil integración con marcos agénticos, como LlamaIndex, LangChain y Bee, lo que permite a los desarrolladores incorporar su ayuda al ecosistema de su elección.

Con código abierto bajo la permisiva licencia MIT, Docling es una solución sofisticada que va más allá del simple reconocimiento óptico de caracteres (OCR) y la extracción de texto. Como explica William Caban de Red Hat, Docling integra una serie de técnicas de preprocesamiento contextuales y basadas en elementos: si una tabla abarca varias páginas, Docling sabe que debe extraerla como una sola tabla; si una página determinada mezcla cuerpo de texto, imágenes y tablas, cada uno debe extraerse por separado de acuerdo con su contexto original.

El equipo detrás de Docling está trabajando activamente en características adicionales, incluyendo la extracción de ecuaciones y códigos y la extracción de metadatos. Para ver Docling en acción, consulte este tutorial para crear un sistema de respuesta a preguntas sobre documentos con Docling y Granite.

Bee: marco de IA agéntica para modelos abiertos

La infraestructura de Bee Agent es un marco de código abierto para crear potentes flujos de trabajo de IA agéntica con LLM de código abierto, optimizado para su uso con los modelos Granite y Llama (con otras optimizaciones específicas para cada modelo ya en desarrollo). Incluye una serie de módulos que permiten a los desarrolladores personalizar casi cualquier componente del agente de IA, desde la gestión de la memoria hasta el uso de herramientas o la gestión de errores, así como múltiples características de observabilidad que proporcionan los insights y la responsabilidad necesarias para el despliegue en producción.

El marco se integra sin problemas con múltiples modelos y un conjunto de sólidas herramientas listas para usar, como servicios meteorológicos y de búsqueda en Internet (o herramientas personalizadas creadas en Javascript o Python). La funcionalidad de uso flexible de herramientas de Bee permite crear flujos de trabajo adaptados a sus circunstancias específicas, como se demuestra en esta receta con Granite y Wikipedia, que aprovecha las herramientas integradas para utilizar de forma más eficaz una ventana de contexto limitada.

Los agentes de Granite Bee pueden ejecutarse localmente mediante Ollama o aprovechar la inferencia alojada con watsonx.ai.

Previsión de series temporales en IBM watsonx.ai

Lanzados a principios de este año, los modelos de series temporales TinyTimeMixer (TTM) de Granite son una familia de modelos ligeros y previamente entrenados y basados en una arquitectura novedosa. Al abordar el forecasting zero-shot and few-shot para cualquier cosa, desde los datos de los sensores de IoT hasta los precios del mercado de valores y las demandas de energía, Los modelos de series temporales Granite superan a muchos modelos que son hasta 10 veces más grandes, incluidos TimesFM, Moirai y Chronos.2 Desde el 30 de mayo, los modelos TTM de series temporales Granite se descargaron más de 3.25 millones de veces solo en Hugging Face.

En noviembre, IBM anunció el lanzamiento de la versión beta de la API y el SDK de previsión de series temporales de watsonx.ai, con lo que los modelos de series temporales Granite estarán disponibles en la plataforma de IA integrada de IBM para el desarrollo de aplicaciones de IA de extremo a extremo.

Para obtener más información sobre los primeros pasos con Granite-TTM, consulte las recetas del libro de recetas de IBM Granite Timeseries, como este cuaderno para utilizar el SDK de watsonx para realizar inferencias con forecasting.

Primeros pasos con Granite 3.1

Los modelos Granite 3.1 ya están disponibles en IBM watsonx.ai. También se puede acceder a ellos a través de los asociados de la plataforma, incluyendo a Docker (a través de su catálogo DockerHub GenAI), Hugging Face, LM Studio, Ollama y Replicate. Algunos modelos Granite 3.1 también estarán disponibles a través de NVIDIA (como NIM Microservices) en enero de 2025.

En Granite Snack Cookbook de GitHub hay disponibles varias guías y recetas para trabajar con los modelos de Granite, desde la orquestación de flujos de trabajo utilizando los modelos de lenguaje de Granite en Langchain hasta la implementación de los modelos Granite Guardian.

Los desarrolladores también pueden dar los primeros pasos con los modelos de Granite Playground o conociendo el conjunto de demostraciones y tutoriales útiles en IBM docs, como:


Explorar los modelos de Granite 3.1 →

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA 


Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo