IBM Granite 3.3: reconocimiento de voz, razonamiento refinado y RAG LoRA

Ilustración isométrica de cubos en tonos verdes

Autor

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Toda la información clave en un solo vistazo:

  • Estamos lanzando Granite Speech 3.3 8B, un nuevo modelo de voz a texto (STT) que sobresale en el reconocimiento automático de voz (ASR) y la traducción automática de voz (AST).
  • El nuevo modelo de audio se basa en Granite 3.3 8B Instruct, la última actualización de nuestro modelo de lenguaje de gran tamaño (LLM) para empresas. Además de las capacidades de razonamiento mejoradas, los modelos Granite 3.3 Instruct ahora ofrecen capacidades de relleno en el medio (FIM) además de la predicción estándar del siguiente token.
  • Para mejorar las aplicaciones existentes impulsadas por Granite, también estamos lanzando un conjunto de adaptadores LoRA centrados en generación aumentada por recuperación (RAG) para Granite 3.2. El feedback servirá de base para el desarrollo de adaptadores LoRA para Granite 3.3 Instruct, que se publicará en breve, así como para futuras generaciones de LLM de Granite.
  • Junto con estos adaptadores convencionales, IBM Research también ha desarrollado una serie de LoRA activados (aLoRA), un nuevo tipo experimental de adaptación de bajo rango (LoRA) que reduce los costes de inferencia y los requisitos de memoria al tiempo que permite cambiar sin problemas entre adaptadores.
  • Como siempre, todos los modelos y herramientas de Granite se publican de código abierto bajo una licencia Apache 2.0 estándar.
  • Todos los modelos de Granite 3.3 y las herramientas asociadas están disponibles en Hugging Face. Granite 3.3 Instruct también está disponible en IBM watsonx.ai, así como a través de socios de plataforma como LMStudio, Ollama y Replicate.


El lanzamiento de hoy representa otra expansión de la huella multimodal de IBM Granite. Encabezado por Granite Speech 8B, nuestro primer modelo oficial de conversión de voz a texto, Granite 3.3 marca el comienzo de nuestras exploraciones en capacidades de audio. Junto con la reciente incorporación de capacidades de visión y razonamiento, IBM sigue aumentando la versatilidad de la serie Granite en los casos de uso empresarial que más necesitan los clientes y la comunidad de código abierto.

Granite Speech 3.3 8B se une a Granite 3.3 8B Instruct, los modelos de lenguaje de gran tamaño (LLM) que sirve como base, y su contraparte más pequeña (2B). La mayor sofisticación del proceso de razonamiento de los modelos de texto con respecto a sus predecesores y la incorporación de capacidades de relleno en el medio (FIM) es que facilita una gama más amplia de casos de uso aplicables, sobre todo en el ámbito de la codificación.

También estamos lanzando una serie actualizada y ampliada de adaptadores LoRA de mejora del rendimiento (y centrados principalmente en RAG) para el modelo Granite 3.2 8B Instruct lanzado anteriormente a través de Granite Experiments, un área de investigación de IBM Research para probar ideas de código abierto. En las próximas semanas se lanzarán más innovaciones de LoRA, incluido un conjunto de adaptadores para Granite 3.3 Instruct. ­­­

Granite Speech 3.3 8B: Transcripción y traducción precisas y eficientes

Granite Speech 3.3 8B es un modelo STT compacto y rentable de entrada de audio (y entrada de texto), salida de texto, diseñado para su uso en aplicaciones empresariales que procesan entradas de voz y optimizado para el reconocimiento automático de voz (ASR) y la traducción automática de voz (AST).

En las tareas de transcripción, Granite Speech 3.3 ofrece constantemente una mayor precisión que los principales competidores de modelos abiertos y cerrados en las pruebas en varios conjuntos de datos públicos destacados.

Gráfico que muestra el rendimiento de LLM en las referencias de reconocimiento de voz En varios conjuntos de datos de prueba, Granite Speech 3.3 8B tuvo constantemente la tasa de error más baja para las tareas de transcripción.

El modelo también ofrece traducción automática del inglés a diversos idiomas, como francés, español, italiano, alemán, portugués, japonés y mandarín. En las pruebas de rendimiento de AST de IBM, Granite Speech 3.3 8B siguió el ritmo de los principales modelos propietarios, como GPT-4o de OpenAI y Gemini 2.0 Flash de Google en lenguajes compatibles con Granite en el conjunto de datos de CoVost. Más información sobre el rendimiento de la traducción está disponible en la tarjeta del modelo Hugging Face.

Arquitectura y diseño

Desde el punto de vista arquitectónico, Granite Speech 3.3 consta de:

  • Un codificador de voz, que comprende diez bloques de conformadores entrenados con la clasificación temporal conexionista (CTC) en conjuntos de datos centrados en ASR.
  • Un proyector de voz, en este caso, un transformador de consulta de dos capas (Q-former),que proyecta incrustaciones de audio en un espacio donde un LLM puede interpretarlas.
  • Un LLM, es decir, Granite 3.3 8B Instruct con una longitud de contexto de 128K.
  • Adaptadores LoRA, aplicados a las matrices de proyección de consulta y valor del LLM cuando hay datos de audio presentes.

A diferencia de los modelos directamente integrados que combinan voz y texto en una sola pasada, Granite Speech 3.3 utiliza un diseño de dos pasadas. Por ejemplo, para hacer preguntas al modelo sobre un archivo de audio se requiere una llamada inicial para transcribir el audio y una segunda instrucción para consultar al modelo sobre ese texto transcrito. Si una instrucción contiene el token "<audio> ” y un .wav correspondiente, Granite Speech activará el codificador de audio, el proyector y el adaptador LoRA. De lo contrario, el modelo simplemente se ejecutará en modo texto utilizando Granite 3.3 Instruct 8B.

Este enfoque de dos pasos garantiza que el rendimiento de Granite Speech 3.3 8B en consultas de texto refleje el de su LLM subyacente (Granite 3.3 8B Instruct), evitando la degradación del rendimiento basado en texto típica de muchos modelos multimodales. Con acceso a una plataforma de inferencia configurada para servir correctamente modelos de texto y voz, los desarrolladores pueden entender Granite Speech 3.3 8B esencialmente como una versión de Granite 3.3 8B Instruct con capacidades añadidas de entrada de audio.

A diferencia de los modelos ASR convencionales basados en Whisper, Granite Speech 3.3 puede aceptar entradas de longitud arbitraria (en las pruebas, el modelo pudo procesar cómodamente un archivo de audio de 20 minutos en una GPU H100 de 80 GB), en lugar de fijarse en una ventana de 30 segundos. En los modelos basados en Whisper, los archivos de audio que superan ese máximo deben cortarse en fragmentos de 30 segundos, lo que a menudo introduce imprecisiones cerca de los momentos en los que se imponen estos cortes de 30 segundos. Por regla general, cuantos menos cortes artificiales haya que hacer, menos imprecisiones se introducen.

Aunque Granite Speech 3.3 puede ingerir aparentemente entradas de audio bastante largas, cabe señalar que el modelo aún no se ha afinado con datos de audio largos. Para mantener una precisión constante, sugerimos un límite de un minuto para cada unidad discreta de entrada de audio.

Vías de mejora

Granite Speech 3.3 representa solo la salva inicial de la exploración de IBM en las capacidades de audio para la serie Granite. Las investigaciones en curso para mejorar Granite Speech para futuras versiones, especialmente en Granite 4, incluyen:

  • Codificación multilingüe: actualmente, el codificador de audio de Granite Speech 3.3 solo está disponible en inglés. El siguiente paso importante de Granite Speech consiste en utilizar codificadores de audio multilingües y sensibles a los fenómenos paralingüísticos, lo que nos permitirá introducir datos realmente multilingües.
  • Recetas de datos refinadas: los futuros regímenes de entrenamiento incorporarán más datos de entrenamiento y de mayor calidad, y la generación de datos sintéticos para casos de uso específicos desempeñará un papel importante. También estamos experimentando con pasos adicionales de ajuste y equilibrio de datos.
  • Fusión de modalidades anteriores: estamos explorando la implementación de una estructura más unificada que incorpore características de audio en todas las etapas de entrenamiento de los futuros modelos Granite.
  • Detección de emociones: los futuros modelos Granite Speech admitirán capacidades de reconocimiento de emociones del habla (SER) mediante el entrenamiento de nuestro codificador acústico para que sea más sensible a los eventos de audio no léxicos.

Granite 3.3 Instruct: FIM y razonamiento mejorado

Las últimas versiones de nuestros modelos ajustados de instrucciones de solo texto, Granite 3.3 8B Instruct y Granite 3.3 2B Instruct, añaden capacidades de relleno en el medio (FIM) y continúan refinando las capacidades de pensamiento introducidas en Granite 3.2.

También estamos lanzando sus homólogos del modelo base,Granite 3.3 8B Base y Granite 3.3 2B Base, que ahora reemplazan a sus predecesores de Granite 3.1, para proporcionar a los desarrolladores acceso a nuestros modelos compatibles con FIM para sus propios esfuerzos de fine-tuning.

Relleno en el medio

Los LLM autorregresivos (los LLM que se utilizan normalmente para la generación de texto) están diseñados fundamentalmente para mover, de izquierda a derecha. Se entrenan mediante aprendizaje autosupervisado para predecir iterativamente el siguiente token en una secuencia, basándose en la información de los tokens anteriores, hasta que la secuencia se considera completa. Aunque ese diseño se presta a una impresionante variedad de tareas generativas, se queda corto en un tipo diferente de tarea: predecir los tokens correctos en función de los tokens que vienen antes y después. En otras palabras, los LLM autorregresivos convencionales no pueden "llenar el medio".

Adaptar los modelos autorregresivos para el relleno requiere un rediseño de las tareas de entrenamiento para "engañar" al LLM para que prediga tokens en el medio utilizando su capacidad intrínseca de predicción de izquierda a derecha. Esto generalmente requiere dividir un pasaje de muestra en prefijo (los tokens anteriores), sufijo (los tokens que vienen después) y medio (los tokens que se predecirán mediante el relleno), y luego reorganizar el pasaje de modo que el modelo tenga tanto el prefijo como el sufijo antes de que se le pida que prediga los tokens intermedios. Granite 3.3 utiliza tokens especializados para permitir que el modelo genere contenido condicionado tanto por el prefijo como por el sufijo.

FIM tiene una amplia gama de casos de uso, pero es especialmente aplicable a tareas de codificación, desde la reparación de código y la conexión de errores hasta la refactorización, la generación rápida de código repetitivo y la inserción de argumentos de función o cadenas de documentación.

Razonamiento mejorado

Nuestro objetivo para Granite 3.2 era enriquecer las capacidades de razonamiento de los modelos Instruct mediante la optimización de preferencias de pensamiento (TPO) con el fin de mejorar su capacidad de seguir instrucciones complejas sin sacrificar el rendimiento general. Nuestro objetivo para Granite 3.3 Instruct era preservar esas ganancias y, al mismo tiempo, enriquecer el rendimiento de los modelos en el razonamiento matemático complejo.

Construidos sobre un modelo base Granite 3.3 actualizado y afinados mediante aprendizaje de refuerzo en varias etapas utilizando TPO y Group Relative Policy Optimization (GRPO), ambos modelos Granite 3.3 Instruct demostraron una mejora significativa en las pruebas de referencia altamente técnicas convencionalmente asociadas a las capacidades de "razonamiento".

El rendimiento de Granite 3.3 8B en la referencia MATH500 lo sitúa cómodamente por delante de Claude 3.5 Haiku de Anthropic (64,2 %) y Llama 3.1 8B Instruct de Meta (44,4 %), aproximadamente en línea con el Mistral Small 3 de 24B de parámetro (70,6 %), y justo por detrás de Claude 3.5 Sonnet (72,4 %) y GPT-4o Mini de OpenAI (72,6 %)1.

Tabla que muestra el rendimiento de Granite LLM en matemáticas complejas Mejora de Granite 3.3 en puntos de referencia de razonamiento matemático complejo

Al igual que con los modelos Granite 3.2 Instruct, el "pensamiento" se puede activar y desactivar fácilmente, lo que permite a los desarrolladores priorizar el razonamiento mejorado de la cadena de pensamiento (CoT) cuando lo necesiten y priorizar la rentabilidad y la baja latencia cuando no lo hacen.

Refinación de RAG a través de adaptadores LoRA

Para mejorar las aplicaciones existentes basadas en Granite e informar el desarrollo de la próxima generación de adaptadores LoRA que mejoran el rendimiento, IBM también lanza una colección de cinco adaptadores LoRA (en su mayoría) específicos de RAG para Granite 3.2 8B Instruct a través de Granite Experiments, un área de investigación de IBM Research para probar ideas de código abierto. Cada uno de estos adaptadores LoRA aprovecha el conocimiento intrínseco del modelo para permitir una tarea específica, como reescribir consultas de recuperación o detectar alucinaciones.

IBM Research desarrolló estos adaptadores LoRA "convencionales" junto con sus homólogos que utilizan un nuevo tipo de adaptación de bajo rango que llamamos LoRA activado (aLoRA). El cambio entre adaptadores LoRA estándar a menudo ralentiza el rendimiento porque el modelo debe recalcular el contexto de la conversación en curso utilizando el nuevo. Pero a diferencia de los LoRA estándar, los aLoRA de IBM simplemente reutilizan la caché de clave-valor (KV) existente, evitando la necesidad de volver a calcular el contexto (o "rellenar previamente"). Los LoRA activados coinciden con la calidad de generación de los LoRA estándar, al tiempo que proporcionan importantes ventajas de tiempo de ejecución y computación. El código fuente para ejecutar los aLoRA está disponible aquí.

RAG Hallucination Detection
Incluso con RAG, un LLM a veces puede alucinar. Cuando está equipado con el RAG detección de alucinación LoRA, el modelo proporcionará una "puntuación de fidelidad" entre 0 y 1 (en incrementos de 0,1), lo que refleja en qué medida su resultado refleja la información contenida en los documentos recuperados. Una puntuación de fidelidad más baja indica un mayor riesgo de alucinaciones. El modelo dará como resultado "sin respuesta" cuando la pregunta no pueda responderse con la información de las fuentes disponibles.

RAG Query Rewrite
Los motores de recuperación devuelven resultados significativamente mejores en respuesta a consultas independientes que contienen toda la información relevante que en respuesta a consultas que requieren contexto anterior en la conversación para ser que se puede ejecutar. Con Query Rewrite LoRA equipado, el modelo reescribirá automáticamente cualquier consulta de usuario no independiente en una consulta totalmente autónoma. Por ejemplo, considere este intercambio:

Usuario: "¿Quién es el CEO de Apple?"
 Modelo: "Tim Cook es el director ejecutivo de Apple Inc."
Usuario: "¿Y de Microsoft?"

El modelo pasará la primera consulta del usuario tal cual, pero reescribirá la segunda consulta como "¿Quién es el CEO de Microsoft?" En las pruebas, esta reescritura aumentó la relevancia de las respuestas del modelo hasta en 21 puntos porcentuales.

Aunque se diseñó pensando en RAG, Query Rewrite no requiere la presencia de documentos RAG: también se puede utilizar para reescribir consultas de usuario para otros casos de uso, como llamadas a herramientas.

RAG Citation Generation
Cuando está equipado con RAG Citation Generaton LoRA, el modelo generará una cita para cada oración de su resultado (si esa oración fue informada por alguna fuente externa). Cada cita a nivel de oración no solo señala las fuentes a las que se hace referencia, sino que también contiene un conjunto de oraciones de las fuentes citadas que respaldan la oración de resultado correspondiente del modelo.

RAG Answerability Prediction
Cuando está equipado con RAG Answerability Prediction LoRA, el modelo determinará si la consulta del usuario puede responderse o no utilizando la información disponible en los documentos conectados. Esta clasificación binaria, "con respuesta" o "sin respuesta", se puede utilizar, entre otras cosas, para filtrar preguntas sin respuesta (reduciendo las alucinaciones) o instar al modelo a volver a consultar al recuperador de una manera diferente.

ncertainty Prediction
Para cada resultado del modelo, el Uncertainty LoRA, nacido de la investigación de calibración de modelos de IA del MIT-IBM Watson AI Lab, permite al modelo generar una "puntuación de certeza" cuantificada que oscila entre 0 y 9 (que representa entre el 5 % y el 95 % de certeza, respectivamente). La puntuación refleja esencialmente el grado en que la respuesta del modelo está apoyada por la información contenida en sus datos de entrenamiento.

Combinación de RAG LoRA

Mientras que el RAG tradicional implica una única inferencia, una instrucción directa basada en un contexto específico, que da como resultado un único modelo, nosotros proponemos el uso de estos LoRA en flujos de trabajo que aprovechan múltiples adaptadores LoRA a través de múltiples inferencias en ruta hacia una respuesta final del modelo.

Por ejemplo, puede implementar primero Query Rewrite para (cuando sea necesario) reescribir rápidamente las instrucciones iniciales para una precisión óptima del recuperador. Una vez que se ha generado la respuesta aumentada de recuperación del modelo utilizando la instrucción reescrita, puede implementar la detección de alucinación para verificar un nivel adecuado de fidelidad a la información de los documentos recuperados. Si la puntuación de fidelidad cae por debajo de un umbral aceptable, su flujo de trabajo podría indicar al modelo que vuelva a muestrear la respuesta hasta que la puntuación de fidelidad supere ese umbral. Una vez que ya no se detecten alucinaciones, podría utilizar RAG Citations para obtener la respuesta final proporcionada al usuario.

En esencia, se trataría del equivalente en el RAG del cálculo del tiempo de prueba a escala, un andamiaje de múltiples inferencias para mejorar y enriquecer el resultado final del modelo. Estamos deseando ver cómo la comunidad de código abierto implementará y experimentará con estos nuevos adaptadores LoRA. Encontrará más información sobre los RAG LoRA y su impacto en el rendimiento del modelo en el documento técnico adjunto.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿Qué le depara el futuro a IBM Granite?

IBM Research está entrenando activamente Granite 4.0, una nueva generación de modelos que representan una importante evolución de la arquitectura Granite y demuestran ganancias prometedoras en velocidad, longitud de contexto y capacidad. Aunque los detalles específicos no se anunciarán hasta más adelante en el segundo trimestre, los clientes, socios y desarrolladores pueden contar con que IBM mantenga su compromiso con modelos pequeños y prácticos que puedan ejecutarse a bajo coste y latencia.

Primeros pasos con Granite 3.3

Los nuevos modelos Granite 3.3 Instruct están disponibles en IBM watsonx.ai, nuestro estudio integrado e integral para el desarrollo de IA empresarial. Puede probar Granite 3.3 Instruct 8B y experimentar fácilmente con la activación y desactivación de "pensamiento" en Granite Playground.

Granite Speech 3.3 8B, junto con todos los nuevos modelos Granite y adaptadores LoRA, está disponible en Hugging Face. Los modelos Select Instruct también están disponibles a través plataformas asociadas como, incluidos (en orden alfabético) LMStudio, Ollama y Replicate, y habrá más en un futuro próximo.

Hay varias guías y recetas para trabajar con modelos de Granite disponibles en Granite docs y Granite Snack Cookbook en GitHub. Los desarrolladores pueden iniciarse en los modelos Granite explorando nuestra serie de demos, recetas y tutoriales útiles, como:

Explore los nuevos modelos IBM Granite 3.3→
 

Notas a pie de página

1"MATH 500 Benchmark". Vals AI. Actualizado por última vez el 24 de marzo de 2025.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

  1. Explore watsonx.ai
  2. Solicite una demostración en directo