Toda la información clave en un solo vistazo:
El lanzamiento de hoy representa otra expansión de la huella multimodal de IBM Granite. Encabezado por Granite Speech 8B, nuestro primer modelo oficial de conversión de voz a texto, Granite 3.3 marca el comienzo de nuestras exploraciones en capacidades de audio. Junto con la reciente incorporación de capacidades de visión y razonamiento, IBM sigue aumentando la versatilidad de la serie Granite en los casos de uso empresarial que más necesitan los clientes y la comunidad de código abierto.
Granite Speech 3.3 8B se une a Granite 3.3 8B Instruct, los modelos de lenguaje de gran tamaño (LLM) que sirve como base, y su contraparte más pequeña (2B). La mayor sofisticación del proceso de razonamiento de los modelos de texto con respecto a sus predecesores y la incorporación de capacidades de relleno en el medio (FIM) es que facilita una gama más amplia de casos de uso aplicables, sobre todo en el ámbito de la codificación.
También estamos lanzando una serie actualizada y ampliada de adaptadores LoRA de mejora del rendimiento (y centrados principalmente en RAG) para el modelo Granite 3.2 8B Instruct lanzado anteriormente a través de Granite Experiments, un área de investigación de IBM Research para probar ideas de código abierto. En las próximas semanas se lanzarán más innovaciones de LoRA, incluido un conjunto de adaptadores para Granite 3.3 Instruct.
Granite Speech 3.3 8B es un modelo STT compacto y rentable de entrada de audio (y entrada de texto), salida de texto, diseñado para su uso en aplicaciones empresariales que procesan entradas de voz y optimizado para el reconocimiento automático de voz (ASR) y la traducción automática de voz (AST).
En las tareas de transcripción, Granite Speech 3.3 ofrece constantemente una mayor precisión que los principales competidores de modelos abiertos y cerrados en las pruebas en varios conjuntos de datos públicos destacados.
El modelo también ofrece traducción automática del inglés a diversos idiomas, como francés, español, italiano, alemán, portugués, japonés y mandarín. En las pruebas de rendimiento de AST de IBM, Granite Speech 3.3 8B siguió el ritmo de los principales modelos propietarios, como GPT-4o de OpenAI y Gemini 2.0 Flash de Google en lenguajes compatibles con Granite en el conjunto de datos de CoVost. Más información sobre el rendimiento de la traducción está disponible en la tarjeta del modelo Hugging Face.
Desde el punto de vista arquitectónico, Granite Speech 3.3 consta de:
A diferencia de los modelos directamente integrados que combinan voz y texto en una sola pasada, Granite Speech 3.3 utiliza un diseño de dos pasadas. Por ejemplo, para hacer preguntas al modelo sobre un archivo de audio se requiere una llamada inicial para transcribir el audio y una segunda instrucción para consultar al modelo sobre ese texto transcrito. Si una instrucción contiene el token "
Este enfoque de dos pasos garantiza que el rendimiento de Granite Speech 3.3 8B en consultas de texto refleje el de su LLM subyacente (Granite 3.3 8B Instruct), evitando la degradación del rendimiento basado en texto típica de muchos modelos multimodales. Con acceso a una plataforma de inferencia configurada para servir correctamente modelos de texto y voz, los desarrolladores pueden entender Granite Speech 3.3 8B esencialmente como una versión de Granite 3.3 8B Instruct con capacidades añadidas de entrada de audio.
A diferencia de los modelos ASR convencionales basados en Whisper, Granite Speech 3.3 puede aceptar entradas de longitud arbitraria (en las pruebas, el modelo pudo procesar cómodamente un archivo de audio de 20 minutos en una GPU H100 de 80 GB), en lugar de fijarse en una ventana de 30 segundos. En los modelos basados en Whisper, los archivos de audio que superan ese máximo deben cortarse en fragmentos de 30 segundos, lo que a menudo introduce imprecisiones cerca de los momentos en los que se imponen estos cortes de 30 segundos. Por regla general, cuantos menos cortes artificiales haya que hacer, menos imprecisiones se introducen.
Aunque Granite Speech 3.3 puede ingerir aparentemente entradas de audio bastante largas, cabe señalar que el modelo aún no se ha afinado con datos de audio largos. Para mantener una precisión constante, sugerimos un límite de un minuto para cada unidad discreta de entrada de audio.
Granite Speech 3.3 representa solo la salva inicial de la exploración de IBM en las capacidades de audio para la serie Granite. Las investigaciones en curso para mejorar Granite Speech para futuras versiones, especialmente en Granite 4, incluyen:
Las últimas versiones de nuestros modelos ajustados de instrucciones de solo texto, Granite 3.3 8B Instruct y Granite 3.3 2B Instruct, añaden capacidades de relleno en el medio (FIM) y continúan refinando las capacidades de pensamiento introducidas en Granite 3.2.
También estamos lanzando sus homólogos del modelo base,Granite 3.3 8B Base y Granite 3.3 2B Base, que ahora reemplazan a sus predecesores de Granite 3.1, para proporcionar a los desarrolladores acceso a nuestros modelos compatibles con FIM para sus propios esfuerzos de fine-tuning.
Los LLM autorregresivos (los LLM que se utilizan normalmente para la generación de texto) están diseñados fundamentalmente para mover, de izquierda a derecha. Se entrenan mediante aprendizaje autosupervisado para predecir iterativamente el siguiente token en una secuencia, basándose en la información de los tokens anteriores, hasta que la secuencia se considera completa. Aunque ese diseño se presta a una impresionante variedad de tareas generativas, se queda corto en un tipo diferente de tarea: predecir los tokens correctos en función de los tokens que vienen antes y después. En otras palabras, los LLM autorregresivos convencionales no pueden "llenar el medio".
Adaptar los modelos autorregresivos para el relleno requiere un rediseño de las tareas de entrenamiento para "engañar" al LLM para que prediga tokens en el medio utilizando su capacidad intrínseca de predicción de izquierda a derecha. Esto generalmente requiere dividir un pasaje de muestra en prefijo (los tokens anteriores), sufijo (los tokens que vienen después) y medio (los tokens que se predecirán mediante el relleno), y luego reorganizar el pasaje de modo que el modelo tenga tanto el prefijo como el sufijo antes de que se le pida que prediga los tokens intermedios. Granite 3.3 utiliza tokens especializados para permitir que el modelo genere contenido condicionado tanto por el prefijo como por el sufijo.
FIM tiene una amplia gama de casos de uso, pero es especialmente aplicable a tareas de codificación, desde la reparación de código y la conexión de errores hasta la refactorización, la generación rápida de código repetitivo y la inserción de argumentos de función o cadenas de documentación.
Nuestro objetivo para Granite 3.2 era enriquecer las capacidades de razonamiento de los modelos Instruct mediante la optimización de preferencias de pensamiento (TPO) con el fin de mejorar su capacidad de seguir instrucciones complejas sin sacrificar el rendimiento general. Nuestro objetivo para Granite 3.3 Instruct era preservar esas ganancias y, al mismo tiempo, enriquecer el rendimiento de los modelos en el razonamiento matemático complejo.
Construidos sobre un modelo base Granite 3.3 actualizado y afinados mediante aprendizaje de refuerzo en varias etapas utilizando TPO y Group Relative Policy Optimization (GRPO), ambos modelos Granite 3.3 Instruct demostraron una mejora significativa en las pruebas de referencia altamente técnicas convencionalmente asociadas a las capacidades de "razonamiento".
El rendimiento de Granite 3.3 8B en la referencia MATH500 lo sitúa cómodamente por delante de Claude 3.5 Haiku de Anthropic (64,2 %) y Llama 3.1 8B Instruct de Meta (44,4 %), aproximadamente en línea con el Mistral Small 3 de 24B de parámetro (70,6 %), y justo por detrás de Claude 3.5 Sonnet (72,4 %) y GPT-4o Mini de OpenAI (72,6 %)1.
Al igual que con los modelos Granite 3.2 Instruct, el "pensamiento" se puede activar y desactivar fácilmente, lo que permite a los desarrolladores priorizar el razonamiento mejorado de la cadena de pensamiento (CoT) cuando lo necesiten y priorizar la rentabilidad y la baja latencia cuando no lo hacen.
Para mejorar las aplicaciones existentes basadas en Granite e informar el desarrollo de la próxima generación de adaptadores LoRA que mejoran el rendimiento, IBM también lanza una colección de cinco adaptadores LoRA (en su mayoría) específicos de RAG para Granite 3.2 8B Instruct a través de Granite Experiments, un área de investigación de IBM Research para probar ideas de código abierto. Cada uno de estos adaptadores LoRA aprovecha el conocimiento intrínseco del modelo para permitir una tarea específica, como reescribir consultas de recuperación o detectar alucinaciones.
IBM Research desarrolló estos adaptadores LoRA "convencionales" junto con sus homólogos que utilizan un nuevo tipo de adaptación de bajo rango que llamamos LoRA activado (aLoRA). El cambio entre adaptadores LoRA estándar a menudo ralentiza el rendimiento porque el modelo debe recalcular el contexto de la conversación en curso utilizando el nuevo. Pero a diferencia de los LoRA estándar, los aLoRA de IBM simplemente reutilizan la caché de clave-valor (KV) existente, evitando la necesidad de volver a calcular el contexto (o "rellenar previamente"). Los LoRA activados coinciden con la calidad de generación de los LoRA estándar, al tiempo que proporcionan importantes ventajas de tiempo de ejecución y computación. El código fuente para ejecutar los aLoRA está disponible aquí.
RAG Hallucination Detection
Incluso con RAG, un LLM a veces puede alucinar. Cuando está equipado con el RAG detección de alucinación LoRA, el modelo proporcionará una "puntuación de fidelidad" entre 0 y 1 (en incrementos de 0,1), lo que refleja en qué medida su resultado refleja la información contenida en los documentos recuperados. Una puntuación de fidelidad más baja indica un mayor riesgo de alucinaciones. El modelo dará como resultado "sin respuesta" cuando la pregunta no pueda responderse con la información de las fuentes disponibles.
RAG Query Rewrite
Los motores de recuperación devuelven resultados significativamente mejores en respuesta a consultas independientes que contienen toda la información relevante que en respuesta a consultas que requieren contexto anterior en la conversación para ser que se puede ejecutar. Con Query Rewrite LoRA equipado, el modelo reescribirá automáticamente cualquier consulta de usuario no independiente en una consulta totalmente autónoma. Por ejemplo, considere este intercambio:
Usuario: "¿Quién es el CEO de Apple?" Modelo: "Tim Cook es el director ejecutivo de Apple Inc." Usuario: "¿Y de Microsoft?"
El modelo pasará la primera consulta del usuario tal cual, pero reescribirá la segunda consulta como "¿Quién es el CEO de Microsoft?" En las pruebas, esta reescritura aumentó la relevancia de las respuestas del modelo hasta en 21 puntos porcentuales.
Aunque se diseñó pensando en RAG, Query Rewrite no requiere la presencia de documentos RAG: también se puede utilizar para reescribir consultas de usuario para otros casos de uso, como llamadas a herramientas.
RAG Citation Generation
Cuando está equipado con RAG Citation Generaton LoRA, el modelo generará una cita para cada oración de su resultado (si esa oración fue informada por alguna fuente externa). Cada cita a nivel de oración no solo señala las fuentes a las que se hace referencia, sino que también contiene un conjunto de oraciones de las fuentes citadas que respaldan la oración de resultado correspondiente del modelo.
RAG Answerability Prediction
Cuando está equipado con RAG Answerability Prediction LoRA, el modelo determinará si la consulta del usuario puede responderse o no utilizando la información disponible en los documentos conectados. Esta clasificación binaria, "con respuesta" o "sin respuesta", se puede utilizar, entre otras cosas, para filtrar preguntas sin respuesta (reduciendo las alucinaciones) o instar al modelo a volver a consultar al recuperador de una manera diferente.
ncertainty Prediction
Para cada resultado del modelo, el Uncertainty LoRA, nacido de la investigación de calibración de modelos de IA del MIT-IBM Watson AI Lab, permite al modelo generar una "puntuación de certeza" cuantificada que oscila entre 0 y 9 (que representa entre el 5 % y el 95 % de certeza, respectivamente). La puntuación refleja esencialmente el grado en que la respuesta del modelo está apoyada por la información contenida en sus datos de entrenamiento.
Mientras que el RAG tradicional implica una única inferencia, una instrucción directa basada en un contexto específico, que da como resultado un único modelo, nosotros proponemos el uso de estos LoRA en flujos de trabajo que aprovechan múltiples adaptadores LoRA a través de múltiples inferencias en ruta hacia una respuesta final del modelo.
Por ejemplo, puede implementar primero Query Rewrite para (cuando sea necesario) reescribir rápidamente las instrucciones iniciales para una precisión óptima del recuperador. Una vez que se ha generado la respuesta aumentada de recuperación del modelo utilizando la instrucción reescrita, puede implementar la detección de alucinación para verificar un nivel adecuado de fidelidad a la información de los documentos recuperados. Si la puntuación de fidelidad cae por debajo de un umbral aceptable, su flujo de trabajo podría indicar al modelo que vuelva a muestrear la respuesta hasta que la puntuación de fidelidad supere ese umbral. Una vez que ya no se detecten alucinaciones, podría utilizar RAG Citations para obtener la respuesta final proporcionada al usuario.
En esencia, se trataría del equivalente en el RAG del cálculo del tiempo de prueba a escala, un andamiaje de múltiples inferencias para mejorar y enriquecer el resultado final del modelo. Estamos deseando ver cómo la comunidad de código abierto implementará y experimentará con estos nuevos adaptadores LoRA. Encontrará más información sobre los RAG LoRA y su impacto en el rendimiento del modelo en el documento técnico adjunto.
IBM Research está entrenando activamente Granite 4.0, una nueva generación de modelos que representan una importante evolución de la arquitectura Granite y demuestran ganancias prometedoras en velocidad, longitud de contexto y capacidad. Aunque los detalles específicos no se anunciarán hasta más adelante en el segundo trimestre, los clientes, socios y desarrolladores pueden contar con que IBM mantenga su compromiso con modelos pequeños y prácticos que puedan ejecutarse a bajo coste y latencia.
Los nuevos modelos Granite 3.3 Instruct están disponibles en IBM watsonx.ai, nuestro estudio integrado e integral para el desarrollo de IA empresarial. Puede probar Granite 3.3 Instruct 8B y experimentar fácilmente con la activación y desactivación de "pensamiento" en Granite Playground.
Granite Speech 3.3 8B, junto con todos los nuevos modelos Granite y adaptadores LoRA, está disponible en Hugging Face. Los modelos Select Instruct también están disponibles a través plataformas asociadas como, incluidos (en orden alfabético) LMStudio, Ollama y Replicate, y habrá más en un futuro próximo.
Hay varias guías y recetas para trabajar con modelos de Granite disponibles en Granite docs y Granite Snack Cookbook en GitHub. Los desarrolladores pueden iniciarse en los modelos Granite explorando nuestra serie de demos, recetas y tutoriales útiles, como:
1"MATH 500 Benchmark". Vals AI. Actualizado por última vez el 24 de marzo de 2025.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.