Aquí está la información clave, de un vistazo:
El lanzamiento de hoy representa otra expansión de la huella multimodal de IBM Granite. Encabezado por Granite Speech 8B, nuestro primer modelo oficial de Speech to Text, Granite 3.3 marca el comienzo de nuestras exploraciones en capacidades de audio. Junto con la reciente incorporación de capacidades de visión y razonamiento, IBM continúa aumentando la versatilidad de la serie Granite en los casos de uso empresarial que más necesitan los clientes y la comunidad de código abierto.
Granite Speech 3.3 8B se une a Granite 3.3 8B Instruct, el modelo de lenguaje extenso que sirve como base, y su contraparte más pequeña (2B). La sofisticación mejorada del proceso de razonamiento de los modelos de texto sobre sus predecesores y la adición de capacidades de relleno en el medio (FIM) facilitan una gama más amplia de casos de uso aplicables, particularmente en el dominio de la programación.
También estamos lanzando una serie actualizada y ampliada de adaptadores LoRA que mejoran el rendimiento (y centrados principalmente en RAG) para el modelo Granite 3.2 8B Instruct lanzado anteriormente a través de Granite Experiments, un campo de juego de IBM Research para probar ideas de código abierto. En las próximas semanas se lanzarán más innovaciones de LoRA, incluida una suite de adaptadores para Granite 3.3 Instruct.
Granite Speech 3.3 8B es un modelo STT compacto y rentable de entrada de audio (y texto) y salida de texto, diseñado para su uso en aplicaciones empresariales que procesan entradas de voz y optimizado para el reconocimiento automático de voz (ASR) y la traducción automática de voz (AST).
En las tareas de transcripción, Granite Speech 3.3 ofrece de manera sistemática una mayor precisión que los principales competidores de modelos abiertos y cerrados en las pruebas en varios conjuntos de datos públicos destacados.
El modelo también proporciona traducción automatizada del inglés a una amplia gama de idiomas, incluidos francés, español, italiano, alemán, portugués, japonés y mandarín. En las pruebas de rendimiento de AST de IBM, Granite Speech 3.3 8B siguió el ritmo de los principales modelos patentados, como GPT-4o de OpenAI y Gemini 2.0 Flash de Google en lenguajes compatibles con Granite en el conjunto de datos de CoVost. Puede encontrar más información sobre el rendimiento de la traducción en la tarjeta del modelo Hugging Face .
Desde el punto de vista arquitectónico, Granite Speech 3.3 consta de:
A diferencia de los modelos integrados directamente que combinan voz y texto en un solo paso, Granite Speech 3.3 utiliza un diseño de dos pasos. Por ejemplo, para hacer preguntas al modelo sobre un archivo de audio se requiere una llamada inicial para transcribir el audio y una segunda instrucción para consultar al modelo sobre ese texto transcrito. Si una instrucción contiene el "
Este enfoque de dos pasos garantiza que el rendimiento de Granite Speech 3.3 8B en consultas de texto refleje el de su LLM (Granite 3.3 8B Instruct) subyacente, evitando la degradación del rendimiento basado en texto típica de muchos modelos multimodales. Con acceso a una plataforma de inferencia configurada para servir adecuadamente tanto a modelos de texto como de voz, los desarrolladores pueden entender Granite Speech 3.3 8B esencialmente como una versión de Granite 3.3 8B Instruct con capacidades adicionales de entrada de audio.
A diferencia de los modelos ASR convencionales basados en Whisper, Granite Speech 3.3 puede aceptar entradas de longitud arbitraria; en las pruebas, el modelo pudo procesar cómodamente un archivo de audio de 20 minutos en una GPU H100 de 80 GB, en lugar de fijarse en una ventana de 30 segundos. En los modelos basados en Whisper, los archivos de audio que superan ese máximo deben cortarse en fragmentos de 30 segundos, lo que a menudo introduce imprecisiones cerca de los momentos en los que se imponen estos cortes de 30 segundos. Como regla general, cuantos menos cortes artificiales necesite hacer, menos imprecisiones introducirá.
Si bien Granite Speech 3.3 puede ingerir entradas de audio bastante largas, vale la pena señalar que el modelo aún no se ha ajustado en datos de audio largos. Para mantener una precisión constante, sugerimos un límite de 1 minuto para cada unidad discreta de entrada de audio.
Granite Speech 3.3 representa solo la salva inicial de la exploración de IBM en las capacidades de audio para la serie Granite. Las investigaciones en curso para mejorar Granite Speech para futuras versiones, particularmente en Granite 4, incluyen:
Las últimas versiones de nuestros modelos ajustados de instrucciones de solo texto, Granite 3.3 8B Instruct y Granite 3.3 2B Instruct, agregan capacidades de relleno en el medio (FIM) y continúan refinando las capacidades de pensamiento introducidas en Granite 3.2.
También estamos lanzando sus homólogos del modelo base,Granite 3.3 8B Base y Granite 3.3 2B Base, que ahora reemplazan a sus predecesores de Granite 3.1, para proporcionar a los desarrolladores acceso a nuestros modelos compatibles con FIM para sus propios esfuerzos de ajuste.
Los LLM autorregresivos, los LLM que se utilizan normalmente para la generación de texto, están diseñados fundamentalmente para mover, de izquierda a derecha. Se entrenan mediante aprendizaje autosupervisado para predecir iterativamente el siguiente token en una secuencia, en función de la información de los tokens anteriores, hasta que la secuencia se considere completa. Si bien ese diseño se presta a una impresionante variedad de tareas generativas, inherentemente se queda corto en un tipo diferente de tarea: predecir los tokens correctos en función de los tokens que vienen antes y después. En otras palabras, los LLM autorregresivos convencionales no pueden "llenar el medio".
Adaptar los modelos autorregresivos para el relleno requiere un rediseño de las tareas de entrenamiento para "engañar" al LLM para que prediga tokens en el medio utilizando su capacidad intrínseca de predicción de izquierda a derecha . Esto generalmente requiere dividir un pasaje de muestra en prefijo (los tokens anteriores), sufijo (los tokens que vienen después) y medio (los tokens que se predecirán mediante el relleno), luego reorganizar el pasaje de modo que el modelo proporcione tanto el prefijo como el sufijo antes se le pide que prediga los tokens intermedios. Granite 3.3 utiliza tokens especializados para permitir que el modelo genere contenido condicionado tanto al prefijo como al sufijo.
Si bien FIM tiene una amplia gama de casos de uso, es particularmente aplicable a tareas de programación, desde la reparación de código y la conexión de errores hasta la refactorización, pasando por la generación rápida de código repetitivo y la inserción de argumentos de función o cadenas de documentación.
Nuestro enfoque para Granite 3.2 fue enriquecer las capacidades de razonamiento de los modelos Instruct a través de la optimización de preferencias de pensamiento (TPO) para mejorar su capacidad de seguir instrucciones complejas sin sacrificar el rendimiento general. Nuestro enfoque para Granite 3.3 Instruct fue preservar esas ganancias y, al mismo tiempo, enriquecer el rendimiento de los modelos en razonamiento matemático complejo.
Construido sobre un modelo base Granito 3.3 actualizado y afinado a través del aprendizaje por refuerzo de múltiples etapas utilizando TPO y Optimización de Políticas Relativas de Grupo (GRPO), ambos modelos Granite 3.3 Instruct demostraron una mejora significativa en los puntos de referencia altamente técnicos asociados de manera convencional con las capacidades de “razonamiento”.
El rendimiento de Granite 3.3 8B en el punto de referencia MATH500 lo coloca cómodamente por delante de Claude 3.5 Haiku de Anthropic (64.2 %) y Llama 3.1 8B Instruct de Meta (44.4 %), aproximadamente en línea con el parámetro 24B Mistral Small 3 (70.6 %). y apenas detrás de Claude 3.5 Sonnet (72.4 %) y GPT-4o Mini de OpenAI (72.6 %).1
Al igual que con los modelos Granite 3.2 Instruct, el "pensamiento" se puede activar y desactivar fácilmente, lo que permite a los desarrolladores priorizar el razonamiento mejorado de la cadena de pensamiento (CoT) cuando lo necesiten y priorizar la rentabilidad y la baja latencia cuando no lo hacen.
Para mejorar las aplicaciones existentes basadas en Granite e informar el desarrollo de la próxima generación de adaptadores LoRA que mejoran el rendimiento , IBM también está lanzando una colección de 5 (en su mayoría) adaptadores LoRA específicos de RAG para Granite 3.2 8B Instruct a través de Granite Experiments, un área de juegos de IBM Research para probar ideas de código abierto. Cada uno de estos adaptadores LoRA aprovecha el conocimiento intrínseco del modelo para permitir una tarea específica, como reescribir consultas de recuperación o detectar alucinaciones.
IBM Research desarrolló estos adaptadores LoRA "convencionales" junto con sus homólogos que utilizan un nuevo tipo de adaptación de bajo rango que llamamos LoRA activado (aLoRA). El intercambio entre adaptadores LoRA estándar a menudo ralentiza el rendimiento porque el modelo debe volver a calcular el contexto de la conversación en curso utilizando el nuevo. Pero a diferencia de las LoRA estándar, las aLoRA de IBM simplemente reutilizan la caché existente de clave-valor (KV), evitando la necesidad de volver a calcular el contexto (o "rellenar previamente") nuevamente. Las LoRA activadas coinciden con la calidad de generación de las LoRA estándar, al tiempo que proporcionan importantes ventajas de tiempo de ejecución y computación. El código fuente para ejecutar aLoRA está disponible aquí.
Detección de alucinaciones RAG Incluso con RAG, un LLM a veces puede alucinar. Cuando está equipado con RAG de alucinación-detección LoRA, el modelo proporcionará una "puntuación de fidelidad" entre 0 y 1 (en incrementos de 0.1), lo que refleja qué tan de cerca refleja sus resultados la información contenida en los documentos recuperados. Una puntuación de fidelidad más baja indica un mayor riesgo de alucinaciones. El modelo generará un resultado sin respuesta cuando la pregunta no se pueda responder con información de las fuentes disponibles.
Los motores RAG Query Rewrite
Retrieval arrojan resultados significativamente mejores en respuesta a consultas independientes que contienen toda la información relevante que en respuesta a consultas que requieren contexto anterior en la conversación para ser procesables. Con Query Rewrite LoRA equipado, el modelo reescribirá automáticamente cualquier consulta de usuario no independiente en una consulta por completo autónoma. Por ejemplo, considere este intercambio:
Usuario: "¿Quién es el director ejecutivo (CEO) de Apple?" Modelo: “Tim Cook es el director ejecutivo de Apple Inc.” Usuario: "¿Qué pasa con Microsoft?"
El modelo pasará la primera consulta del usuario tal cual, pero reescribirá la segunda consulta como: “¿Quiénes el director ejecutivo (CEO) de Microsoft?”. En las pruebas, esta reescritura aumentó la relevancia de las respuestas del modelo hasta en 21 puntos porcentuales.
Aunque se diseñó pensando en RAG, Query Rewrite no requiere la presencia de documentos RAG: también se puede usar para reescribir consultas de usuario para otros casos de uso, como llamadas a herramientas.
RAG Citation Generation
Cuando está equipado con RAG Citation Generaton LoRA, el modelo generará una cita para cada oración de su salida (si esa oración fue informada por fuentes externas). Cada cita a nivel de oración no solo señala las fuentes a las que se hace referencia, sino que también contiene un conjunto de oraciones de las fuentes citadas que respaldan la oración de salida correspondiente del modelo.
RAG Answerability Prediction
Cuando está equipado con RAG Answerability Prediction LoRA, el modelo determinará si la consulta del usuario puede responderse o no utilizando la información disponible en los documentos conectados. Esta clasificación binaria, "con respuesta" o "sin respuesta", se puede usar para, entre otras cosas, filtrar preguntas sin respuesta (disminuyendo las alucinaciones) o instruir al modelo para volver a consultar al recuperador de una manera diferente.
Predicción de incertidumbre
Para cada resultado del modelo, el LoRA de incertidumbre, nacido de la investigación de calibración de modelos de IA del MIT-IBM Watson AI Lab, permite que el modelo genere una "puntuación de certeza" cuantificada que va de 0 a 9 (que representa del 5 % al 95 % de certeza, respectivamente). La puntuación refleja esencialmente el grado en que la respuesta del modelo está apoyada por la información contenida en sus datos de entrenamiento.
Mientras que el RAG tradicional implica una única inferencia (una instrucción sencilla basada en un contexto específico) que produce un único resultado del modelo, proponemos el uso de estos LoRA en flujos de trabajo que aprovechan múltiples adaptadores LoRA a través de múltiples inferencias en el camino hacia una respuesta final del modelo.
Por ejemplo, primero puede implementar Query Rewrite para (cuando sea necesario) reescribir rápidamente las instrucciones iniciales para una precisión óptima del recuperador. Una vez que se ha generado la respuesta aumentada por recuperación del modelo mediante la instrucción reescrita, puede implementar RAG Detección de alucinación para Verify un nivel adecuado de fidelidad a la información en los documentos recuperados. Si la puntuación de fidelidad cae por debajo de un umbral aceptable, su flujo de trabajo podría indicar al modelo que vuelva a muestrear la respuesta hasta que la puntuación de fidelidad supere ese umbral. Una vez que ya no se detecten las alucinaciones, podría emplear RAG Citations para la respuesta final proporcionada al usuario.
Esto sería esencialmente similar al equivalente RAG de escalar el cálculo del tiempo de prueba, andamiaje de múltiples inferencias para mejorar y enriquecer el resultado final del modelo. Estamos entusiasmados de ver cómo la comunidad de código abierto implementará y experimentará con estos nuevos adaptadores LoRA. Puede encontrar más información sobre las RAG LoRA y su impacto en el rendimiento del modelo en el documento técnico adjunto.
IBM Research está entrenando activamente Granite 4.0, una nueva generación de modelos que representan una importante evolución de la arquitectura Granite y demuestran ganancias prometedoras en velocidad, longitud de contexto y capacidad. Aunque los detalles específicos no se anunciarán hasta más adelante en el segundo trimestre, los clientes, socios y desarrolladores pueden contar con que IBM mantendrá su compromiso con modelos pequeños y prácticos que se pueden ejecutar a bajo costo y latencia.
Los nuevos modelos Granite 3.3 Instruct están disponibles en IBM watsonx.ai, nuestro estudio integrado de extremo a extremo para el desarrollo de IA empresarial. Puede probar Granite 3.3 Instruct 8B y experimentar fácilmente con la activación y desactivación de "pensar" en Granite Playground.
Granite Speech 3.3 8B, junto con todos los nuevos modelos Granite y adaptadores LoRA, está disponible en Hugging Face. Los modelos Select Instruct también están disponibles a través de socios de plataforma que incluyen (en orden alfabético) LMStudio, Ollama y Replicate, y habrá más en un futuro próximo.
Hay varias guías y recetas para trabajar con modelos de Granite disponibles en Granite docs y Granite Snack Cookbook en GitHub. Los desarrolladores pueden dar primeros pasos con los modelos de Granite explorando nuestra variedad de demostraciones, recetas y tutoriales útiles, como:
1"MATH 500 Benchmark," Vals AI, última actualización 24 de marzo de 2025
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.