IBM Granite 3.3: reconhecimento de fala, raciocínio refinado e RAG LoRAs

16 de abril de 2025

 

Autor

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Writer, AI Models

IBM

Informações principais resumidas:

  • Estamos lançando o Granite Speech 3.3 8B, um novo modelo de speech to text (STT) que se destaca em reconhecimento automático de fala (ASR) e tradução automática de fala (AST).
  • O novo modelo de áudio foi desenvolvido com base no Granite 3.3 8B Instruct, , a atualização mais recente do nosso grande modelo de linguagem (LLM) empresarial incansável. Além de recursos aprimorados de raciocínio, os modelos Granite 3.3 Instruct agora oferecem recursos de preenchimento intermediário (FIM) , além da previsão padrão de próximo token.
  • Para melhorar os aplicativos existentes impulsionados por Granite, também estamos lançando um pacote de adaptadores LoRA focadosde geração aumentada de recuperação (RAG) para o Granite 3.2. O feedback informará o desenvolvimento de adaptadores LoRA para o Granite 3.3 Instruct, que será lançado em breve, bem como para as futuras gerações de LLMs do Granite.
  • Junto com esses adaptadores convencionais, a IBM Research também desenvolveu uma série de LoRAs ativados (aLoRAs), um novo tipo experimental de adaptação de baixa classificação (LoRA) que reduz os custos de inferência e os requisitos de memória, permitindo a comutação contínua entre adaptadores.
  • Como sempre, todos os modelos e ferramentas do Granite são lançados de código aberto sob uma licença Apache 2.0 padrão.
  • Todos os modelos Granite 3.3 e ferramentas associadas estão disponíveis no Hugging Face. O Granite 3.3 Instruct também está disponível no IBM watsonx.ai, bem como por meio de parceiros de plataforma, incluindo LMStudio, Ollama e Replicate.


O lançamento de hoje representa outra expansão da pegada de carbono do IBM Granite. Liderado pelo Granite Speech 8B, nosso primeiro modelo oficial de speech to text, o Granite 3.3 marca o início de nossas explorações em recursos de áudio. Juntamente com a recente adição de recursos de visão e raciocínio, a IBM continua a aumentar a versatilidade da série Granite nos casos de uso empresarial de que os clientes e a comunidade de código aberto mais precisam.

Integrando-se ao Granite Speech 3.3 8B está o Granite 3.3 8B Instruct, o grande modelo de linguagem (LLM) que serve de base, e sua contraparte menor (2B). A sofisticação aprimorada do processo de raciocínio dos modelos de texto em relação a seus antecessores e a adição de recursos de preenchimento intermediário (FIM) facilitam uma gama mais ampla de casos de uso aplicáveis, particularmente no domínio da programação.

Também estamos lançando uma série atualizada e ampliada de adaptadores LoRA para melhoria de desempenho (e principalmente focados em RAG) para o modelo Granite 3.2 8B Instruct lançado anteriormente por meio do Granite Experiments, um playground da IBM Research para testar ideias de código aberto. Outras inovações da LoRA, incluindo um pacote de adaptadores para o Granite 3.3 Instruct, serão lançadas nas próximas semanas.

Granite Speech 3.3 8B: transcrição e tradução precisas e eficientes

O Granite Speech 3.3 8B é um modelo STT compacto e econômico de entrada de áudio (e entrada de texto), saída de texto, destinado ao uso em aplicações corporativas que processam entrada de fala e otimizadas para reconhecimento automático de fala (ASR) e tradução automática de fala (AST).

Nas tarefas de transcrição, o Granite Speech 3.3 oferece consistentemente maior precisão do que os principais concorrentes de modelos abertos e fechados em testes em vários conjuntos de dados públicos importantes.

O modelo também oferece tradução automatizada do inglês para uma variedade de idiomas, incluindo francês, espanhol, italiano, alemão, português, japonês e mandarim. Nos testes da IBM sobre o desempenho do AST, o Granite Speech 3.3 8B acompanhou o ritmo dos principais modelos proprietários, como o GPT-4o da OpenAI e o Gemini 2.0 Flash do Google em linguagens compatíveis com o Granite no conjunto de dados CoVost. Há mais informações sobre o desempenho da tradução disponíveis no cartão do modelo Hugging Face.

Arquitetura e design

Em termos de arquitetura, o Granite Speech 3.3 consiste em:

  • Um codificador de fala, composto por 10 blocos conformer treinados com Classificação Temporal Conexionista (CTC) em conjuntos de dados focados em ASR.
  • Um projetor de fala—neste caso, um transformador de consulta de 2 camadas query transformer (Q-former)—que projeta incorporações de áudio em um espaço onde elas podem ser interpretadas por um LLM.
  • Um LLM —ou seja, Granite 3.3 8B Instruct com comprimento de contexto de 128 kB.
  • Adaptadores LoRA, aplicados às matrizes de consulta e projeção de valor do LLM quando há dados de áudio presentes.

Ao contrário dos modelos diretamente integrados que combinam fala e texto em uma única passagem, o Granite Speech 3.3 usa um design de duas passagens. Por exemplo, para fazer perguntas ao modelo sobre um arquivo de áudio, é necessário uma chamada inicial para transcrever o áudio e uma segunda solicitação para consultar o modelo sobre o texto transcrito. Se um prompt contém o token “<audio> " e um arquivo .wav correspondente, o Granite Speech acionará o codificador de áudio, o projetor e o adaptador LoRA. Caso contrário, o modelo será simplesmente executado em modo texto usando o Granite 3.3 Instruct 8B.

Essa abordagem de duas passagens garante que o desempenho do Granite Speech 3.3 8B em consultas de texto reflita o do seu LLM subjacente (Granite 3.3 8B Instruct), evitando a degradação do desempenho baseado em texto típica de muitos modelos multimodais. Com o acesso a uma plataforma de inferência configurada para atender adequadamente aos modelos de texto e fala, os desenvolvedores podem entender o Granite Speech 3.3 8B essencialmente como uma versão do Granite 3.3 8B Instruct com recursos de entrada de áudio adicionais.

Ao contrário dos modelos convencionais de ASR baseados no Whisper, o Granite Speech 3.3 pode aceitar entradas de comprimento arbitrário (em testes, o modelo conseguiu processar confortavelmente um arquivo de áudio de 20 minutos em uma GPU H100 de 80 GB) em vez de ser fixado a uma janela de 30 segundos. Em modelos baseados no Whisper, os arquivos de áudio que excedem esse máximo devem ser cortados em pedaços de 30 segundos, o que geralmente introduz imprecisões perto dos momentos em que esses cortes de 30 segundos são impostos. Como regra geral, quanto menos cortes artificiais você precisar fazer, menos imprecisão você introduz.

Embora o Granite Speech 3.3 possa ingerir entradas de áudio bastante longas, vale a pena notar que o modelo ainda não recebeu um ajuste fino para dados de áudio longos. Para manter a precisão consistente, sugerimos um limite de um minuto para cada unidade discreta de entrada de áudio.

Caminhos para melhoria

O Granite Speech 3.3 representa apenas o início da exploração dos recursos de áudio da IBM para a série Granite. Pesquisas em andamento para aprimorar o Granite Speech para lançamentos futuros, especialmente no Granite 4, incluem:

  • Codificação multilíngue: atualmente, o codificador de áudio do Granite Speech 3.3 é apenas em inglês. Próxima etapas importantes para o Granite Speech envolvem codificadores de áudio multilíngues e sensíveis a fenômenos paralinguísticos, o que nos possibilita permitir entradas multilíngues reais.
  • Receitas de dados refinadas: os regimes de treinamento futuros incorporarão mais dados de treinamento de melhor qualidade, com a geração de dados sintéticos para casos de uso direcionados desempenhando um papel importante. Também estamos experimentando etapas adicionais de ajuste fino e balanceamento de dados.
  • Fusão anterior de modalidades: estamos explorando a implementação de uma estrutura mais unificada que incorpora funcionalidades de áudio em todos os estágios de treinamento dos futuros modelos Granite.
  • Detecção de emoções: os futuros modelos de fala do Granite serão compatíveis com recursos de reconhecimento de emoções da fala (SER) por meio do treinamento do nosso codificador acústico para ser mais sensível a eventos de áudio não léxicos.

Granite 3.3 Instruct: FIM e raciocínio aprimorado

As versões mais recentes dos nossos modelos ajustados de instrução somente de texto, Granite 3.3 8B Instruct e Granite 3.3 2B Instruct, adicionam recursos de preenchimento intermediário (FIM) e continuam a refinar os recursos de raciocínio introduzidos no Granite 3.2.

Também estamos lançando seus equivalentes de modelo de base,Granite 3.3 8B Base e Granite 3.3 2B Base, que agora substituem seus antecessores do Granite 3.1, para fornecer aos desenvolvedores o acesso aos nossos modelos com capacidade para FIM para seus próprios empreendimentos de ajuste fino.

Preenchimento intermediário

Os LLMs autorregressivos (os LLMs normalmente usados para geração de texto) são fundamentalmente projetados para prosseguir, da esquerda para a direita. Eles são treinados por meio de aprendizado autossupervisionado para prever iterativamente o próximo token em uma sequência, com base nas informações dos tokens anteriores, até que a sequência seja considerada completa. Embora esse design se preste a uma variedade impressionante de tarefas generativas, ele inerentemente fica aquém de um tipo diferente de tarefa: prever os tokens corretos com base nos tokens que vêm antes e depois. Em outras palavras, os LLMs autorregressivos convencionais não podem “preencher o meio”.

Adaptar modelos autorregressivos para preenchimento requer um reprojeto das tarefas de treinamento para essencialmente "enganar" o LLM para prever tokens intermediários usando sua capacidade intrínseca de previsão da esquerda para a direita . Isso geralmente requer a divisão de uma passagem de amostra em prefixo (os tokens anteriores), sufixo (os tokens que vêm depois) e meio (os tokens a serem previstos pelo preenchimento) e, em seguida, reorganizando a passagem de modo que o modelo receba tanto o prefixo quanto o sufixo antes de ser solicitado a prever os tokens intermediários. O Granite 3.3 utiliza tokens especializados para permitir que o modelo gere conteúdo condicionado tanto no prefixo quanto no sufixo.

Embora o FIM tenha uma ampla variedade de casos de uso, ele é particularmente aplicável a tarefas de programação, desde reparo de código e conexão de erros até refatoração, geração rápida de código de clichê e permissão da inserção de argumentos de função ou doc strings.

Raciocínio aprimorado

Nosso foco para o Granite 3.2 foi enriquecer as habilidades de raciocínio dos modelos Instruct por meio da Otimização de Preferências do Pensamento (TPO) para melhorar sua capacidade de seguir instruções complexas sem sacrificar o desempenho geral. Nosso foco para o Granite 3.3 Instruct foi preservar esses ganhos e, ao mesmo tempo, enriquecer o desempenho dos modelos em raciocínios matemáticos complexos.

Desenvolvido com base em um modelo de base Granite 3.3 atualizado e ajustado por meio de aprendizado por reforço em vários estágios usando TPO e Group Relative Policy Optimization (GRPO), ambos os modelos Granite 3.3 Instruct demonstraram melhorias significativas nos benchmarks altamente técnicos convencionalmente associados a recursos de “raciocínio”.

O desempenho do Granite 3.3 8B no benchmark MATH500 o coloca confortavelmente à frente do Claude 3.5 Haiku da Anthropic (64,2%) e do Llama 3.1 8B Instruct da Meta (44,4%), aproximadamente no alinhamento com o Mistral Small 3 de parâmetros 24B (70,6%), e mal atrás do Claude 3.5 Sonnet (72,4%) e do GPT-4o Mini da OpenAI (72,6%).1

Assim como nos modelos Granite 3.2 Instruct, o “pensamento” pode ser facilmente ativado e desativado, permitindo que os desenvolvedores priorizem o raciocínio aprimorado da cadeia de pensamento (CoT) quando precisam e priorizem a eficiência de custos e a baixa latência quando não precisam.

Refinando o RAG por meio de adaptadores LoRA

Para aprimorar as aplicações baseadas no Granite existentes e informar o desenvolvimento da próxima geração de adaptadores LoRA para melhoria de desempenho, a IBM também está lançando uma coleção de cinco adaptadores LoRA específicos para RAG para o Granite 3.2 8B Instruct por meio do Granite Experiments, um playground da IBM Research para testar ideias de código aberto. Cada um desses adaptadores LoRA aproveita o conhecimento intrínseco do modelo para habilitar uma tarefa específica, como reescrever consultas de recuperação ou detectar alucinações.

A IBM Research desenvolveu esses adaptadores LoRA "convencionais" juntamente com contrapartes para cada um deles que usam um novo tipo de adaptação de baixo nível, que chamamos de LoRAs ativados (aLoRAs). A troca entre adaptadores LoRA padrão geralmente reduz o desempenho porque o modelo precisa recomputar o contexto da conversa em andamento usando o novo. Mas, ao contrário dos LoRAs padrão, os aLoRAs da IBM simplesmente reutilizam o cache de valor-chave (KV) existente, evitando a necessidade de recomputar o contexto (ou "pré-preenchimento") novamente. Os LoRAs ativados correspondem à qualidade de geração dos LoRAs padrão e, ao mesmo tempo, oferecem vantagens significativas de tempo de execução e computação. O código-fonte para executar os aLoRAs está disponível aqui.

Detecção de alucinação do RAG
Mesmo com RAG, um LLM às vezes pode alucinar.
Quando equipado com o LoRA RAG Hallucination Detection, o modelo fornecerá uma "pontuação de fidelidade" entre 0-1 (em incrementos de 0,1), refletindo o quanto sua produção reflete de perto as informações contidas nos documentos recuperados. Pontuações de fidelidade mais baixas indicam maior risco de alucinação. O modelo terá uma produção sem resposta quando a pergunta não puder ser respondida com as informações das fontes disponíveis.

Reescrita de consultas do RAG
Os mecanismos de recuperação retornam resultados significativamente melhores em respostas a consultas independentes que contêm todas as informações relevantes do que em respostas a consultas que exigem contexto do início da conversa para serem praticáveis. Com o LoRA Query Rewrite equipado, o modelo reescreverá automaticamente qualquer consulta não independente do usuário, transformando-a em uma consulta totalmente independente. Por exemplo, considere esta troca:

Usuário: "Quem é o CEO da Apple?"
Modelo: “Tim Cook é o CEO da Apple Inc.”
Usuário: "E quanto à Microsoft?"

O modelo transmitirá a primeira consulta do usuário como está, mas reescreverá a segunda consulta como: "Quem é o CEO da Microsoft?”. Nos testes, essa reescrita aumentou a relevância das respostas do modelo em até 21 pontos percentuais.

Embora tenha sido projetado com o RAG em mente, a reescrita de consultas não exige a presença de documentos RAG: ela também pode ser usada para reescrever consultas de usuários para outros casos de uso, como chamadas de ferramentas.

RAG Citation Generation
Quando equipado com o LoRA RAG Citation Generaton, o modelo gerará uma citação para cada frase de sua produção (se essa frase tiver sido informada por alguma fonte externa).
Cada citação em nível de frase não somente observa quaisquer fontes referenciadas, mas também contém um conjunto de frases das fontes citadas que corroboram a frase de saída correspondente do modelo.

RAG Answerability Prediction
Quando equipado com o LoRA RAG Answerability Prediction, o modelo determinará se a consulta do usuário pode ou não ser respondida usando as informações disponíveis em documentos conectados.
Essa classificação binária ("pode ser respondido" ou "não pode ser respondido") pode ser usada para, entre outras coisas, filtrar perguntas sem resposta (reduzindo alucinações) ou dar um prompt para que o modelo consulte novamente o recuperador de uma maneira diferente.

Uncertainty Prediction
Para cada saída do modelo, o LoRA Uncertainty (nascido da pesquisa de calibração de modelosde IA do MIT-IBM Watson AI Lab) permite que o modelo gere uma "pontuação de certeza" quantificada que varia de 0 a 9 (representando 5% a 95% de certeza, respectivamente) .
A pontuação reflete essencialmente até que ponto a resposta do modelo é corroborada pelas informações contidas em seus dados de treinamento.

Combinação de LoRAs do RAG

Enquanto o RAG tradicional implica uma única inferência (um prompt direto fundamentado em um contexto específico) resultando em um único modelo de saída, propomos o uso desses LoRAs em fluxos de trabalho que aproveitam vários adaptadores LoRA em várias inferências antes de chegarem a uma resposta final do modelo.

Por exemplo, você pode primeiro implementar a reescrita de consultas para (quando necessário) reescrever rapidamente as solicitações iniciais para obter a precisão ideal da recuperação. Uma vez que a resposta aumentada de recuperação do modelo tenha sido gerada usando o prompt reescrito, você poderá implementar a detecção de alucinação do RAG para verificar o nível apropriado de fidelidade às informações nos documentos recuperados. Se a pontuação de fidelidade ficar abaixo de um limite aceitável, seu fluxo de trabalho poderá direcionar o modelo para amostrar novamente a resposta até que a pontuação de fidelidade exceda esse limite. Após as alucinações não serem mais detectadas, você poderá acionar os RAG Citations para a resposta final fornecida ao usuário.

Isso seria essencialmente semelhante ao equivalente do RAG de dimensionar a computação de tempo de teste, estruturando várias inferências para melhorar e enriquecer o resultado final do modelo. Estamos animados para ver como a comunidade de código aberto implementará e experimentará esses novos adaptadores LoRA. Mais informações sobre os LoRAs do RAG e seu impacto no desempenho do modelo estão disponíveis no artigo técnico que o acompanha.

O que está por vir para o IBM Granite?

A IBM Research está treinando ativamente o Granite 4.0, uma nova geração de modelos que representa uma importante evolução da arquitetura Granite e demonstra ganhos promissores em velocidade, extensão de contexto e capacidade. Embora os detalhes específicos não sejam anunciados até o final do segundo trimestre, clientes, parceiros e desenvolvedores podem contar que a IBM manterá seu compromisso com modelos pequenos e práticos que podem ser executados com baixo custo e latência.

Introdução ao Granite 3.3

Os novos modelos do Granite 3.3 Instruct estão disponíveis no IBM watsonx.ai, nosso estúdio integrado de ponta a ponta para o desenvolvimento de IA empresarial. Você pode testar o Granite 3.3 Instruct 8B (e experimentar ativar e desativar facilmente o “pensamento”) no Granite Playground.

O Granite Speech 3.3 8B, juntamente com todos os novos modelos Granite e adaptadores LoRA, está disponível no Hugging Face. Modelos Instruct selecionados também estão disponíveis por meio de parceiros de plataforma, incluindo (em ordem alfabética) LMStudio, Ollama e Replicate, com mais por vir em um futuro próximo.

Há vários guias e receitas para trabalhar com os modelos do Granite disponíveis na documentação do Granite e no Granite Snack Cookbook no GitHub. Os desenvolvedores podem começar a usar os modelos Granite explorando nossa variedade de demonstrações, receitas e tutoriais úteis, como:

Explore os novos modelos do IBM Granite 3.3 →
 

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Notas de rodapé

1"MATH 500 Benchmark," Vals AI, atualizado pela última vez em 24 de março de 2025

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Serviços de IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real