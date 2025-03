Na relativamente curta história dos modelos de raciocínio, muitas abordagens proeminentes priorizaram ganhos de desempenho em apenas um conjunto restrito de domínios orientados pela lógica, como matemática ou programação. Embora o trabalho contínuo da IBM com técnicas de dimensionamento de inferência tenha produzido melhorias de desempenho particularmente impressionantes em benchmarks técnicos convencionalmente associados ao "raciocínio", como AIME e MATH-500, nosso foco para o Granite 3.2 Instruct foi enriquecer os processos de pensamento de nossos modelos para melhorar mais amplamente a capacidade de seguir instruções complexas.

Um foco restrito em tarefas técnicas explicitamente visadas pelos desenvolvedores do modelo pode às vezes ser às custas de outros domínios, incluindo desempenho geral e segurança, cujo conhecimento pode ser “esquecido” pelo modelo se eles não forem adequadamente cobertos nos conjuntos de dados usados para o desempenho do raciocínio. Para evitar isso, a IBM desenvolveu o Granite 3.2 Instruct aplicando um framework de aprendizado por reforço baseado em Thought Preference Optimization (TPO)diretamente no Granite 3.1 Instruct.

Ao contrário de muitas abordagens comuns para recursos de raciocínio, a menor dependência do TPO de operadores lógicos ou funções para classificar e recompensar as saídas do modelo facilita a escalabilidade para tarefas gerais. Isso permitiu que o Granite 3.2 Instruct tivesse maior desempenho em tarefas que exigiam raciocínio complexo sem comprometer o desempenho em outras partes.

Os benefícios dessa abordagem são mais evidentes nas comparações com os modelos DeepSeek-R1-Distill, que (apesar de seus nomes) são, na verdade, versões dos modelos Llama e Qwen com ajuste fino para emular o processo de raciocínio do DeepSeek-R1. Vale a pena observar aqui que, ao contrário dos modelos R1-Distill, os modelos IBM Granite 3.2 Instruct não foram treinados usando nenhum dado gerado pelo DeepSeek, simplificando muito suas implicações regulatórias.

Considere o desempenho pré e pós-raciocínio de modelos Llama, Qwen e Granite de tamanho semelhante no ArenaHard e Alpaca-Eval-2,, benchmarks populares que medem a capacidade de um modelo de pensar em instruções difíceis. Considerando que a técnica do DeepSeek diminui o desempenho nessas tarefas não direcionadas, as técnicas CoT usadas para evoluir o Granite 3.1 Instruct para o Granite 3.2 Instruct melhoraram significativamente o acompanhamento das instruções.