IBM Granite 3.2: raciocínio, visão, previsão e muito mais

Fundo de DCO para o arranjo do Granite de caixas isométricas

Autoria

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Informações principais resumidas:

 

  • O novo Granite 3.2 8B Instruct e o Granite 3.2 2B Instruct oferecem recursos experimentais de raciocínio em cadeia de pensamento que melhoram significativamente sua capacidade de seguir instruções complexas sem comprometer o desempenho geral. O processo de raciocínio pode ser ativado e desativado, possibilitando o uso eficiente dos recursos de computação.
  • Quando combinado com as técnicas de dimensionamento de inferência da IBM, o processo de pensamento estendido do Granite 3.2 8B Instruct permite que ele atenda ou exceda o desempenho de raciocínio de modelos muito maiores, incluindo GPT-4o e o Claude 3.5 Sonnet.
  • Nosso novo modelo multimodal, o Granite Vision 3.2 2B, foi desenvolvido com foco particular na compreensão de documentos, na qual corresponde aos modelos abertos proeminentes de desempenho de cinco vezes seu tamanho.
  • As mais recentes adições à família de modelos Granite Timeseries, Granite-Timeseries-TTM-R2.1, expandem os recursos de forecasting do TTM para incluir previsões diárias e semanais,além das tarefas de forecasting a cada minuto e hora já compatíveis com os modelos TTM anteriores.
  • Estamos lançando novos tamanhos de modelos no Granite Guardian 3.2, incluindo uma variante derivada de nosso modelo de linguagem de combinação de especialistas (MoE) 3B-A800M. Os novos modelos oferecem maior eficiência com perda mínima de desempenho.
  • A série de modelos de embedding Granite agora inclui a capacidade de aprender embeddings dispersas. O Granite-Embedding-30M-Sparse equilibra eficiência e escalabilidade em diversos orçamentos de recursos e latência.
  • Assim como seus antecessores, todos os novos modelos IBM Granite são lançados com código aberto sob uma licença Apache 2.0 permissiva.
  • Os modelos Granite 3.2 já estão disponíveis no IBM watsonx.ai, Hugging Face, Ollama, LMStudio e Replicate.

O Granite 3.2, o lançamento mais recente de nossa terceira geração de modelos IBM Granite, é uma etapa essencial na evolução da série Granite além dos modelos de linguagem simples. Tendo como destaque funcionalidades de raciocínio experimental e nosso primeiro modelo de linguagem de visão (VLM) oficial, o Granite 3.2 introduz vários novos recursos significativos na família Granite.

O lançamento também inclui uma série de melhorias na eficiência, eficácia e versatilidade de nossas ofertas existentes. A priorização de modelos práticos e prontos para empresas da IBM continua a busca por desempenho de última geração com cada vez menos parâmetros.

Como sempre, os modelos mais recentes do Granite são de código aberto sob a licença Apache 2.0. Todos os modelos Granite estão agora disponíveis no Hugging Face. Modelos selecionados também estão disponíveis por meio de plataformas adicionais, incluindo o IBM watsonx.ai. Tutoriais, receitas e outros recursos estão disponíveis na seção "Introdução" no final deste artigo.

Granite 3.2 Instruct: raciocinando quando você precisar

As iterações mais recentes dos grandes modelos de linguagem (LLMs) somente de texto da IBM, Granite 3.2 Instruct 8B e Granite 3.2 Instruct 2B, foram treinadas para oferecer recursos de raciocínio aprimorados em relação a seus equivalentes 3.1. Nossa implementação de raciocínio vai, de certa forma, na contramão de certas tendências do setor, de acordo com a abordagem prática da IBM de melhorar o desempenho do modelo.

  • Em vez de complicar os canais de desenvolvimento ao lançar “modelos de raciocínio” separados, a IBM incorporou recursos de raciocínio diretamente em nossos modelos Instruct principais. O processo de raciocínio interno do modelo pode ser facilmente ativado e desativado, garantindo o uso adequado dos recursos computacionais para a tarefa em questão.

  • Enquanto as técnicas típicas baseadas em raciocínio melhoram o desempenho do modelo em tarefas lógicas (como matemática e programação) em detrimento de outros domínios, a metodologia da IBM traz os benefícios do raciocínio, preservando o desempenho geral e a segurança em todos os aspectos.

Essas funcionalidades experimentais dos novos modelos Granite 3.2 Instruct representam apenas uma das várias explorações em andamento na IBM Research sobre a evolução de modelos baseados em raciocínio. Trabalhos adicionais sobre técnicas de dimensionamento de inferência demonstram que o Granite 3.2 8B Instruct pode ser calibrado para igualar ou exceder o desempenho de raciocínio matemático de modelos muito maiores, incluindo o GPT-4o-0513 da OpenAI e o Claude-3.5-Sonnet-1022 da Anthropic.

Como lidar com as vantagens (e desvantagens) do raciocínio

A intuição que impulsiona os avanços recentes no raciocínio de modelos de linguagem vem de uma pesquisa de 2022 que demonstra que o simples acréscimo da frase "pensar passo a passo", uma técnica de engenharia de prompts comumente chamada de prompts de cadeia de pensamento (CoT) , melhora significativamente as saídas do modelo em tarefas de raciocínio.1

Pesquisas posteriores de 2024 afirmaram ainda que o aumento da computação de tempo de inferência (ou seja, os recursos usados para gerar cada saída durante a inferência) poderia melhorar o desempenho do modelo tanto quanto o aumento do tamanho de um modelo ou dos recursos usados para treiná-lo. As abordagens mais recentes têm buscado principalmente esse escalonamento de inferência por meio da incorporação de vários frameworks de aprendizagem por reforço (RL) que incentivam "processos de pensamento" mais longos e complexos. De forma empolgante, o dimensionamento de inferência foi demonstrado empiricamente para permitir que LLMs ainda menores excedam as habilidades de raciocínio de modelos muito maiores.

Apesar de seus pontos fortes, os modelos de raciocínio também têm desvantagens. Consciente disso, a IBM adotou medidas deliberadas para mitigar essas desvantagens na implementação específica de recursos de raciocínio para o Granite 3.2.

Como evitar a ineficiência

Os “modelos de raciocínio” geralmente são mais lentos e caros do que os LLMs gerais, pois você deve gerar (e pagar por) todos os tokens que o modelo usa para “pensar” na resposta final antes de realmente fornecer uma saída ao usuário. A IBM Research observou um exemplo do DeepSeek-R1, um modelo de raciocínio proeminente, levando 50,9 segundos para responder à pergunta: "Onde fica Roma?

Há cenários em que esse tempo e computação extras podem ser facilmente justificados, mas também há muitos cenários em que se torna um desperdício de recursos. Em vez de exigir que os desenvolvedores façam malabarismos cada vez que escolhem um modelo para uma determinada aplicação ou fluxo de trabalho, osmodelos IBM Granite 3.2 Instruct permitem que seu processo de pensamento estendido seja ativado ou desativado simplesmente adicionando o parâmetro "thinking":true OU"thinking":false ao endpoint da API. 

Você pode aproveitar o processo de pensamento do Granite 3.2 quando for necessário ou priorizar a eficiência quando não for.

Como evitar quedas gerais de desempenho

Na relativamente curta história dos modelos de raciocínio, muitas abordagens proeminentes priorizaram ganhos de desempenho em apenas um conjunto restrito de domínios orientados pela lógica, como matemática ou programação. Embora o trabalho contínuo da IBM com técnicas de dimensionamento de inferência tenha produzido melhorias de desempenho particularmente impressionantes em benchmarks técnicos convencionalmente associados ao "raciocínio", como AIME e MATH-500, nosso foco para o Granite 3.2 Instruct foi enriquecer os processos de pensamento de nossos modelos para melhorar mais amplamente a capacidade de seguir instruções complexas.

Um foco restrito em tarefas técnicas explicitamente visadas pelos desenvolvedores do modelo pode às vezes ser às custas de outros domínios, incluindo desempenho geral e segurança, cujo conhecimento pode ser “esquecido” pelo modelo se eles não forem adequadamente cobertos nos conjuntos de dados usados para o desempenho do raciocínio. Para evitar isso, a IBM desenvolveu o Granite 3.2 Instruct aplicando um framework de aprendizado por reforço baseado em Thought Preference Optimization (TPO)diretamente no Granite 3.1 Instruct.

Ao contrário de muitas abordagens comuns para recursos de raciocínio, a menor dependência do TPO de operadores lógicos ou funções para classificar e recompensar as saídas do modelo facilita a escalabilidade para tarefas gerais. Isso permitiu que o Granite 3.2 Instruct tivesse maior desempenho em tarefas que exigiam raciocínio complexo sem comprometer o desempenho em outras partes.

Os benefícios dessa abordagem são mais evidentes nas comparações com os modelos DeepSeek-R1-Distill, que (apesar de seus nomes) são, na verdade, versões dos modelos Llama e Qwen com ajuste fino para emular o processo de raciocínio do DeepSeek-R1. Vale a pena observar aqui que, ao contrário dos modelos R1-Distill, os modelos IBM Granite 3.2 Instruct não foram treinados usando nenhum dado gerado pelo DeepSeek, simplificando muito suas implicações regulatórias.

Considere o desempenho pré e pós-raciocínio de modelos Llama, Qwen e Granite de tamanho semelhante no ArenaHard e Alpaca-Eval-2,, benchmarks populares que medem a capacidade de um modelo de pensar em instruções difíceis. Considerando que a técnica do DeepSeek diminui o desempenho nessas tarefas não direcionadas, as técnicas CoT usadas para evoluir o Granite 3.1 Instruct para o Granite 3.2 Instruct melhoraram significativamente o acompanhamento das instruções.

Gráfico de barras do desempenho do LLM Comparação do desempenho do modelo no acompanhamento de instruções complexas (pensamento do Granite = ativado)

Da mesma forma, o Granite 3.2 evita os sacrifícios do desempenho geral normalmente acarretados pela introdução de recursos de raciocínio.

Gráfico de barras do desempenho do LLM Comparação do desempenho pré e pós-raciocínio em benchmarks gerais de desempenho acadêmico (pensamento do Granite = desativado)

A IBM mantém as preocupações essenciais da empresa, incluindo a segurança, no centro de todas as decisões de projeto. Embora os modelos destilados do DeepSeek mostrem uma queda significativa no desempenho de segurança (conforme medido pelo desempenho no benchmark AttaQ), a abordagem da IBM preservou a robustez do Granite 3.2 Instruct aos ataques adversários.

Gráfico de barras exibindo a segurança do LLM Comparação da resiliência pré e pós-raciocínio a ataques adversários (pensamento do Granite = desativado)

Continuação de nosso trabalho de raciocínio

Conforme mencionado, o lançamento do Granite 3.2 marca apenas o início das explorações da IBM sobre recursos de raciocínio para modelos empresariais. Muitas de nossas pesquisas em andamento visam aproveitar o processo de pensamento inerentemente mais longo e robusto do Granite 3.2 para otimizar ainda mais o modelo.

Um desses caminhos de exploração centra-se no reforço do Granite 3.2 com técnicas de escala de inferência mais complexas, incluindo filtragem de partículas e votação por maioria (também chamada de autoconsistência). Experimentos iniciais demonstram que, quando usado em conjunto com essas técnicas de escala de inferência, o desempenho do Granite 3.2 em tarefas de raciocínio matemático pode igualar ou exceder o desempenho de modelos de fronteira muito maiores.

Granite Vision 3.2 2B: Granite torna-se multimodal

O Granite Vision 3.2 2B é um grande modelo de linguagem leve, com recursos de visão computacional, voltado para casos de uso corporativo cotidiano, treinado com foco especial na compreensão visual de documentos. Ao lidar com entradas de imagem e texto, o desempenho do Granite Vision 3.2 em benchmarks empresariais essenciais, como DocVQA e ChartQA, rivaliza com o de modelos abertos significativamente maiores.

Gráfico de barras da segurança do LLM Nos benchmarks que medem o desempenho em tarefas de compreensão de documentos, o Granite Vision 3.2 mantém o ritmo com modelos abertos ainda maiores.

Embora o Granite Vision 3.2 2B não tenha a intenção explícita de ser um substituto imediato para modelos Granite somente de texto de tamanho semelhante em tarefas de linguagem, ele pode lidar com recursos com cenários de entrada e saída de texto.

Visão voltada para imagens empresariais

O Granite Vision 3.2 2B pode lidar com uma ampla variedade de tarefas de compreensão visual, mas é especializado em tarefas mais relevantes para a compreensão de documentos e a geração aumentada de recuperação (RAG) multimodal.

A maioria dos VLMs, alternativamente chamados de grandes modelos de linguagem multimodais (MLLMs), é treinada para tarefas de visão predominantemente em imagens naturais. Isso não produz necessariamente o desempenho ideal em imagens de documentos, cujas características visuais exclusivas (layouts, fontes, gráficos, infográficos) diferem significativamente das imagens naturais. Em relação à maioria dos casos de uso generalizados de entrada de imagem e saída de texto, o entendimento do documento requer uma compreensão mais específica e refinada do contexto visual.

Os dois principais desafios para permitir que os MLLMs processem efetivamente documentos e recursos visuais associados são codificar adequadamente imagens de alta resolução e interpretar com precisão o texto situado visualmente nesses documentos. As abordagens especializadas normalmente dependem de sistemas externos de reconhecimento óptico de caracteres (OCR) para processar o texto nas imagens em um framework de "percepção e compreensão" ou arquiteturas de modelos sob medida projetadas exclusivamente para a compreensão dos documentos.

Ambas as abordagens têm desvantagens. A dependência da compreensão externa de documentos orientada por OCR pode resultar no acúmulo de erros antes que as informações essenciais cheguem à linguagem, enquanto muitos métodos dedicados "sem OCR" lutam para lidar com entradas de alta resolução ou sofrem de falta de conhecimento geral em relação ao de um LLM competitivo.2

Mais recentemente, um forte desempenho na compreensão de documentos foi alcançado por meio do ajuste de instruções de modelos de linguagem de visão generalizada em conjuntos de dados focados em documentos. Infelizmente, o progresso nessa abordagem tem sido um pouco limitado pela escassez de conjuntos de dados de código aberto adequados. Para facilitar o progresso com essa abordagem, o desenvolvimento do Granite Vision 3.2 da IBM envolveu um extenso trabalho em direção a um conjunto de dados abrangente de acompanhamento de instruções para compreensão visual de documentos.

DocFM: um conjunto de dados de ajuste de instruções para tarefas de visão empresarial

O conjunto de dados do DocFM é um grande conjunto de dados de ajuste de instruções para tarefas de visão criados com base em um núcleo de dados empresariais cuidadosamente selecionados. Amplos detalhes sobre as fontes de dados usadas na coleta de conjuntos de dados de compreensão de documentos, os métodos de filtragem e limpeza usados para processar essa coleta inicial e as metodologias usadas para gerar sinteticamente tarefas de treinamento para o Granite Vision posteriormente são fornecidos no artigo técnico que o acompanha.

Os dados de compreensão de documentos usados para treinar o Granite Vision abrangem uma ampla variedade de classes de documentos com as categorias mais amplas de imagens gerais de documentos, gráficos, fluxogramas e diagramas. O conjunto de dados de cumprimento de instruções derivado, em última análise, dessas fontes de dados abrange um conjunto diversificado de tarefas que incluem resposta a perguntas de documentos, compreensão de texto de cena, extração de chaves-valores, fundamentação do texto, análise de layout, legendas, compreensão da IU e código.

Gráficos de círculos indicando os dados usados para treinar o Granite Vision 3.2 ESQUERDA: fontes de dados de treinamento de compreensão de documentos; DIREITO: conjuntos de dados utilizados para dados de imagens gerais

O DocFM é um conjunto de dados muito grande que a IBM pretende usar para uma variedade de esforços de aprendizado visual downstream no futuro. O treinamento do Granite Vision contou com um subconjunto do DocFM para criar uma série de conjuntos de dados visuais sintéticos de resposta a perguntas. Uma visão geral abrangente dos conjuntos de dados de compreensão de documentos usados para o Granite Vision é fornecida na Tabela 5 do apêndice do artigo técnico.

Vetores de atenção dispersos para monitoramento de segurança intrínseca

No projeto e treinamento do Granite 3.2 Vision, a IBM também introduziu uma nova técnica de tempo de teste que, em vez de depender de um modelo de proteção externo para monitorar atividades prejudiciais, incorpora uma abordagem de segurança dedicada diretamente no próprio modelo.

Nosso insight principal é que dentro das muitas cabeças de atenção e camadas de transformador do Granite Vision, há um subconjunto disperso de funcionalidades de imagens que poderia ser útil para identificar preocupações de segurança quando as tarefas de monitoramento de segurança são formalizadas como problemas de classificação.

Em um processo mais detalhado no artigo técnico do Granite Vision, a IBM projetou um processo para isolar e examinar os vetores de atenção produzidos no mecanismo de atenção do Granite Vision para avaliar quais, em média, se correlacionam de forma confiável com certas classes de entradas prejudiciais. Uma vez identificados, os focos de atenção responsáveis por gerar esses "vetores de segurança" podem ser usados para determinar se uma determinada entrada é segura.

A IBM continuará a explorar as possíveis aplicações dos vetores de atenção dispersos. Uma possível via de exploração é investigar seu uso na adaptação de futuras versões do Granite Guardian para o monitoramento de segurança totalmente multimodal.

Granite Guardian 3.2: mais fino, mais seguro, mais específico

O Granite Guardian 3.2, a mais recente geração de modelos de proteção da IBM projetados para detectar riscos em prompts e respostas, fornece desempenho no mesmo nível dos equivalentes do Guardian 3.1 com maior velocidade e custos de inferência e uso de memória menores.

Confiança verbalizada

O IBM Granite Guardian 3.2 apresenta a confiança verbalizada, uma nova funcionalidade que fornece uma avaliação mais sutil dos riscos detectados para reconhecer a ambiguidade inerente a determinados cenários de monitoramento de segurança.

Em vez de apenas produzir um binário "Sim" ou "Não" no processo de monitoramento de entradas e saídas em relação a risco, os modelos Granite Guardian 3.2 também indicarão seu nível relativo de certeza. Quando riscos potenciais são detectados, os modelos Guardian 3.2 indicam confiança "Alta" ou "Baixa", conforme demonstrado no exemplo a seguir:

label, confidence = parse_output(output, input_len)
print(f"# risk detected? : {label}") # Yes
print(f"# confidence detected? : {confidence}") # High

 

Modelos de segurança mais finos

O Granite Guardian 3.2 introduz dois novos tamanhos de modelos:

O O Granite Guardian 3.2 5B foi derivado do Guardian Guardian 3.1 8B (que foi criado por meio do ajuste fino do modelo de linguagem básico para classificação de segurança). Inspirada por pesquisas que demonstram que as camadas mais profundas de uma rede neural são frequentemente redundantes, não totalmente aproveitadas pelo pré-treinamento ou simplesmente menos críticas do que as camadas mais rasas das redes, a IBM adotou uma estratégia de poda iterativa para "afinar" o modelo 8B. O processo resultou em uma redução de aproximadamente 30% dos parâmetros do 8B, mantendo um desempenho próximo ao do modelo original.

  • Primeiro, camadas específicas para poda são selecionadas com base na semelhança relativa entre suas entradas e saídas. Em outras palavras, identificamos as camadas de rede cujas contribuições são menos impactantes.
  • Após serem identificadas, 10 camadas são eliminadas do modelo.
  • Então, o modelo é "curado", treinando-o novamente em 80% dos dados de treinamento originais. Depois, disso, mais duas camadas são removidas.

O Granite Guardian 3.2 3B-A800M foi criado por meio do ajuste fino de nosso modelo básico de mistura de especialistas (MoE), que ativa apenas 800 milhões de sua contagem total de 3 bilhões de parâmetros no momento da inferência. Sua introdução adiciona uma opção especialmente eficiente e econômica à linha Granite Guardian.

Modelos Granite Timeseries: agora com forecasting diário e semanal

A popular família de modelos compactos Granite Time Series de código aberto da IBM, chamados Tiny Time Mixers (TTMs), foi baixada mais de 8 milhões de vezes no Hugging Face. Embora as variantes anteriores do TTM lançadas nas séries TTM-R1 e TTM-R2 fossem compatíveis com forecasting zero-shot e few-shot para resoluções de minuto a hora, a adição mais recente à linha Granite Time Series, o TTM-R2.1, é compatível com horizontes de forecasting diários e semanais.

Uma lista detalhada de todas as fontes de dados usadas para treinar o TTM-R2 e o TTM-R2.1 está disponível na parte inferior do cartão do modelo TTM-R2/R2.1 Hugging Face. Uma lista completa de variantes pode ser encontrada na guia "Arquivos e versões".

Várias receitas para começar a usar os Tiny Time Mixers estão disponíveis no Guia da série Granite Time.

Desempenho máximo em um pacote pequeno

No GIFT-Eval Forecasting Leaderboard da Salesforce, um benchmark abrangente que avalia o desempenho de modelos de séries temporais em entradas multivariadas em 24 conjuntos de dados que abrangem sete domínios, 10 frequências e comprimentos de previsão que variam de previsões de curto a longo prazo, os modelos TTM-R2 (incluindo as novas variantes TTM-R2.1) superam todos os modelos em precisão de forecasting pontual, medida pelo erro médio absoluto em escala (MASE).3 O TTM-R2 também está entre os cinco melhores em forecasting, conforme medido pela pontuação de probabilidade classificada contínua (CRPS).

É importante observar que os modelos TTM alcançam essas classificações superando modelos muitas vezes maiores que seu tamanho. Em tamanhos "minúsculos", de 1 a 5 milhões de parâmetros, os modelos TTM são centenas de vezes menores do que os modelos de 2o e 3o lugares do MASE, o TimesFM-2.0 do Google (500 milhões de parâmetros) e o Chronos-Bolt-Base da Amazon (205 milhões de parâmetros).
 

Maior versatilidade para casos de uso de forecasting

A versão do TTM-R2.1 inclui uma variedade de modelos com comprimentos de contexto e horizontes de forecasting variados. Enquanto os modelos anteriores do TTM-R2 ofereciam comprimentos de contexto de 1536, 1024 ou 512, o TTM-R2.1 inclui modelos com comprimentos de contexto mais curtos, variando de 512 a 52, tornando-os adequados para forecasting diário e semanal.

Os modelos TTM-R2.1 não substituem necessariamente seus antecessores TTM-R2. A "melhor" versão do TTM depende da natureza de seus dados e do caso de uso. Por exemplo, o Granite-Timeseries-TTM-52-16-ft-R2.1 tem um comprimento de contexto de 52 e um comprimento de previsão de 16, tornando-o mais adequado para tarefas como analisar um ano de pontos de dados semanais e prever resultados semanais para os próximos meses.

O módulo get_model simplifica a tarefa selecionando a variante de modelo correta entre as amplas ofertas disponíveis.

Ajuste de prefixo de frequência

A designação "ft ” incluída nos nomes dos modelos TTM-R2.1 indica “ajuste de frequência” (ou, mais formalmente, ajuste de prefixo de frequência). Derivado das técnicas de ajuste de prefixo usadas como uma alternativa leve para ajustar modelos de base de ajuste fino para tarefas de geração de texto, o ajuste de prefixo de frequência melhora a capacidade de nossos modelos de base de séries temporais se ajustarem às variações em seus dados de entrada.

Quando habilitado, um vetor de embedding extra (indicando a frequência de seus dados) é adicionado como um “prefixo” à entrada do modelo juntamente com informações da janela de contexto. Conforme detalhado no documento técnico do TTM, a equipe do modelo descobriu que o ajuste de frequência melhora o desempenho durante o pré-treinamento em grandes coleções de conjuntos de dados com resoluções diversificadas. Durante a inferência, esse token de perfixo permite que o modelo se adapte rapidamente à frequência dos dados de entrada, o que é especialmente útil quando o tamanho do contexto é muito curto.

Granite Embedding: um novo modelo de embedding dispersa

Enquanto todos os modelos anteriores do Granite Embedding (e, além disso, quase todos os modelos de embedding na era moderna do deep learning) aprendem embedding densas, o mais novo modelo Granite Embedding (Granite-Embedding-Sparse-30M-English) tem uma arquitetura ligeiramente alterada que permite que ele aprenda embeddings dispersas.

Otimizado para correspondências exatas, pesquisa de palavras-chave e classificação em inglês, o Granite-Embedding-30M-Sparse equilibra eficiência e escalabilidade em diversos orçamentos de recursos e latência. É lançado por meio do Granite Experiments, um playground da IBM Research para testar ideias de código aberto para acelerar o ciclo de desenvolvimento.

Por que embeddings dispersas?

Um modelo de embedding densa e típica pega uma entrada de texto (como um documento, frase ou consulta) e gera uma embedding vetorial de tamanho fixo. O tamanho desse vetor—ou seja, quantos números (ou dimensões) ele contém—é uma escolha de projeto. Modelos que aprendem embeddings menores são mais rápidos, porém menos precisos. Modelos que aprendem embeddings maiores são mais lentos, porém mais precisos. Elas são chamadas de embeddings vetoriais "densas" porque cada dimensão armazena um valor específico.

As dimensões individuais de uma embedding densa não correspondem diretamente aos atributos do significado semântico da entrada original de forma literal. As embeddings vetoriais densas são essencialmente uma caixa-preta: os modelos podem usá-las para realizar operações úteis, mas nós, seres humanos, não podemos interpretá-las de forma significativa.

As embeddings dispersas são mais intuitivas. Seu tamanho de incorporação é igual ao tamanho do vocabulário, ou seja, cada dimensão do vetor de incorporação corresponde a uma das "palavras" (ou, mais precisamente, a um dos tokens) que o modelo aprendeu. O valor específico contido em cada dimensão de um vetor de embedding disperso reflete a relevância do token que a dimensão representa para a entrada para a qual o modelo está gerando uma embedding. Assim, as embeddings dispersas são bastante interpretáveis.

Para passagens de texto mais curtas, como tweets, comentários ou breves avaliações, as embeddings dispersas podem ser significativamente mais rápidas, oferecendo um desempenho melhor do que (ou pelo menos igual ao) das embeddings densas. Normalmente, elas oferecem um forte desempenho "pronto para uso" sem a necessidade de ajustes finos.

Dito isto, elas têm desvantagens. Há uma oportunidade limitada de melhorar o desempenho de um modelo de embeddings dispersas além de sua linha de base original por meio de ajustes finos. Para passagens de texto mais longas, quaisquer vantagens de eficiência começam a desaparecer ou, até mesmo, a serem invertidas à medida que mais e mais dimensões são utilizadas para refletir a relevância de um número crescente de tokens do vocabulário do modelo.

O modelo 30M Granite Embedding disperso oferece desempenho aproximadamente equivalente ao seu equivalente denso de 30M em benchmarks de recuperação de informações (BEIR), ao mesmo tempo em que oferece uma pequena vantagem sobre o SPLADE-v3.

Introdução ao Granite 3.2

Todos os modelos Granite 3.2 estão disponíveis sob a licença permissiva do Apache 2.0 no Hugging Face. Modelos selecionados também estão disponíveis no IBM watsonx.ai, assim como por meio de parceiros de plataformas, incluindo (em ordem alfabética) LM Studio, Ollama e Replicate. Futuramente, este artigo será atualizado para refletir a disponibilidade expandida da plataforma dos modelos Granite 3.2. 

Há vários guias e receitas para trabalhar com os modelos do Granite disponíveis na documentação do Granite e no Granite Snack Cookbook no GitHub. Os desenvolvedores também podem começar a usar os modelos Granite no playground de modelos Granite ou explorando nossa variedade de demonstrações e tutoriais úteis, como:

Explore os modelos do Granite 3.2 →

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Notas de rodapé
Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Serviços de IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real