18 de dezembro de 2023
O dia de hoje marca o lançamento do IBM Granite 3.1, a mais recente atualização da nossa série Granite de modelos de linguagem em código aberto otimizados para empresas e de alto desempenho. Este conjunto de melhorias, inclusões e novos recursos concentra-se principalmente no aumento do desempenho, na precisão e na responsabilidade em casos de uso corporativos essenciais, como uso de ferramentas, geração aumentada por recuperação (RAG) e fluxos de trabalho escaláveis de IA autônoma.
O Granite 3.1 baseia-se no impulso da recém-lançada coleção Granite 3.0. A IBM continuará lançando modelos e funcionalidades atualizados para a série Granite 3 nos próximos meses, com novos recursos multimodais programados para o primeiro trimestre de 2025.
Esses novos modelos Granite não são as únicas contribuições recentes da IBM para o ecossistema de LLM de código aberto. O lançamento de hoje encerra uma série de inovações de código aberto recentes, incluindo um framework flexível para desenvolvimento de agentes de IA e uma ferramenta intuitiva para liberar informações essenciais armazenadas em PDFs, apresentações e outros formatos de arquivo de difícil digestão por modelos. O uso dessas ferramentas e frameworks com os modelos Granite 3.1 oferece aos desenvolvedores recursos evoluídos para RAG, agentes de IA e outros fluxos de trabalho baseados em LLM.
Como sempre, o compromisso histórico da IBM com o código aberto é refletido nas licenças permissivas e padronizadas dos projetos discutidos neste artigo.
Os esforços constantes da IBM na otimização da série Granite são mais evidentes no crescimento de seu modelo denso principal de 8B. O Granite 3.1 8B Instruct da IBM supera agora a maioria dos modelos de código aberto em sua classe em pontuações médias das avaliações de benchmarks acadêmicos incluídas no Hugging Face OpenLLM Leaderboard.
A evolução da série de modelos Granite continua priorizando excelência e eficiência em casos de uso corporativos, incluindo IA autônoma. Esse progresso é mais evidente no desempenho consideravelmente aprimorado do modelo de 8B em IFEval, um conjunto de dados com tarefas que testam a capacidade do modelo de seguir instruções detalhadas, e Multi-step Soft Reasoning (MuSR), cujas tarefas avaliam o raciocínio e a compreensão em textos longos.
O avanço no desempenho do Granite 3.0 para o Granite 3.1 é reforçado pela ampliação das janelas de contexto de todos os modelos. O comprimento de contexto de 128 mil tokens do Granite 3.1 está alinhado com outras séries líderes de código aberto, como Llama 3.1–3.3 e Qwen2.5.
A janela de contexto (ou comprimento de contexto) de um grande modelo de linguagem (LLM) é a quantidade de texto, em tokens, que o LLM pode considerar de uma só vez. Uma janela de contexto maior possibilita que o modelo processe inputs maiores, efetue trocas contínuas mais longas e incorpore mais informações em cada output. A tokenização não tem uma proporção fixa de tokens para palavras, mas 1,5 tokens por palavra é uma estimativa útil. Cento e vinte mil tokens equivalem aproximadamente a um livro de 300 páginas.
Acima de um limite de cerca de 100 mil tokens surgem novas possibilidades impressionantes, incluindo respostas a perguntas em múltiplos documentos, compreensão de código no nível de repositório, autorreflexão e agentes autônomos baseados por LLM.1 Dessa forma o comprimento de contexto expandido do Granite 3.1 possibilita uma gama muito mais ampla de casos de uso corporativos, desde o processamento de bases de código e a íntegra de documentos jurídicos extensos até a revisão simultânea de milhares de transações financeiras.
O Granite Guardian 3.1 8B e o Granite Guardian 3.1 2B agora conseguem detectar alucinações que podem ocorrer em fluxos de trabalho baseados em agentes, oferecendo o mesmo nível de responsabilidade e confiança para chamadas de função já proporcionado no RAG.
Vários passos e subprocessos ocorrem entre a solicitação inicial enviada a um agente de IA e a resposta final retornada ao usuário. Para garantir a supervisão durante todo o processo, os modelos Granite Guardian 3.1 monitoram todas as chamadas de função em busca de alucinações sintáticas e semânticas.
Por exemplo, se um agente de IA supostamente consulta uma fonte externa de informações, o Granite Guardian 3.1 monitora possíveis fluxos de informações gerados. Caso o fluxo de trabalho do agente envolva cálculos intermediários com números obtidos de um registro bancário, o Granite Guardian 3.1 verifica se o agente realizou a chamada de função correta com os números apropriados.
O lançamento de hoje é mais um passo em direção à responsabilidade e à confiança em qualquer componente de um fluxo de trabalho corporativo baseado em LLM. Os novos modelos Granite Guardian 3.1 estão disponíveis no Hugging Face. Estarão disponíveis também no Ollama ainda este mês e na IBM watsonx.ai em janeiro de 2025.
Embeddings são uma parte integral do ecossistema de LLM. Um meio eficiente e preciso de representar palavras, consultas e documentos em formato numérico é essencial para uma variedade de tarefas corporativas, incluindo busca semântica, busca vetorial e RAG, além de manter bancos de dados vetoriais eficazes. Um modelo de embedding eficiente pode melhorar consideravelmente o conhecimento da intenção do usuário e aumentar a relevância das informações e fontes em resposta a uma consulta.
Embora nos últimos dois anos tenha ocorrido a proliferação de LLMs autorregressivos de código aberto cada vez mais competitivos para tarefas como geração de texto e sumarização, os lançamentos de modelos de embedding de código aberto de grandes fornecedores têm sido relativamente raros.
Os novos modelos Granite Embedding são uma evolução aprimorada da família Slate, composta por modelos de linguagem baseados exclusivamente em codificadores e na arquitetura RoBERTA. Treinados com o mesmo cuidado na filtragem de vieses, ódio, abusos e afrontas ("HAP") que o restante da série Granite, os modelos Granite Embedding são oferecidos em quatro tamanhos, sendo que dois deles são compatíveis com embeddings multilíngues em 12 idiomas naturais.
Embora a grande maioria dos modelos de embedding de código aberto do leaderboard MTEB do Hugging Face dependa de conjuntos de dados de treinamento licenciados somente para fins de pesquisa, como o MS-MARCO, a IBM verificou a qualificação comercial de todas as fontes de dados utilizadas para treinar o Granite Embedding. Reforçando o cuidado no suporte ao uso corporativo, a IBM oferece Granite Embedding a mesma indenização ilimitada para reivindicações de propriedade intelectual de terceiros já apresentadas para outros modelos desenvolvidos pela IBM.
O rigor da IBM na curadoria e na filtragem de dados de treinamento não impediu que os modelos Granite Embedding em inglês acompanhassem modelos de código aberto de embedding de tamanho semelhante em avaliações internas de desempenho conduzidas com o framework de avaliação BEIR.
Testes realizados pela IBM também demonstraram que dois dos novos modelos de embedding, Granite-Embedding-30M-English e Granite-Embedding-107M-Multilingual, superam consideravelmente os concorrentes em termos de velocidade de inferência.
Este lançamento inicia a ambiciosa estratégia de inovação da IBM Research para a família de modelos de código aberto Granite Embedding. As atualizações planejadas para 2025 são extensão de contexto, otimização para RAG e recursos de recuperação multimodal.
Paralelamente à evolução constante da série Granite, a IBM reafirma seu compromisso com a IA de código aberto por meio do desenvolvimento recente e do lançamento de ferramentas e frameworks inovadores para construção com LLMs. Otimizados para modelos Granite, mas inerentemente abertos e agnósticos a modelos, esses recursos desenvolvidos pela IBM ajudam os desenvolvedores a aproveitar todo o potencial dos LLMs, desde a facilitação de pipelines de ajuste fino até a regularização de fontes RAG e a montagem de agentes autônomos de IA.
Desde escrita criativa até RAG, a IA generativa é, em última análise, um mecanismo que opera com dados. O verdadeiro potencial dos grandes modelos de linguagem não pode ser alcançado se parte desses dados estiver presa em formatos que os modelos não conseguem reconhecer. Os LLMs são relativamente novos, mas o problema não é: como um título do Washington Post de uma década atrás proclamava, "as soluções para todos os nossos problemas podem estar enterradas em PDFs que ninguém lê."
Por isso a IBM Deep Search desenvolveu o Docling, ferramenta poderosa de análise de documentos em formatos populares como PDF, DOCX, imagens, PPTX, XLSX, HTML e AsciiDoc, convertendo-os em formatos compatíveis com modelos, como Markdown ou JSON. Isso possibilita que esses documentos (e as informações neles contidas) sejam facilmente acessados por modelos como o Granite para fins de RAG e outros processos. O Docling possibilita a integração fácil com frameworks como LlamaIndex, LangChain e Bee, permitindo que desenvolvedores o incorporem ao ecossistema preferido.
Com código aberto sob a permissiva licença MIT, o Docling é uma solução sofisticada que vai além da simples extração de texto por reconhecimento óptico de caracteres (OCR). Como William Caban, da Red Hat, explica, o Docling integra várias técnicas de processamento prévio baseadas em contexto e elementos: se uma tabela se estende por várias páginas, o Docling sabe extrair a tabela como uma única tabela; se uma página contém texto principal, imagens e tabelas, cada elemento é extraído separado respeitando o contexto original.
A equipe por trás do Docling está trabalhando em recursos adicionais, incluindo extração de equações, códigos e metadados. Para ver o Docling em ação, consulte este tutorial para criar um sistema de perguntas e respostas com documentos com Docling e Granite.
O Bee Agent Framework é um framework de código aberto para criação de fluxos de trabalho de IA agentes poderosos com LLMs de código aberto, otimizados para uso com modelos Granite e Llama (com otimizações específicas de modelo já em desenvolvimento). Conta com uma variedade de módulos que possibilitam aos desenvolvedores personalizar quase qualquer componente do agente de IA, desde gerenciamento de memória até uso de ferramentas e tratamento de erros, além de vários recursos de observabilidade que apresentam os insights e a responsabilidade necessários para implementações em produção.
O framework integra-se sem dificuldades a diversos modelos e a um pacote de ferramentas prontas para uso, como serviços de previsão do tempo e busca na internet (ou ferramentas personalizadas desenvolvidas em JavaScript ou Python). A funcionalidade flexível de uso de ferramentas do Bee possibilita fluxos de trabalho adaptados às suas circunstâncias específicas, como demonstrado neste tutorial, que utiliza o Granite e a Wikipedia para utilizar ferramentas integradas e utilizar mais efetivamente uma janela de contexto limitada.
Os agentes Granite Bee podem ser executados localmente com Ollama ou utilizar inferências hospedadas com o watsonx.ai.
Lançados no início deste ano, os modelos de séries temporais TinyTimeMixer (TTM) do Granite são uma família de modelos treinados previamente e leves baseados em uma arquitetura inovadora. Projetados para previsões zero-shot e few-shot em aplicações que variam de dados de sensores IoT a preços do mercado de ações e demandas de energia, os modelos de séries temporais Granite superam muitos modelos de até 10 vezes seu tamanho, incluindo TimesFM, Moirai e Chronos.2 Desde 30 de maio, os modelos Granite-timeseries-TTM foram baixados mais de 3,25 milhões de vezes somente no Hugging Face.
Em novembro, a IBM anunciou o lançamento beta da API e do SDK de previsão de séries temporais do watsonx.ai, disponibilizando os modelos de séries temporais Granite na plataforma integrada de IA da IBM para o desenvolvimento completo de aplicações de IA.
Para mais informações sobre o uso do Granite-TTM, consulte as orientações do manual de instruções IBM Granite Timeseries, como este notebook sobre o uso do SDK do watsonx para fazer inferências de previsão.
Os modelos Granite 3.1 agora estão disponíveis no IBM watsonx.ai. Podem também ser acessados por meio de parceiros de plataforma, incluindo (em ordem alfabética) Docker (via seu catálogo DockerHub GenAI), Hugging Face, LM Studio, Ollama e Replicate. Modelos Granite 3.1 selecionados também estarão disponíveis por meio da NVIDIA (como NIM Microservices) em janeiro de 2025.
Há uma série de guias e receitas para trabalhar com os modelos do Granite disponível no Granite Snack Cookbook no GitHub, desde a orquestração de fluxos de trabalho com modelos de linguagem Granite no LangChain até a implementação de modelos Granite Guardian.
Os desenvolvedores também podem começar a trabalhar com os modelos Granite na área de testes de modelos Granite ou explorando os diversos tutoriais e demonstrações úteis na documentação da IBM, como:
1. "Data Engineering for Scaling Language Models to 128K Context," arXiv, 15 de fevereiro de 2024
2. "Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series," arXiv, 7 de novembro de 2024
Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.
Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.