A IBM está anunciando a disponibilidade de vários modelos do Llama 3.2 no watsonx.ai, o estúdio corporativo da IBM para desenvolvedores de IA, após o lançamento da coleção Llama 3.2 de modelos de linguagem multilíngue (LLMs) pré-treinados e ajustados para instrução no MetaConnect, mais cedo hoje.
Mais notavelmente, Llama 3.2 marca a primeira incursão da Meta na IA multimodal: o lançamento inclui dois modelos, nos tamanhos 11B e 90B, que podem receber imagens como entrada. Os modelos Llama 3.2 90B Vision e 11B Vision , com ajuste de instruções, estão disponíveis imediatamente em watsonx.ai por meio de SaaS.
Também chegam ao watsonx.ai os menores modelos Llama até o momento: dois LLMs de entrada e saída de texto, com tamanhos de 1B e 3B. Todos os modelos do Llama 3.2 suportam um longo comprimento de contexto (até 128K tokens) e são otimizados para inferência rápida e eficiente com atenção de consulta agrupada. A Meta especificou que o inglês, o alemão, o francês, o italiano, o português, o hindi, o espanhol e o tailandês são oficialmente suportados, mas observa que a Llama 3.2 foi treinada - e os desenvolvedores podem realizar ajuste fino dos modelos da Llama 3.2 para idiomas adicionais além desses 8.
Essas últimas adições da Meta se juntam à extensa biblioteca de modelos de base disponível no watsonx.ai, seguindo a estratégia de modelos abertos e multimodelos da IBM em relação à IA generativa
"Ao disponibilizar nossos modelos mais recentes de Llama 3.2 na watsonx, um leque muito maior de empresas pode se beneficiar dessas inovações e implementar nossos modelos mais recentes sem complicações, em seus próprios termos e em ambientes de nuvem híbrida", diz Ahmad Al-Dahle, Chefe de IA generativa da Meta. "Na Meta, acreditamos que é essencial adaptar as soluções de IA às necessidades específicas de cada organização e capacitá-las para escalar as implementações do Llama com facilidade. Nossa parceria com a IBM, uma Organização que Compartilhe nosso compromisso com abertura, segurança, proteção, confiança e transparência, nos permite fazer exatamente isso."
Continue lendo para obter mais detalhes da coleção Llama 3.2, incluindo novas funcionalidades multimodais, novas oportunidades de implementação em dispositivos móveis e outros dispositivos edge, recursos de segurança atualizados e muito mais.
Ao contrário de seus antecessores LLM somente de texto na série Llama, o Llama 3.2 11B e o Llama 3.2 90B expandiram seus recursos para incluir casos de uso de entrada e saída de imagem, como compreensão em nível de documento, interpretação de tabelas e gráficos e legendas de imagens. Agora, os desenvolvedores têm acesso a poderosos modelos de raciocínio visual que abordam os recursos avançados dos modelos fechados, ao mesmo tempo em que oferecem total flexibilidade e personalização dos modelos abertos.
Os novos LLMs de visão multimodais Llama 3.2 podem raciocinar em imagens de alta resolução de até 1120x1120 pixels, possibilitando seu uso em tarefas de visão computacional, incluindo classificação, detecção e identificação de objetos, transcrição de imagem em texto (incluindo escrita à mão) por meio de reconhecimento óptico de caracteres (OCR). , perguntas e respostas contextuais, extração e processamento de dados, comparação de imagens e assistência visual pessoal.
Essa abordagem à multimodalidade tem 3 principais benefícios.
Ambos os modelos funcionam bem em benchmark multimodal comum para modelos de linguagem de visão (VLMs), atingindo as melhores pontuações em modelos abertos e, muitas vezes, rivalizando com modelos fechados de última geração. Por exemplo, a visão Llama 3.2 90B-Vision ajustada corresponde ao GPT-4o da OpenAI em compreensão de gráficos (ChartQA) e supera tanto o Claude 3 Opus da Anthropic quanto o Gemini 1.5 Pro do Google na interpretação de diagramas científicos (AI2D).1
Da mesma forma, o Llama 3.2 11B-Vision alcançou pontuações de benchmark competitivas para sua categoria, superando o Gemini 1.5 Flash 8B em perguntas e respostas visuais de documentos (DocVQA), ficando à frente do Claude 3 Haiku e do Claude 3 Sonnet em AI2D, ChartQA e raciocínio matemático visual (MathVista), e acompanhando o Pixtral 12B e o Qwen2-VL 7B em perguntas e respostas visuais gerais (VQAv2).2
A coleção Llama 3.2 também inclui variantes com parâmetros 1B e 3B, representando os menores modelos Llama até então.
Seu pequeno tamanho de modelo e os requisitos de computação e memória modestos permitem que o Llama seja executado localmente na maioria dos hardwares, inclusive em dispositivos edge e outros dispositivos móveis. Isso confere ao Llama 3.2 1B e ao Llama 3.2 3B o potencial de desencadear uma onda de inovação em aplicações locais e IA agêntica. Embora existam muitas vantagens nesses modelos compactos e de alto desempenho, talvez as duas mais importantes sejam:
Executados localmente, esses modelos leves do Llama 3.2 podem servir como agentes econômicos para coordenar aplicativos no dispositivo, incluindo RAG, resumo multilíngue e delegação de subtarefas. Eles também podem ser usados para reduzir o custo de implementar modelos de segurança como o Llama Guard— uma nova versão multimodal do qual também está incluída na versão de hoje da Meta e disponível no watsonx.
Ambos os novos modelos leves do Llama superam seu peso nos benchmarks de desempenho, particularmente aqueles relacionados às principais tarefas de IA agêntica. Por exemplo, o Llama 3.2 3B iguala o maior Llama 3.1 8B no uso de ferramentas (BFCL v2) e o supera em sumarização (TLDR9+), com o 1B rivalizando tanto em tarefas de resumo quanto de reescrita. Em um indicativo revelador de quão avançados os LLMs abertos evoluíram em pouco tempo, o Llama 3.2 3B superou significativamente o GPT-4 original no benchmark MATH.
Com a disponibilidade cada vez maior de modelos de IA poderosos, construir uma vantagem competitiva usando apenas soluções prontas para uso se tornará cada vez mais difícil. Os modelos abertos do Llama concorrem até mesmo com os modelos mais poderosos em benchmarks de desempenho, além de oferecerem personalização, transparência e flexibilidade que não são possíveis com modelos fechados.
O suporte ao Llama 3.2 faz parte do compromisso da IBM de promover a inovação de código aberto na IA e fornecer aos nossos clientes acesso aos melhores modelos abertos da categoria no watsonx, incluindo modelos de terceiros e a família de modelos IBM Granite.
O IBM watsonx ajuda a permitir que os clientes realmente personalizem a implementação de modelos open source como o Llama 3.2, desde total flexibilidade nos ambientes de implantação até fluxos de trabalho intuitivos para ajuste fino, engenharia prompt e integração com aplicações empresariais. Crie facilmente aplicações de IA personalizadas para o seu negócio, gerencie todas as fontes de dados e acelere fluxos de trabalho de IA responsáveis, tudo em uma única plataforma.
Os seguintes modelos estão disponíveis hoje no IBM watsonx.ai:
A eles se juntarão os modelos pré-treinados do Llama 3.2 nas próximas semanas. Todos os modelos “-Instruct” passaram por ajuste fino supervisionado (SFT) e aprendizado por reforço com feedback humano (RLHF) para melhor alinhamento com casos de uso comuns e preferências humanas de ajuda e segurança, respectivamente.
