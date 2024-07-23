Na terça-feira, 23 de julho, a Meta anunciou o lançamento da coleção Llama 3.1 de grandes modelos de linguagem (LLMs) multilíngues. O Llama 3.1 inclui modelos de IA generativa de código aberto de texto pré-treinado e ajustado para instruções em tamanhos de 8B, 70B e, pela primeira vez, parâmetros de 405B.
O Llama 3.1-405B, ajustado para instruções, que se considera o maior e mais poderoso modelo de linguagem código aberto disponível atualmente e competitivo com os melhores modelos proprietários do mercado, estará disponível na IBM watsonx.ai™ onde pode ser implementado na IBM Cloud, em um ambiente de nuvem híbrida ou no local.
O lançamento do Llama 3.1 segue o lançamento dos modelos Llama 3 em 18 de abril. No anúncio de lançamento que acompanha, a Meta afirmou que “[seu] objetivo no futuro próximo é tornar o Llama 3 multilíngue e multimodal, ter um contexto mais longo e continuar a melhorar o desempenho geral em todos os recursos de LLM, como raciocínio e codificação”.
O lançamento de hoje do Llama 3.1 demonstra um progresso significativo em direção a esse objetivo, desde o aumento drástico do comprimento do contexto até a expansão do uso de ferramentas e recursos multilíngues.
Em dezembro de 2023, Meta e IBM lançaram a AI Alliance em colaboração com mais de 50 membros fundadores e colaboradores globais. Reunindo Organizações líderes dos setores, startups, academia, pesquisa e Governo, a AI Alliance aspira a moldar a evolução da IA para melhor refletir as necessidades e a complexidade de nossas sociedades. Desde a sua fundação, a Alliance cresceu para mais de 100 membros.
Mais especificamente, a IA Alliance é dedicada a promover uma comunidade aberta que permite aos desenvolvedores e pesquisadores acelerar a inovação responsável, garantindo confiança, segurança, proteção, diversidade, rigor científico e competitividade econômica. Para isso, a Alliance apoia projetos que desenvolvem e implementam benchmarks e padrões de avaliação, ajudam a lidar com os desafios em toda a sociedade, apoiam a construção global de skills de IA e incentivam o desenvolvimento aberto da IA de maneiras seguras e benéficas.
O Llama 3.1 promove essa missão, fornecendo à comunidade global de IA uma família de modelos aberta e de última geração e um ecossistema de desenvolvimento para criar, experimentar e dimensionar de forma responsável novas ideias e abordagens. Juntamente com seus novos modelos poderosos, o lançamento inclui medidas robustas de segurança em nível de sistema, novas medidas de avaliação de cibersegurança e proteções de tempo de inferência atualizadas. Coletivamente, esses recursos incentivam a padronização do desenvolvimento e do uso de ferramentas de confiança e segurança para IA generativa.
Próximos modelos do Llama com "mais de 400 bilhões de parâmetros" foram discutidos no anúncio de abril do Llama 3, incluindo algumas avaliações preliminares do desempenho do modelo, mas o tamanho e as especificidades exatas não foram divulgados até o lançamento de hoje. Embora o Llama 3.1 represente grandes atualizações em todos os tamanhos de modelos, o novo modelo de código aberto 405B alcança uma paridade sem precedentes com os principais LLMs proprietários de código fechado.
Os números atualizados divulgados pela Meta hoje traçam um panorama abrangente de como o modelo 405B se stack em relação a outras ofertas de última geração. Veja como se compara aos principais LLMs em benchmarks comuns.[1]
Quando comparar o 405B com outros modelos de ponta, os benchmarks de desempenho não são o único fator a considerar. Ao contrário de seus pares de código fechado, acessíveis apenas através de uma API em que o modelo subjacente pode ser alterado sem aviso prévio, o Llama 3.1-405B é uma plataforma estável que pode ser desenvolvida, modificada e até mesmo executada no local. Esse nível de controle e previsibilidade é uma bênção para pesquisadores, empresas e outras entidades que valorizam a consistência e a reprodutibilidade.
A IBM, assim como a Meta, acredita que a disponibilidade de modelos abertos viáveis facilita produtos melhores e mais seguros, acelera a inovação e contribui para um mercado de IA mais saudável em geral. A escala e os recursos de um sofisticado modelo de código aberto de parâmetros 405B apresentam oportunidades únicas e casos de uso para Organizações de todos os portes.
Além do uso direto do modelo para inferência e geração de texto — que, dado seu tamanho e as demandas computacionais correspondentes, pode exigir quantização ou outros métodos de otimização para ser executado localmente na maioria das configurações de hardware — o 405B pode ser aproveitado para:
Para um lançamento bem-sucedido com os modelos Llama 3.1, a Meta IA "recomenda fortemente" o uso de uma plataforma que, como IBM watsonx, ofereça funcionalidades essenciais para avaliação de modelos, mecanismos de segurança e geração aumentada por recuperação (RAG).
O tão esperado modelo 405B pode ser o aspecto mais notável do lançamento do Llama 3.1, mas está longe de ser o único aspecto notável. Embora os modelos Llama 3.1 compartilhem a mesma arquitetura de transformação do Llama 3, eles representam várias atualizações significativas em relação às suas contrapartes do Llama 3 em todos os tamanhos de modelo.
Para todos os modelos Llama 3.1 pré-treinados e ajustados em instruções, o comprimento do contexto foi profundamente expandido de 8.192 tokens no Llama 3 para 128.000 tokens no Llama 3.1 — um aumento impressionante de 1.600%. Isso torna o comprimento de contexto do Llama 3.1 igual ao da versão do GPT-4o oferecido aos usuários corporativos, significativamente maior do que o do GPT-4 (ou a versão do GPT-4o no ChatGPT Free) e comparável à janela de 200.000 tokens oferecida por Claude 3. Como o Llama 3.1 pode ser implementado no hardware ou no provedor de nuvem de preferência do usuário, seu comprimento de contexto não está sujeito a redução temporária durante períodos de alta demanda. Da mesma forma, o Llama 3.1 geralmente não está sujeito a amplos limites de uso.
O comprimento de contexto de um modelo, também chamado de janela de contexto, refere-se à quantidade total de texto (em tokens) que um LLM pode considerar ou “lembrar” a qualquer momento. Quando uma conversa, documento ou base de código excede o comprimento máximo de contexto de um modelo, ele deve ser cortado ou resumido para que o modelo prossiga. A janela de contexto expandida do Llama 3.1 significa que os modelos do Llama agora podem realizar conversas muito mais longas sem esquecer detalhes e realizar ingestão de documentos ou amostras de código muito maiores durante o treinamento e a inferência.
Embora a conversão de texto em tokens não implique uma "taxa de troca" fixa de palavra para token, uma estimativa adequada seria de aproximadamente 1,5 tokens por palavra. A janela de contexto de 128.000 tokens do Llama 3.1, portanto, equivale a cerca de 85.000 palavras. O Tokenizer Playground no Hugging Face é uma maneira fácil de ver e experimentar como diferentes modelos tokenizam entradas de texto.
Os modelos do Llama 3.1 continuam aproveitando os benefícios do novo tokenizador lançado para o Llama 3, que codifica a linguagem com muito mais eficiência do que o Llama 2.
Em conformidade com sua abordagem responsável à inovação, a Meta tem sido cautelosa e minuciosa em sua abordagem à expansão do contexto. Vale ressaltar que esforços experimentais anteriores de código aberto produziram derivados do Llama com janelas de 128.000 tokens, ou até mesmo janelas de 1 milhão de tokens. Embora esses projetos sejam um excelente exemplo dos benefícios do compromisso da Meta com os modelos abertos, eles devem ser abordados com cautela: pesquisas recentes indicam que janelas de contexto muito longas "apresentam uma nova superfície de ataque rica para LLMs" na ausência de contramedidas rigorosas.
Felizmente, a versão do Llama 3.1 também inclui um novo conjunto de proteções de inferência. Juntamente com as versões atualizadas do Llama Guard e do CyberSec Eval, o lançamento conta com a introdução do Prompt Guard, que fornece filtragem direta e indireta de injeção de prompt. A Meta fornece mitigação adicional de riscos com o CodeShield, uma ferramenta robusta de filtragem de tempo de inferência projetada para evitar a introdução de código inseguro gerado por LLMs em sistemas de produção.
Como em qualquer implementação de IA generativa, é sempre aconselhável implementar modelos apenas em plataformas com medidas robustas de segurança e privacidade.
Os modelos Llama 3.1 pré-treinados e ajustados por instruções, de todos os tamanhos, agora serão multilíngues. Além do inglês, os modelos Llama 3.1 falam outros idiomas, incluindo espanhol, português, italiano, alemão e tailandês. A Meta observou que "algumas outras linguagens" ainda estão em validação pós-treinamento e podem ser lançadas no futuro.
Os modelos Llama 3.1 Instruct são ajustados para o "uso de ferramentas", o que significa que a Meta otimizou sua capacidade de interagir com determinados programas que complementam ou expandem os recursos do LLM. Isso inclui treinamento para gerar chamadas de ferramentas para ferramentas específicas de pesquisa, geração de imagens, execução de código e raciocínio matemático, bem como suporte para o uso de ferramentas zero-shot, ou seja, a capacidade de integrar-se facilmente com ferramentas não vistas anteriormente em treinamento.
O lançamento mais recente da Meta oferece uma oportunidade sem precedentes para ajustar e personalizar modelos generativos de IA de última geração para o seu caso de uso específico.
O suporte para Llama 3.1 faz parte do compromisso da IBMem promover a inovação em código aberto na área de IA e em fornecer aos nossos clientes acesso aos melhores modelos abertos da categoria no watsonx, incluindo modelos de terceiros e a família de modelos IBM granite.
O IBM watsonx ajuda os clientes a personalizar verdadeiramente a implementação de modelos de código aberto, como o Llama 3.1, da maneira que melhor se adapte às suas necessidades, desde a flexibilidade para implementar modelos localmente ou em seu ambiente de nuvem preferido até fluxo de trabalho intuitivos para fine-tuning, Engenharia de prompts e integração com aplicação. Crie facilmente aplicações de IA personalizadas para o seu negócio, gerencie todas as fontes de dados e acelere fluxos de trabalho de IA responsáveis, tudo em uma única plataforma.
O Llama 3.1-405B estará disponível no IBM watsonx.ai hoje, com os modelos 8B e 70B chegando em breve.
Comece hoje mesmo os tutoriais do RAG com o Llama 3.1-405B e o watsonx.ai:
[1] As avaliações de benchmark citadas para modelos proprietários são extraídas de figuras autorrelatadas da Anthropic em 20 de junho de 2024 (para Claude 3.5 Sonnet e Claude 3 Opus) e 4 de março de 2024 (para Claude 3 Sonnet e Haiku), OpenAI em 13 maio de 2024 (para modelos GPT) e Google Deepmind em maio de 2024 (para modelos Gemini).