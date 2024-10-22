O lançamento do ChatGPT há 2 anos abriu um novo capítulo na IA, impulsionado por grandes modelos de linguagem de tamanho e complexidade sem precedentes. Esses modelos são agora uma força de liderança em pesquisa e negócios, mas muitos deles não divulgam seus dados, a receita de negociação completa ou seus pontos de verificação. É aí que entra a organização sem fins lucrativos Allen Institute for Artificial Intelligence (Ai2). A Ai2 começou em 2014, fundada pelo cofundador da Microsoft Paul Allen. O grupo de pesquisa trabalha com modelos de linguagem, modelos multimodais e frameworks de avaliação em código aberto.
Recentemente, a Ai2 lançou o Molmo, uma família de modelos de IA multimodal de última geração com o objetivo de fechar significativamente a lacuna entre sistemas abertos e proprietários. "Até nossos modelos menores superam os concorrentes em 10 vezes seu tamanho", diz Ai2.
No início de setembro, a Ai2 lançou o OlmoE, uma combinação de modelos de especialistas com 1 bilhão de parâmetros ativos e 7 bilhões de parâmetros no total que foi desenvolvido em conjunto com a IA contextual. Ele foi treinado com 5 trilhões de tokens e construído sobre uma nova mistura de dados incorporando lições da Ai2’s Dolma.
Conversamos com Hanna Hajishirzi, Diretora Sênior de Pesquisa de PLN da Ai2, após sua palestra na conferência PyTorch em São Francisco para discutir modelos de código aberto e conhecimento em IA.
Fizemos um pequeno lançamento para o OLMoE em setembro. Apesar de ser um modelo pequeno, ele tem um desempenho muito bom em muitas tarefas. Desde então, temos visto uma grande recepção da comunidade. Também criamos um aplicativo que executa o modelo de linguagem diretamente em smartphones sem se conectar a uma GPU. Ainda está em andamento, estamos trabalhando em funcionalidades de segurança e na melhoria da IU, mas é empolgante. Também estamos trabalhando no treinamento de modelos maiores.
Não é surpresa que a mistura de modelos de especialistas funcione bem como os vimos incluídos nos modelos de fronteira. O benefício de uma mistura de especialistas é que, com o mesmo esforço de treinamento, você obtém maior precisão em comparação com modelos densos. O que foi interessante para nós foi levar isso ao extremo e treinar o menor modelo que pudéssemos, como um modelo de 1 bilhão de parâmetros, para ver o que acontece. Ficamos empolgados com os resultados.
Então, como chegamos lá? Primeiro, melhoramos nosso pipeline de treinamento. Começamos com uma arquitetura de modelo densa, fizemos vários experimentos estendendo-o com sucesso à mistura de modelos de especialistas. Em segundo lugar, fizemos melhorias em nossa combinação de dados, o que levou a um modelo melhor. Juntas, essas duas coisas nos deram os melhores resultados.
Há uma grande variedade de abertura na comunidade de IA. Por exemplo, modelos como o ChatGPT da OpenAI abriram suas APIs, mas quem sabe o que está acontecendo a portas fechadas?
Tudo parece muito sofisticado, mas essa falta de transparência é o oposto de promover conhecimento em IA. O público não tem uma compreensão real de por que esses modelos se comportam dessa maneira. Tudo parece mágica à medida que esses modelos parecem melhorar.
A comunidade de IA precisa começar a liberar mais informações sobre modelos opacos e explicar por que eles dão certas respostas. Por exemplo, eles podem explicar que um modelo responde de determinada maneira porque encontra padrões específicos em seus dados de treinamento.
Educar o público sobre isso é essencial. Embora seja desafiador conectar decisões específicas a pontos de dados de uma forma fácil para o público entender, criar demonstrações que showcase esse processo seria realmente impactante.
Exatamente! Esse é um foco significativo do nosso projeto: pretendemos liberar tanto os pesos do modelo quanto os dados de treinamento.
Usando nossos modelos OLMo e OLMoE, pesquisadores da comunidade estão trabalhando em como as decisões do modelo se conectam aos dados. Nosso conjunto de dados aberto, Dolma, permitiu que os pesquisadores o analisassem, levando a publicações que explicam como pontos de dados específicos contribuem para o comportamento do modelo. Essa transparência também ajudaria a informar o público.
Posso abordar isso a partir de duas perspectivas. Primeiro, quando começamos esse projeto, questionamos a validade dos números relatados por algumas empresas. Queríamos garantir que esses números não fossem derivados de conjuntos de testes ou referências seletivas. Isso destaca um nível de confiança dentro da comunidade de pesquisa.
Para o nosso modelo, é simples, porque fornecemos acesso aos nossos dados e demonstramos como nossos modelos são avaliados. Essa transparência deixa claro o que há nos dados e como os modelos são treinados. Também lançamos vários pontos de verificação, que são estágios intermediários de treinamento. Os pesquisadores podem usar esses pontos de verificação para observar como o conhecimento e as melhorias se desenvolvem ao longo do tempo. E alguns pesquisadores já estão aproveitando nossos checkpoints para estudar essa evolução.
Finalmente, em termos de confiança pública, uma abordagem semelhante se aplica. Muitas pessoas acreditam que os modelos de linguagem simplesmente alucinam. Ao conectar as produções aos dados de treinamento e explicar os processos de tomada de decisão, podemos aumentar a confiabilidade. Embora ainda não estejamos lá, melhorar a transparência sobre nossos dados de treinamento oferece oportunidades significativas para gerar confiança pública.
Acredito que a IA de código aberto é essencial para habilitar e acelerar a ciência dos modelos de linguagem. Fizemos muito progresso em pesquisa e desenvolvimento em modelos de linguagem devido à pesquisa científica aberta, e devemos continuar nos esforços para manter ativa a IA de código aberto.
