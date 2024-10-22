O lançamento do ChatGPT há 2 anos abriu um novo capítulo na IA, impulsionado por grandes modelos de linguagem de tamanho e complexidade sem precedentes. Esses modelos são agora uma força de liderança em pesquisa e negócios, mas muitos deles não divulgam seus dados, a receita de negociação completa ou seus pontos de verificação. É aí que entra a organização sem fins lucrativos Allen Institute for Artificial Intelligence (Ai2). A Ai2 começou em 2014, fundada pelo cofundador da Microsoft Paul Allen. O grupo de pesquisa trabalha com modelos de linguagem, modelos multimodais e frameworks de avaliação em código aberto.

Recentemente, a Ai2 lançou o Molmo, uma família de modelos de IA multimodal de última geração com o objetivo de fechar significativamente a lacuna entre sistemas abertos e proprietários. "Até nossos modelos menores superam os concorrentes em 10 vezes seu tamanho", diz Ai2.

No início de setembro, a Ai2 lançou o OlmoE, uma combinação de modelos de especialistas com 1 bilhão de parâmetros ativos e 7 bilhões de parâmetros no total que foi desenvolvido em conjunto com a IA contextual. Ele foi treinado com 5 trilhões de tokens e construído sobre uma nova mistura de dados incorporando lições da Ai2’s Dolma.

Conversamos com Hanna Hajishirzi, Diretora Sênior de Pesquisa de PLN da Ai2, após sua palestra na conferência PyTorch em São Francisco para discutir modelos de código aberto e conhecimento em IA.