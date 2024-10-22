La sortie de ChatGPT il y a deux ans a ouvert un nouveau chapitre dans le domaine de l’IA, grâce à des grands modèles de langage d’une taille et d’une complexité sans précédent. Ces modèles sont désormais une force motrice dans la recherche et les affaires, mais beaucoup d’entre eux ne publient pas leurs données, leur recette complète ni leurs points de contrôle. C’est là qu’intervient l’organisation à but non lucratif Allen Institute for Artificial Intelligence (Ai2). Ai2 a été fondée en 2014 par Paul Allen, cofondateur de Microsoft. Le groupe de recherche travaille sur des modèles de langage, des modèles multimodaux ainsi que des cadres d’évaluation dans le domaine de l’open source.

Récemment, Ai2 a lancé Molmo, une famille de modèles d’IA multimodale de pointe visant à réduire considérablement l’écart entre les systèmes ouverts et propriétaires. « Même nos modèles les plus petits surpassent nos concurrents dix fois plus grands », affirme Ai2.

Au début du mois de septembre, Ai2 a lancé OLMoE, un mélange d’experts avec 1 milliard de paramètres actifs et 7 milliards de paramètres au total, développé en collaboration avec Contextual AI. Il a été entraîné sur 5 000 milliards de tokens et développé à partir d’un nouveau mélange de données intégrant les enseignements tirés de Dolma d’Ai2.

Nous avons discuté avec Hanna Hajishirzi, directrice principale de la recherche en TALN chez Ai2, après son discours d’ouverture à la conférence PyTorch à San Francisco, afin d’évoquer les modèles open source et la maîtrise de l’IA.