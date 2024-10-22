La sortie de ChatGPT il y a deux ans a ouvert un nouveau chapitre dans le domaine de l’IA, grâce à des grands modèles de langage d’une taille et d’une complexité sans précédent. Ces modèles sont désormais une force motrice dans la recherche et les affaires, mais beaucoup d’entre eux ne publient pas leurs données, leur recette complète ni leurs points de contrôle. C’est là qu’intervient l’organisation à but non lucratif Allen Institute for Artificial Intelligence (Ai2). Ai2 a été fondée en 2014 par Paul Allen, cofondateur de Microsoft. Le groupe de recherche travaille sur des modèles de langage, des modèles multimodaux ainsi que des cadres d’évaluation dans le domaine de l’open source.
Récemment, Ai2 a lancé Molmo, une famille de modèles d’IA multimodale de pointe visant à réduire considérablement l’écart entre les systèmes ouverts et propriétaires. « Même nos modèles les plus petits surpassent nos concurrents dix fois plus grands », affirme Ai2.
Au début du mois de septembre, Ai2 a lancé OLMoE, un mélange d’experts avec 1 milliard de paramètres actifs et 7 milliards de paramètres au total, développé en collaboration avec Contextual AI. Il a été entraîné sur 5 000 milliards de tokens et développé à partir d’un nouveau mélange de données intégrant les enseignements tirés de Dolma d’Ai2.
Nous avons discuté avec Hanna Hajishirzi, directrice principale de la recherche en TALN chez Ai2, après son discours d’ouverture à la conférence PyTorch à San Francisco, afin d’évoquer les modèles open source et la maîtrise de l’IA.
Nous avons procédé à une mise à jour mineure d’OLMoE en septembre. Bien qu’il s’agisse d’un petit modèle, il fonctionne très bien pour de nombreuses tâches. Depuis, nous avons constaté un excellent accueil de la part de la communauté. Nous avons également créé une application qui exécute le modèle de langage directement sur les smartphones sans connexion à un GPU. Elle est encore en cours de développement (nous travaillons sur les fonctionnalités de sécurité et l’amélioration de l’interface utilisateur), mais elle est très prometteuse. Nous travaillons également à entraîner de plus grands modèles.
Il n’est pas surprenant que les modèles de type mélange d’experts fonctionnent bien, car nous les avons vus inclus dans les modèles de pointe. Leur avantage est qu’avec le même effort d’entraînement, ils offrent une plus grande précision que les modèles denses. Ce qui nous a intéressés, c’était de pousser cela à l’extrême et d’entraîner le plus petit modèle possible, par exemple à 1 milliard de paramètres, pour voir ce qui se passerait. Les résultats ont été très encourageants.
Comment y sommes-nous parvenus ? Tout d’abord, nous avons amélioré notre pipeline d’entraînement. Nous avons commencé avec une architecture de modèle dense, puis nous avons mené plusieurs expériences qui ont permis de l’étendre avec succès à un mélange d’experts. Ensuite, nous avons amélioré notre mélange de données, ce qui a permis d’obtenir un meilleur modèle. Ce sont ces deux éléments combinés qui ont donné les meilleurs résultats.
Le degré d’ouverture varie considérablement au sein de la communauté de l’IA. Par exemple, des modèles tels que ChatGPT d’OpenAI ont ouvert leurs API, mais qui sait ce qui se passe en coulisses ?
Tout cela semble très sophistiqué, mais ce manque de transparence va à l’encontre de la promotion de la maîtrise de l’IA. Le public ne comprend pas vraiment pourquoi ces modèles se comportent ainsi. Tout cela semble magique, car ils semblent s’améliorer.
La communauté de l’IA doit commencer à divulguer davantage d’informations sur les modèles opaques et à expliquer pourquoi ils donnent certaines réponses. Par exemple, elle pourrait expliquer qu’un modèle réagit d’une certaine manière parce qu’il détecte des schémas spécifiques dans ses données d’entraînement.
Il est essentiel d’éduquer le public à ce sujet. Bien qu’il soit difficile de relier des décisions spécifiques à des points de données d’une manière accessible au grand public, la création de démonstrations illustrant ce processus aurait une réelle incidence.
Tout-à-fait ! C’est l’un des axes principaux de notre projet : nous souhaitons publier à la fois les poids des modèles et les données d’entraînement.
À l’aide de nos modèles OLMo et OLMoE, les chercheurs de la communauté travaillent sur la manière dont les décisions des modèles sont liées aux données. Notre jeu de données ouvert, Dolma, a permis aux chercheurs de l’analyser, ce qui a donné lieu à des publications expliquant comment des points de données spécifiques contribuent au comportement des modèles. Cette transparence contribuerait également à informer le public.
Je vais répondre à cette question sous deux angles. Tout d’abord, lorsque nous avons lancé ce projet, nous avons remis en question la validité des chiffres communiqués par certaines entreprises. Nous voulions nous assurer que ces chiffres ne provenaient pas de tests ou de benchmarks sélectifs. Cela témoigne du niveau de confiance au sein de la communauté des chercheurs.
Pour notre modèle, c’est simple, car nous donnons accès à nos données et montrons comment nos modèles sont évalués. Cette transparence permet de comprendre clairement ce que contiennent les données et comment les modèles sont entraînés. Nous publions également divers points de contrôle, qui correspondent à des étapes intermédiaires de l’entraînement. Les chercheurs peuvent utiliser ces points de contrôle pour observer l’évolution des connaissances et des améliorations au fil du temps. Certains exploitent déjà nos points de contrôle pour étudier cette évolution.
Enfin, une approche similaire s’applique en matière de confiance du public. Beaucoup de gens pensent que les modèles de langage ne font qu’halluciner. En reliant leurs résultats aux données d’entraînement et en expliquant les processus décisionnels, nous pouvons renforcer leur fiabilité. Bien que nous n’en soyons pas encore là, l’amélioration de la transparence de nos données d’entraînement offre des possibilités significatives pour renforcer la confiance du public.
Je pense que l’IA open source est essentielle pour permettre et accélérer la science des modèles de langage. Nous avons fait d’énormes progrès dans la recherche et le développement des modèles de langage grâce à la recherche scientifique ouverte, et nous devons poursuivre nos efforts afin de maintenir l’IA open source active.
