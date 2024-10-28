IBM publie ses modèles Granite 3.0 en tant que logiciels open source sous la licence Apache 2.0, adoptant ainsi une approche sensiblement différente de celle des développeurs qui gardent leurs systèmes d'IA confidentiels. L’entreprise a construit ses modèles en utilisant des jeux de données publics tels que GitHub Code Clean et StarCoder, ce qui lui permet d’éviter les problèmes de droits d’auteur qui ont conduit à des poursuites contre des sociétés d’IA qui entraînent leurs modèles sur des contenus protégés, comme l’affaire en cours qui oppose News Corp à Perplexity.

La version inclut les modèles de langage 8B et 2B axés sur des tâches d’entreprise telles que la génération augmentée de récupération et la classification, ainsi que des variantes spécialisées pour l’instruction et la surveillance de la sécurité. Prenant en charge 116 langages de programmation et entraînés sur 3 à 4 téraoctets de tokens, les modèles sont disponibles via de multiples plateformes, notamment Hugging Face, GitHub et IBM watsonx.ai. Les modèles comportent de 3 à 34 milliards de paramètres et peuvent être utilisés pour la recherche et les applications commerciales sans restriction dans des versions nominalement « open source ».

« Disposer de cette diversité de pensée et contribuer à cet écosystème ouvert est une proposition bien plus intéressante que de garder nos modèles enfermés dans une boîte », explique Kate Soule, directrice du programme Data and Model Factory chez IBM Research. « Nous voulons que la communauté l’utilise. »

Le mouvement open source a également pris de l'ampleur en Europe, où Mistral AI s'est imposé comme un leader du secteur. La start-up basée à Paris a publié des modèles de plus en plus performants que les développeurs peuvent télécharger et modifier librement.

La stratégie open source crée un échange bidirectionnel : les entreprises partagent des modèles d'IA que seules les grandes entreprises peuvent se permettre de développer, tout en bénéficiant des connaissances de milliers de développeurs qui trouvent de nouvelles utilisations à cette technologie. Beaucoup affirment aujourd'hui que restreindre l'accès revient à passer à côté de cette innovation collective.

« Imaginez qu'il existe une petite modification innovante à apporter à l'architecture de votre modèle qui, même en laissant tout le reste inchangé, améliorerait considérablement les performances globales », explique Dave Bergmann, rédacteur principal chez IBM Think. « Si vous publiez votre modèle uniquement en tant que poids ouvert et refusez de divulguer des informations et le code de son architecture, vous pourriez ne jamais saisir cette opportunité. Mais si 20 000 personnes manipulent le code de votre modèle, quelqu'un finira par la repérer. »