Qu’est-ce que l’IA open source ?

Livre ouvert avec une lumière éclatante qui se répand dans toutes les directions

Qu’est-ce que l’IA open source ?

L’IA open source désigne les systèmes d’intelligence artificielle pouvant être utilisés, examinés, modifiés et distribués aux fins souhaitées, sans avoir à en demander l’autorisation.

Ces libertés correspondent à la définition de l’IA open source établie par l’Open Source Initiative (OSI), que l’on considère à l’échelle mondiale comme le garant des principes et des politiques open source.1

L’essor de l’IA générative a contribué à catalyser l’ère de l’IA open source. Selon un rapport publié par Economist Impact, les deux tiers des grands modèles de langage (LLM) (catégorie de modèles de fondation couramment utilisés pour concevoir des applications d’IA générative comme les chatbots et les assistants de codage) publiés en 2023 étaient open source.2

IA open source vs logiciels open source

Pour qu’un logiciel soit considéré comme open source, chacun doit pouvoir utiliser, étudier, modifier et redistribuer son code source comme il le souhaite, généralement gratuitement. Cependant, le champ d’action de l’IA open source est bien plus large que celui des logiciels open source.

Les systèmes d’IA englobent non seulement les modèles d’IA, mais aussi les jeux de données utilisés pendant leur entraînement, les pondérations et paramètres des modèles et le code source. Ce dernier comprend le code pour filtrer et traiter les données d’entraînement, le code pour l’entraînement et le test, toutes les bibliothèques de support, ainsi que le code d’inférence pour exécuter le modèle. Tous ces composants doivent respecter les conditions de l’IA open source et être mis à disposition selon ces dernières.

La définition de l’IA open source de l’OSI permet d’exclure les données d’entraînement non publiques et non partageables telles que les données personnelles (PII).3 Pour ce type de données, une description détaillée doit être fournie, précisant leur provenance, leurs caractéristiques et leur portée, la manière dont elles ont été collectées et sélectionnées, les procédures d’étiquetage, ainsi que les méthodes de traitement et de filtrage.4

IA open source et pondérations ouvertes

Les pondérations sont les paramètres centraux des modèles pré-entraînés. Elles sont apprises pendant l’entraînement et déterminent la manière dont le modèle interprète les nouvelles données et établit des prévisions.

Les pondérations ouvertes sont partagées publiquement et généralement disponibles sous licence open source, donnant un aperçu de l’état final des modèles d’apprentissage profond. Bien qu’elles représentent une avancée vers la transparence de l’IA, les pondérations ouvertes n’offrent toujours pas une image complète comme le fait l’IA open source. Sans les données ou le code d’entraînement, les autres ne peuvent ni examiner ni recréer le processus d’entraînement.

Avantages de l’IA open source

Dans le cadre d’une récente étude menée par IBM, plus de 80 % des décideurs informatiques interrogés ont déclaré qu’au moins un quart des plateformes ou des solutions d’IA de leur entreprise étaient open source. Et les entreprises qui exploitent les écosystèmes open source ont plus de chances de réaliser un retour sur investissement positif.

En plus de générer un retour sur investissement, l’IA open source offre ces avantages clés :

    ● Accessibilité

    ● Innovation collaborative

    ● Rentabilité

    ● Personnalisation

    ● Transparence

Accessibilité

L’IA open source élimine les obstacles à l’entrée, en particulier pour les nouveaux utilisateurs. En outre, elle facilite l’accès aux entreprises qui ne sont pas en mesure d’investir des ressources financières importantes dans le développement d’IA, telles que les petites entreprises ou celles ne disposant pas de compétences spécialisées.

Innovation collaborative

La communauté est au cœur de l’open source : les développeurs d’IA, les chercheurs, les entreprises et autres parties prenantes travaillent ensemble pour améliorer en permanence les technologies d’IA. Cet effort collectif favorise l’apprentissage et le partage, permet de compléter le travail des autres et stimule l’innovation.

Rentabilité économique

Les modèles d’IA open source sont généralement gratuits. Cela permet aux entreprises d’économiser sur les coûts initiaux qu’elles devraient engager si elles développaient et entraînaient leurs propres modèles ou si elles se les procuraient auprès de fournisseurs à source fermée avec des tarifs d’abonnement ou des frais de licence élevés.

Personnalisation

Les entreprises peuvent modifier les systèmes d’IA open source à leur guise, ce qui leur donne un plus grand contrôle. Elles peuvent adapter ces systèmes à leurs besoins et cas d’utilisation particuliers, en affinant les modèles d’IA open source sur leurs propres données et en les optimisant pour réaliser les tâches souhaitées.

Transparence

La nature ouverte de l’IA open source favorise sa transparence. Savoir comment un système d’IA a été créé et entraîné et comment il prend ses décisions permet de gagner en assurance et de susciter la confiance, en particulier dans les secteurs où les résultats de l’IA peuvent impacter des vies, comme la santé, les ressources humaines et le système judiciaire.

Cette transparence facilite également la détection des bogues, l’identification des biais et la détection des failles de sécurité que les développeurs d’IA doivent rapidement corriger. En outre, la visibilité sur le fonctionnement interne de l’IA open source permet aux décideurs politiques de mieux contrôler des secteurs tels que l’administration publique et la finance, où la conformité réglementaire est primordiale.

Défis de l’IA open source

Malgré ses nombreux avantages, l’IA open source présente certaines limites. Voici quelques défis associés à l’IA open source :

    ● Absence d’un support dédié ou fourni en temps opportun.

    ● Mauvaise utilisation possible

    ● Vulnérabilités

Manque de soutien dédié ou opportun

Contrairement aux modèles propriétaires, les modèles d’IA open source s’accompagnent rarement de temps de réponse fixes pour les problèmes urgents, d’une équipe de support dédiée pour aider à résoudre les problèmes et de délais cohérents pour la publication des correctifs et des mises à jour de sécurité. Les entreprises doivent surveiller elles-mêmes leurs applications d’IA et créer leurs propres procédures de support.

Possibilité d’utilisation abusive

Comme tout le monde peut utiliser l’IA open source aux fins souhaitées, elle peut être utilisée à mauvais escient. Les acteurs de la menace peuvent utiliser l’IA open source pour automatiser les cyberattaques, générer des deepfakes ou diffuser des informations inexactes, voire fausses.

Vulnérabilités de sécurité

Si l’IA open source est transparente, sa visibilité expose des vulnérabilités que les acteurs malveillants peuvent exploiter. Là encore, il incombe aux entreprises d’établir des garde-fous autour de leurs solutions d’IA open source.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Exemples de modèles d’IA open source

Il existe une multitude de modèles d’IA open source, dont la plupart sont accessibles sur Hugging Face ou dans ses dépôts GitHub. Voici quelques-unes des plus connus :

    ● Amber

    ● Crystal

    ● DeepSeek-R1

    ● Falcon-7B et Falcon-40B

    ● Granite

    ● OLMo

    ● Pythia

    ● Qwen

    ● T5

Amber

Amber est un modèle de langage en anglais à 7 milliards de paramètres développé par LLM360, une initiative pour l’IA communautaire grâce à la recherche et au développement de grands modèles open source. Amber repose sur l’architecture Llama de Meta et est disponible sous licence Apache 2.0. Selon l’OSI, Amber est conforme à sa définition de l’IA open source.1

Crystal

Crystal est un autre grand modèle de langage proposé par LLM360, avec une taille de 7 milliards de paramètres. Il est publié sous licence Apache 2.0 et excelle dans la conciliation des tâches de codage et de traitement automatique du langage naturel (TAL). Selon l’OSI, Crystal est conforme à sa définition de l’IA open source.1

DeepSeek-R1

DeepSeek-R1 est un modèle de raisonnement open source proposé par DeepSeek, une start-up chinoise spécialisée dans l’IA. Il s’appuie sur une architecture de machine learning Mixture of Experts (MoE) et a été entraîné grâce à l’apprentissage par renforcement à grande échelle pour affiner ses capacités de raisonnement. Il est disponible sous licence MIT.

Falcon-7B et Falcon-40B

Falcon-7B et Falcon-40B sont des modèles de type causal à décodeur uniquement, avec respectivement 7 et 40 milliards de paramètres. Développés par des chercheurs du Technology Innovation Institute (TII), Émirats arabes unis, les deux ont été entraînés sur RefinedWeb, un énorme jeu de données Web en anglais filtrées par le TII. Falcon-7B et Falcon-40B sont disponibles sous licence Apache 2.0.

Granite

IBM® Granite est une série de modèles d’IA multimodale pour les entreprises. Ils sont construits sur une base de jeux de données d’instruction open source avec des licences permissives, ainsi que sur des jeux de données synthétiques élaborés en interne. Les modèles sont disponibles sous licence Apache 2.0.

Les modèles de fondation Granite se composent de petits modèles de langage dotés de capacités de raisonnement conçues pour les workflows agentiques, d’un modèle de vision spécialisé dans les tâches de vision pour la compréhension des documents et des images, de modèles vocaux pour la reconnaissance vocale et la traduction automatiques, et de modèles de code pour les tâches de génération de code.

OLMo

OLMo est une famille de modèles de langage développée par Ai2, un institut de recherche en intelligence artificielle à but non lucratif. Les modèles se déclinent en tailles de 1, 7, 13 et 32 milliards de paramètres. Les modèles, le code d’entraînement, la suite d’évaluation pour reproduire les résultats d’OLMo et les données d’entraînement utilisées à chaque phase (pré-entraînement, milieu et post-entraînement), sont tous disponibles gratuitement sous licence Apache 2.0. Selon l’OSI, OlMo est conforme à sa définition de l’IA open source.1

Pythia

Développé par le laboratoire de recherche à but non lucratif EleutherAI, Pythia est une suite de LLM allant de 14 millions à 12 milliards de paramètres et publiée sous licence Apache 2.0. Les données, codes, modèles et points de contrôle associés sont accessibles au public, de même que les instructions pour reproduire l’entraînement, dans le but d’améliorer l’interprétabilité, l’éthique et la transparence de l’IA. Selon l’OSI, Pythia est conforme à sa définition open source de l’IA.1

Qwen

Qwen est une série de LLM proposée par la société chinoise de cloud computing Alibaba Cloud. Qwen comprend des modèles de langage, un modèle de langage-vision et des variantes optimisées pour l’audio, le codage et les mathématiques. La plupart des modèles Qwen sont disponibles sous licence Apache 2.0, mais les plus grands modèles sont soumis à des licences propriétaires.

T5

T5 est un modèle transformer de transfert texte-texte développé par des chercheurs Google. Il excelle dans un large éventail de tâches TAL et est publié sous licence Apache 2.0. Selon l’OSI, T5 est conforme à sa définition de l’IA open source.1

L’OSI a également analysé Llama 2 de Meta, Phi-2 de Microsoft, Mixtral de Mistral et Grok de xAI, et a conclu que ces modèles ne respectaient pas sa définition de l’IA open source « parce qu’ils ne possèdent pas les composants requis et/ou que leurs accords juridiques sont incompatibles avec les principes de l’open source ».1

Outils et cadres d’IA open source

Travailler sur des projets d’IA open source peut s’avérer fastidieux. Voici quelques outils d’IA open source bien connus qui peuvent vous aider :

    ● Keras

    ● OpenCV

    ● PyTorch

    ● Scikit-learn

    ● TensorFlow

Keras

Keras est une interface de programmation d’application (API) écrite en Python pour construire, entraîner et évaluer les modèles d’apprentissage profond. Elle est compatible avec les cadres JAX, PyTorch et TensorFlow, et peut s’exécuter là-dessus.

OpenCV

OpenCV est une bibliothèque de vision par ordinateur open source gérée par l’Open Source Vision Foundation. OpenCV contient quelques 2 500 algorithmes optimisés pour les applications de vision en temps réel, notamment la reconnaissance et la classification d’images, la détection et le suivi d’objets.

PyTorch

PyTorch est un cadre initialement développé par Meta et désormais intégré à la Linux Foundation. Il prend en charge les réseaux de neurones dynamiques et l’accélération du GPU, s’intègre parfaitement aux bibliothèques et aux paquets Python, propose une interface intuitive et une surcharge minime.

Scikit-learn

Scikit-learn est un module Python pour le machine learning. Il propose des algorithmes pour la classification, le partitionnement et la régression, entre autres, ainsi que des outils pour le traitement de données, la sélection et l’évaluation de modèles, et la création de visualisations.

TensorFlow

TensorFlow est une plateforme permettant de construire et de déployer des modèles de machine learning. Créée par Google, elle contient une bibliothèque de jeux de données et de modèles, des API pour différents langages de programmation et des outils pour optimiser les workflows de machine learning. Elle dispose également d’une communauté open source solide, et aide les utilisateurs à développer leurs compétences en machine learning à travers des livres, des programmes sélectionnés et des cours en ligne.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise grâce à l’expertise de pointe d’IBM en matière d’IA et à son portefeuille de solutions.

Découvrir les solutions d’IA
Conseil et services en Intelligence Artificielle (IA)

IBM Consulting et ses services d'IA accompagnent les entreprises dans la redéfinition de leurs activités avec l'intelligence artificielle pour mener leur transformation.

Découvrir les services d’IA
Passer à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

1 The open source IA Definition 1.0, Open Source Initiative, consulté le 12 mai 2025

2 Open sourcing the AI revolution, Economist Impact, 2024

3 Answers to frequently asked questions, Open Source Initiative, 29 octobre 2024

4 The Open Source AI Definition - 1.0, Open Source Initiative, consulté le 12 mai 2025.