Pour qu’un logiciel soit considéré comme open source, chacun doit pouvoir utiliser, étudier, modifier et redistribuer son code source comme il le souhaite, généralement gratuitement. Cependant, le champ d’action de l’IA open source est bien plus large que celui des logiciels open source.

Les systèmes d’IA englobent non seulement les modèles d’IA, mais aussi les jeux de données utilisés pendant leur entraînement, les pondérations et paramètres des modèles et le code source. Ce dernier comprend le code pour filtrer et traiter les données d’entraînement, le code pour l’entraînement et le test, toutes les bibliothèques de support, ainsi que le code d’inférence pour exécuter le modèle. Tous ces composants doivent respecter les conditions de l’IA open source et être mis à disposition selon ces dernières.

La définition de l’IA open source de l’OSI permet d’exclure les données d’entraînement non publiques et non partageables telles que les données personnelles (PII).3 Pour ce type de données, une description détaillée doit être fournie, précisant leur provenance, leurs caractéristiques et leur portée, la manière dont elles ont été collectées et sélectionnées, les procédures d’étiquetage, ainsi que les méthodes de traitement et de filtrage.4