Qu’est-ce que le cycle de vie de l’IA ?

Le cycle de vie de l’IA, explication

Le cycle de vie de l’IA est un processus structuré et itératif de planification, d’entraînement, de déploiement et de maintenance des systèmes d’IA. Cela implique non seulement l’entraînement de modèles de machine learning, mais aussi la collecte et la préparation des données d’entraînement, des systèmes d’évaluation et d’amélioration de la performance des modèles, ainsi que l’intégration des modèles entraînés à des applications d’IA réelles.

Le cycle de vie de l’IA englobe tout, de la décision initiale de résoudre un problème donné avec l’intelligence artificielle à l’utilisation active d’un modèle entraîné dans un workflow réel. La notion de cycle de vie de l’IA est étroitement liée aux disciplines MLOps (opérations de machine learning) et AIMS (systèmes de gestion de l’IA), qui impliquent toutes deux des approches systématiques du développement, de la gouvernance et de la maintenance de l’IA.

Au cœur du concept de cycle de développement de l’IA réside le fait que les solutions d’IA ne sont ni conçues ni déployées en vase clos : ce sont des systèmes dynamiques, dont l’efficacité durable dépend d’une planification minutieuse et d’une surveillance rigoureuse. Il existe des dépendances essentielles entre chaque étape du processus de développement et de mise en œuvre de l’IA. Comprendre ces dépendances est essentiel pour créer des solutions alimentées par l’IA qui soient performantes, évolutives et durables.

Cet article va analyser chacune des étapes essentielles du cycle de vie de l’IA.

Définition du problème

La première et sans doute la plus importante phase de gestion du cycle de vie de l’IA est la phase de planification, au cours de laquelle vous identifiez le cas d’utilisation de votre application d’IA : le problème que vous souhaitez résoudre avec l’IA, et les tâches spécifiques que l’IA peut accomplir pour le résoudre. Toute décision ultérieure doit se référer aux décisions prises au cours du processus de planification.

Il est essentiel d’être minutieux et de prendre en compte toutes les éventualités. Passer outre certaines considérations ne permet pas d’économiser ses efforts ; cela ne fait que les reporter et les exacerber. Toutes les parties prenantes doivent être incluses et consultées lors de la phase de planification, à la fois pour tirer avantage de leur expertise ou point de vue, et pour garantir un consensus sur la manière dont les choses se dérouleront par la suite.

  • Définir la portée de votre projet d’IA. Quels sont les aspects de votre problème que votre solution d’IA pourra résoudre ou auxquels elle pourra contribuer ? Quels aspects sont hors portée ?

  • Définir vos besoins. Concernant les aspects problématiques pour lesquels vous ferez appel à l’IA, qu’avez-vous vraiment besoin qu’elle fasse ? Il est important de comprendre ce qui est réalisable et ce qui ne l’est pas, qu’il s’agisse des capacités d’IA existantes ou des ressources disponibles pour poursuivre ce projet.

  • Définir la réussite. Sur le plan qualitatif et (surtout) quantitatif, qu’est-ce qui constitue un résultat satisfaisant ? Établir tôt les indicateurs de réussite permet d’orienter les décisions de conception et de régir le développement et l’optimisation de votre système d’IA.

  • Évaluer les risques. Identifiez les impacts négatifs que votre solution d’IA, telle qu’elle a été définie jusque-là, pourrait avoir sur votre entreprise ou sur vos utilisateurs. Les risques d’ordre éthique, réputationnel et financier doivent être signalés et abordés avant de passer à la phase de collecte des données, d’autant plus qu’une gestion inadéquate des données est souvent à l’origine de ces risques.

Collecte et préparation des données

D’un point de vue technique, la qualité et la quantité de vos données d’entraînement constituent le facteur le plus important pour la solidité de vos modèles d’IA. 

Collecte des données

Il faut savoir que tout machine learning repose sur la reconnaissance des schémas appliqués. Un modèle de machine learning entraîné utilise les schémas qu’il a « appris » à partir de ses données d’entraînement pour déduire la sortie optimale pour une entrée donnée. Une qualité de données suffisante est nécessaire pour garantir que les schémas qu’il apprend correspondent à ceux des nouvelles données, sur lesquelles il effectuera des inférences dans l’application réelle. Un volume de données suffisant est nécessaire pour s’assurer que le modèle a appris tous les schémas dont il aura besoin, et pour éviter le surapprentissage

Évaluez les sources de données pertinentes dont vous disposez, qu’il s’agisse de jeux de données open source disponibles sur des plateformes telles que Hugging Face ou Kaggle, du web scraping ou des données propriétaires de votre entreprise. Lorsque les données de qualité sont trop rares ou trop chères, les données synthétiques peuvent parfois combler les lacunes.

Préparation des données

Les données brutes sont rarement prêtes pour le machine learning : elles requièrent généralement un certain degré de prétraitement avant d’être utilisées dans les pipelines d’entraînement des modèles. L’ingénierie des caractéristiques joue un rôle important dans ce processus.

L’apprentissage supervisé nécessite l’étiquetage des données, ce qui requiert souvent un certain degré d’intervention humaine manuelle, qui prend du temps (bien que l’automatisation puisse souvent rationaliser le processus). L’étiquetage dans certains domaines spécialisés nécessitera de l’expertise. Même les jeux de données contenant des données pré-étiquetées doivent être inspectés pour garantir l’exactitude et la pertinence des étiquettes par rapport à votre cas d’utilisation.

Les données tirées de différentes sources doivent être normalisées et uniformisées en termes d’unités et de formats : par exemple, l’entraînement d’un modèle sur des données météorologiques présentées à la fois en Celsius et en Fahrenheit conduira inévitablement à l’échec. 

Gouvernance des données

Les données ne doivent pas être simplement supprimées après l’entraînement des modèles. Elles doivent être stockées et conservées au cas où vous auriez besoin d’auditer votre système, d’explorer les problèmes de performance, de reproduire vos modèles ou de respecter les exigences réglementaires du RGPD ou d’autres cadres similaires.

Une bonne gouvernance des données est essentielle pour assurer l’explicabilité de l’IA, la protection des données et de la conformité réglementaire, en particulier dans les secteurs et les cas d’utilisation impliquant des données sensibles. C’est également une composante nécessaire pour établir des pipelines de données afin de rationaliser l’approvisionnement évolutif en données, surtout lorsque votre workflow d’IA utilise des données propriétaires constamment mises à jour.

Sélection du modèle

Vient ensuite la sélection du modèle : il s’agit de choisir l’architecture de modèle qui correspond le mieux à votre cas d’utilisation, à vos données d’entraînement et à vos ressources informatiques. Il existe une large gamme d’algorithmes de machine learning, des modèles de régression petits et simples aux réseaux de neurones massifs et de pointe. Le modèle le plus grand et le plus sophistiqué n’est pas toujours le choix le plus judicieux : il existe des tâches pour lesquelles les énormes modèles d’apprentissage profond sont excessifs, et même des tâches sur lesquelles les modèles de machine learning conventionnels surpassent leurs homologues d’apprentissage profond.

En ce qui concerne l’IA générative, entraîner les LLM et autres types de modèles génératifs à partir de zéro nécessite un investissement massif en temps, en données, en matériel et en énergie. Dans la plupart des cas, il est préférable de répondre au besoin d’avoir un modèle génératif personnalisé en affinant un modèle pré-entraîné. Mais même dans le monde des modèles prêts à l’emploi, il existe un large éventail de tailles, d’architectures et de capacités.

Les évaluations benchmark sont utiles pour déterminer quels modèles sont bons dans quels domaines, mais elles ne doivent pas être considérées comme une référence absolue. Si votre problème est bien défini, il peut être intéressant d’étudier la possibilité de développer des benchmarks personnalisés qui reflètent directement la performance sur les tâches que le modèle devra accomplir. Cela sera également utile pour la phase ultérieure d’évaluation des modèles.

Entraînement des modèles

L’IA générative mise à part, la plupart des solutions d’IA impliquent l’entraînement de votre propre modèle. Notre fiche explicative sur l’entraînement des modèles fournit plus d’informations sur le processus de développement, des différents types de machine learning jusqu’au choix d’une fonction de perte (ou, dans l’apprentissage par renforcement, d’une fonction de récompense) et à l’optimisation des paramètres du modèle (et de ses hyperparamètres). Un certain degré d’expérimentation est généralement nécessaire afin d’arriver à l’architecture et au schéma d’apprentissage les plus adaptés.

En fin de compte, l’objectif lors de l’entraînement du modèle est d’ajuster ses paramètres jusqu’à ce que sa performance sur les exemples de son jeu de données d’entraînement atteigne un seuil de précision acceptable.

L’entraînement des modèles est un processus itératif, qui ne se déroule pas toujours de manière régulière ni linéaire. Il est important d’enregistrer périodiquement les « points de contrôle » des poids du modèle tout au long du processus d’entraînement. En l’absence d’un tel contrôle de version, une simple mise à jour du modèle peut s’avérer désastreuse et vous obliger à tout recommencer. Le contrôle de version est également indispensable pour assurer le débogage, la reproductibilité et la collaboration entre les équipes.

Évaluation du modèle

L’optimisation de la performance d’un modèle sur les données d’entraînement n’est pas en soi l’objectif fondamental de l’entraînement. Le véritable objectif de l’entraînement est de développer un modèle qui se généralise bien face à de nouvelles données, qu’il n’avait pas encore vues. Il faut veiller à éviter le surapprentissage, que l’on peut considérer comme l’équivalent en machine learning de« l’entraînement au test », plus proche de la mémorisation par cœur que d’une véritable « connaissance ». 

L’évaluation post-entraînement est essentielle pour vérifier que le modèle se généralise bien aux données inédites. Ce processus de validation teste la qualité des sorties du modèle sur un jeu de données distinct, contenant de nouvelles entrées qui ressemblent à des tâches réelles. La validation peut utiliser une plus grande variété d’indicateurs de performance que ceux adaptés aux fonctions de perte qui mesurent la précision du modèle pendant l’entraînement.

L’évaluation et l’entraînement des modèles constituent généralement les deux parties d’un cycle itératif : 

  • Tout d’abord, les modèles sont entraînés jusqu’à ce que la perte ou la récompense atteignent un seuil acceptable.

  • Ensuite, la performance du modèle est validée sur un nouvel ensemble de tâches, souvent en utilisant différents indicateurs de performance.

  • Si les résultats de l’évaluation ne sont pas satisfaisants, le modèle fait l’objet d’un entraînement complémentaire, généralement assorti d’ajustements stratégiques destinés à combler les lacunes identifiées lors de la phase de validation.

AI Academy

Devenir un expert en IA

Obtenez les connaissances nécessaires pour privilégier les investissements dans l’IA qui favorisent la croissance commerciale. Lancez-vous dès aujourd’hui avec notre AI Academy gratuite et menez l’avenir de l’IA au sein de votre organisation.

Déploiement de modèle

Une fois que le modèle a été entraîné et validé avec succès, il passe à la phase de déploiement, au cours de laquelle vous l’opérationnalisez dans un environnement de production et l’intégrez aux systèmes et aux API existants. Idéalement, la phase d’évaluation a permis de valider la performance du modèle sur des tâches qui utilisent, ou au moins se rapprochent de ces workflows réels.

De nombreuses configurations sont à prendre en compte pour le déploiement du modèle, mais la décision la plus importante est sans doute le type d’environnement de déploiement dans lequel il fonctionnera.

Environnements de déploiement

  • Déploiement sur site : le modèle est exécuté sur du matériel physique, généralement des accélérateurs d’IA, que vous (ou votre entreprise) possédez et gérez. C’est la solution qui offre le plus de contrôle, mais c’est aussi celle qui requiert l’investissement initial le plus important.

  • Déploiement cloud : le modèle fonctionne sur du matériel détenu et géré par des fournisseurs de cloud tiers, situés physiquement ailleurs, dans un grand centre de données. Le déploiement cloud est généralement la voie la plus rapide vers l’évolutivité. 

  • Déploiement edge : le modèle est déployé sur un réseau local distribué de « dispositifs edge » tels que les capteurs ou les appareils IdO (Internet des objets).

  • Déploiement sur appareil : le modèle est exécuté directement sur l’appareil de l’utilisateur final, comme un ordinateur portable ou un smartphone. 

Surveillance des modèles

Un modèle déployé peut rarement être considéré comme un produit inerte, « fini ». Une bonne gouvernance de l’IA implique une surveillance continue des indicateurs de performance des modèles et des retours des utilisateurs.

Dans une application réelle, il est presque inévitable que des problèmes imprévus et des cas extrêmes surviennent, peu importe la minutie avec laquelle vous planifiez, testez et utilisez la red team au préalable. En outre, même un modèle entraîné de manière optimale peut, au fil du temps, subir une dégradation de sa performance en raison de problèmes tels que la dérive.

Les modèles déployés nécessitent donc généralement d’être entraînés à nouveau périodiquement pour maintenir un niveau de performance adéquat et s’adapter à l’évolution des circonstances. Là encore, des schémas de versionnage bien pensés sont importants pour le débogage, la responsabilisation et une mise à jour sécurisée des systèmes critiques.

Auteur

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

  1. Découvrir watsonx.ai
  2. Réserver une démo en direct