My IBM Se connecter S’abonner

Qu’est-ce qu’un modèle IA ?

Qu’est-ce qu’un modèle IA ?

Un modèle IA désigne un programme qui a été entraîné sur un ensemble de données pour identifier certains schémas ou effectuer certaines décisions sans intervention humaine ultérieure. Les modèles d’intelligence artificielle appliquent différents algorithmes aux entrées de données pertinentes afin de réaliser les tâches, ou les résultats, pour lesquels ils ont été programmés.

En termes simples, un modèle IA est défini par sa capacité à prendre des décisions ou à faire des prédictions de manière autonome, plutôt que de simuler l’intelligence humaine. Parmi les premiers modèles IA à succès, citons les programmes de jeu de dames et d’échecs du début des années 1950 : ils permettaient aux programmes d’effectuer des mouvements en réponse directe à l’adversaire humain, plutôt que de suivre une série de mouvements préprogrammés.

Différents types de modèles IA sont mieux adaptés à des tâches ou à des domaines spécifiques, pour lesquels leur logique de prise de décision particulière est la plus utile ou la plus pertinente. Les systèmes complexes utilisent souvent plusieurs modèles simultanément, en utilisant des techniques d’apprentissage en ensemble telles que le bagging, le boosting ou le stacking.

À mesure que les outils d’IA deviennent de plus en plus complexes et polyvalents, leur formation et leur exécution nécessitent des quantités de données et une puissance de calcul de plus en plus difficiles. En réponse, les systèmes conçus pour exécuter des tâches spécifiques dans un seul domaine cèdent la place à des modèles de fondation, pré-entraînés sur de grands jeux de données non étiquetées et capables d’une large gamme d’applications. Ces modèles de fondation polyvalents peuvent ensuite être adaptés à des tâches spécifiques.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Algorithmes vs modèles

Bien que les deux termes soient souvent utilisés de manière interchangeable dans ce contexte, ils ne signifient pas tout à fait la même chose.

  • Les algorithmes sont des procédures, souvent décrites en langage mathématique ou en pseudocode, à appliquer à un jeu de données pour atteindre une fonction ou un objectif donné.
  • Les modèles sont le résultat d’un algorithme appliqué à un jeu de données.

En termes simples, un modèle IA est utilisé pour faire des prédictions ou prendre des décisions et un algorithme est la logique selon laquelle ce modèle IA fonctionne.

AI Academy

Choisissez le modèle IA adapté à votre cas d’utilisation

Quand il s’agit de modèles IA, voir grand n’est pas toujours la meilleure idée. Découvrez comment trouver la solution adaptée aux besoins de votre entreprise. Téléchargez ensuite notre guide pour vous aider à passer à l’action.

Modèles IA et machine learning

Les modèles IA peuvent automatiser la prise de décision, mais seuls les modèles capables de machine learning (ML) sont en mesure d’optimiser de manière autonome leurs performances au fil du temps.

Tous les modèles de ML relèvent de l’IA, mais l’IA n’implique pas forcément le ML. Les modèles IA les plus élémentaires sont constitués d’une série d’instructions « si-alors-sinon », dont les règles sont programmées explicitement par un data scientist. Ces modèles sont également appelés moteurs de règles, systèmes experts, diagrammes de connaissances ou IA symbolique.

Les modèles de machine learning utilisent l’IA statistique plutôt que l’IA symbolique. Alors que les modèles IA basés sur des règles doivent être explicitement programmés, les modèles ML sont « entraînés » en appliquant leurs cadres mathématiques à un échantillon de données dont les points de données servent de base aux futures prédictions du modèle dans le monde réel.

Les techniques de modèles de ML peuvent généralement être classées en trois grandes catégories : apprentissage supervisé, apprentissage non supervisé et apprentissage par renforcement.

  • Apprentissage supervisé : également connu sous le nom de machine learning « classique », l’apprentissage supervisé nécessite un expert humain pour étiqueter les données d’entraînement. Un data scientist qui forme un modèle de reconnaissance d’images pour reconnaître les chiens et les chats doit étiqueter les images d’échantillon comme « chien » ou « chat », ainsi que les fonctionnalités principales, comme la taille, la forme ou la fourrure, qui informent ces étiquettes primaires. Le modèle peut ensuite, lors de l’entraînement, utiliser ces étiquettes pour déduire les caractéristiques visuelles typiques de « chien » et de « chat ».
  • Apprentissage non supervisé : contrairement aux techniques d’apprentissage supervisé, l’apprentissage non supervisé ne suppose pas l’existence externe de « bonnes » ou de « mauvaises » réponses et ne nécessite donc pas d’étiquetage. Ces algorithmes détectent des modèles inhérents aux jeux de données pour regrouper les points de données en clusters et établir des prédictions. Par exemple, les entreprises de commerce électronique comme Amazon utilisent des modèles d’association non supervisés pour alimenter les moteurs de recommandation.
  • Apprentissage par renforcement : dans l’apprentissage par renforcement, un modèle apprend de manière holistique, selon la méthode essai-erreur, grâce à la récompense systématique des sorties correctes (ou à la pénalisation des sorties incorrectes). Les modèles de renforcement sont impliqués dans les suggestions sur les réseaux sociaux, le trading algorithmique et même les voitures autonomes.

L’apprentissage profond est un sous-ensemble plus évolué de l’apprentissage non supervisé dont la structure des réseaux neuronaux tente d’imiter celle du cerveau humain. Plusieurs couches de nœuds interconnectés ingèrent progressivement des données, extraient des caractéristiques principales, identifient les relations et affinent les décisions dans un processus appelé propagation avant. Un autre processus appelé rétropropagation applique des modèles qui calculent les erreurs et ajustent les poids et les biais du système en conséquence. La plupart des applications d’IA avancées, comme les grands modèles de langage (LLM) qui alimentent les chatbots modernes, utilisent l’apprentissage profond. Cela nécessite d’énormes ressources de calcul.

Modèles génératifs et modèles discriminatifs

L’une des façons de différencier les modèles de machine learning est leur méthodologie fondamentale : la plupart peuvent être classés comme génératifs ou discriminants. La différence réside dans la façon dont ils modélisent les données dans un espace donné.

Modèles génératifs

Les algorithmes génératifs, qui impliquent généralement un apprentissage non supervisé, modélisent la distribution des points de données, dans le but de prédire la probabilité conjointe P(x,y) d’un point de données donné apparaissant dans un espace particulier. Un modèle de vision par ordinateur génératif pourrait ainsi identifier des corrélations telles que « des objets qui ressemblent à des voitures ont généralement quatre roues » ou « il est peu probable que les yeux apparaissent au-dessus des sourcils ».

Ces prédictions peuvent servir de base à la production de résultats que le modèle considère comme hautement probables. Par exemple, un modèle génératif entraîné sur des données textuelles peut optimiser l’orthographe et les suggestions de saisie semi-automatique. Au niveau le plus complexe, il peut générer du texte entièrement nouveau. En gros, lorsqu’un LLM produit du texte, il calcule une forte probabilité que cette séquence de mots soit assemblée en réponse à l’invite qui lui a été donnée.

Parmi les autres cas d’utilisation fréquents des modèles génératifs, citons la synthèse d’images, la composition musicale, le transfert de style et la traduction.

Voici quelques exemples de modèles génératifs :

  • Modèles de diffusion : les modèles de diffusion ajoutent progressivement du bruit gaussien aux données d’entraînement jusqu’à ce qu’elles soient méconnaissables, puis apprennent un processus inversé de « débruitage » qui permet de synthétiser le résultat (généralement des images) à partir d’un bruit de départ aléatoire.
  • Auto-encodeurs variationnels (VAE) : les VAE se composent d’un encodeur qui comprime les données d’entrée et d’un décodeur qui apprend à inverser le processus et à mapper la distribution probable des données.
  • Modèles transformateurs : les modèles transformateurs utilisent des techniques mathématiques appelées « attention » ou « attention personnelle » pour identifier l’influence réciproque des différents éléments d’une série de données. Le « GPT » dans Chat-GPT d’OpenAI signifie « Generative Pretrained Transformer » (transformer génératif préentraîné).

Modèles discriminatifs

Les algorithmes discriminants, qui impliquent généralement un apprentissage supervisé, modélisent les frontières entre les classes de données (ou « limites de décision »), dans le but de prédire la probabilité conditionnelle P(y|x) qu’un point de données spécifique (x) appartienne à une certaine classe (y). Un modèle de vision par ordinateur discriminant peut faire la différence entre « voiture » et « pas une voiture » en identifiant quelques différences clés (comme « s’il n’a pas de roues, ce n’est pas une voiture »), ce qui lui permet d’ignorer de nombreuses corrélations qu’un modèle génératif doit prendre en compte. Les modèles discriminants ont donc tendance à nécessiter moins de puissance de calcul.

Les modèles discriminatifs sont naturellement bien adaptés aux tâches de classification telles que l’analyse des sentiments, mais ils ont de nombreuses utilisations. Par exemple, les modèles d’arbre de décision et de forêt aléatoire décomposent les processus de prise de décision complexes en une série de nœuds, dans lesquels chaque « feuille » représente une décision de classification potentielle.

Cas d’utilisation

Bien que les modèles discriminants ou génératifs puissent généralement être plus performants dans certains cas d’utilisation du monde réel, de nombreuses tâches peuvent être accomplies avec l’un ou l’autre type de modèle. Par exemple, les modèles discriminatifs offrent de nombreuses utilisations pour le traitement automatique du langage naturel (NLP) et sont souvent plus performants que l’IA générative pour des tâches telles que la traduction automatique (qui implique la génération de texte traduit).

De même, des modèles génératifs peuvent être utilisés pour la classification en utilisant le théorème de Bayes. Plutôt que de déterminer de quel côté d’une limite de décision se trouve une instance (comme le ferait un modèle discriminant), un modèle génératif pourrait déterminer la probabilité que chaque classe génère l’instance et choisir celle dont la probabilité est la plus élevée.

De nombreux systèmes d’IA utilisent les deux. Dans un réseau antagoniste génératif, par exemple, un modèle générateur génère des données d’échantillon tandis qu’un modèle discriminateur détermine si ces données sont « réelles » ou « fausses ». La production du modèle discriminateur est utilisée pour entraîner le générateur jusqu’à ce que le discriminateur ne puisse plus identifier les « fausses » données générées.

Modèles de classification et modèles de régression

On classe aussi les modèles en fonction de la nature des tâches pour lesquelles ils sont utilisés. La plupart des algorithmes de modèles IA classiques effectuent soit de la classification , soit de la régression. Certains s’adaptent aux deux, et la plupart des modèles de fondation exploitent ces deux types de fonctions.

Cette terminologie peut parfois prêter à confusion. Par exemple, la régression logistique est un modèle discriminant utilisé pour la classification.

Modèles de régression

Les modèles de régression prédisent des valeurs continues (comme le prix, l’âge, la taille ou le temps). Ils sont principalement utilisés pour déterminer la relation entre une ou plusieurs variables indépendantes (x) et une variable dépendante (y) : étant donné x, prédire la valeur de y.

  • Des algorithmes tels que la régression linéaire et des variantes connexes telles que la régression quantile sont utiles pour des tâches telles que les prévisions, l’analyse de l’élasticité de la tarification et l’évaluation des risques.
  • Des algorithmes tels que la régression polynomiale et la régression par vecteur de support (SVR) modélisent des relations non linéaires complexes entre les variables.
  • Certains modèles génératifs, comme l’auto-régression et les auto-encodeurs variationnels, prennent en compte non seulement les relations corrélatives entre les valeurs passées et futures, mais aussi les relations causales. Cela les rend particulièrement utiles pour la prévision des scénarios météorologiques et des événements climatiques extrêmes.

Modèles de classification

Les modèles de classification prédisent des valeurs discrètes. De ce fait, ils sont principalement utilisés pour l’identification des étiquettes appropriées ou pour la catégorisation (c’est-à-dire la classification). Il peut s’agir d’une classification binaire, comme « oui ou non », « Accepter ou rejeter », ou d’une classification multiclasse (un moteur de recommandation qui suggère un produit A, B, C ou D, par exemple).

Les algorithmes de classification ont de nombreuses utilisations, qu’il s’agisse de la simple catégorisation, de l’automatisation de l’extraction de caractéristiques dans les réseaux d’apprentissage profond ou des avancées dans le domaine de la santé, telles que la classification des images diagnostiques en radiologie.

En voici quelques exemples :

  • Bayes naïf : un algorithme d’apprentissage supervisé génératif couramment utilisé dans le filtrage des spams et la classification des documents.
  • Analyse discriminante linéaire : utilisée pour résoudre le chevauchement contradictoire entre plusieurs caractéristiques qui ont un impact sur la classification.
  • Régression logistique : prédit des probabilités continues qui sont ensuite utilisées comme proxy pour les plages de classification.

Entraînement des modèles IA

En matière de machine learning, l’« apprentissage » consiste à entraîner des modèles sur des échantillons de données. Les tendances probabilistes et les corrélations identifiées dans ces échantillons de jeux de données sont ensuite appliquées aux performances de la fonction du système.

Dans le cadre de l’apprentissage supervisé et semi-supervisé, ces données d’entraînement doivent être soigneusement étiquetées par des data scientists afin d’optimiser les résultats. Si l’extraction des fonctionnalités est correcte, l’apprentissage supervisé nécessite globalement moins de données de formation que l’apprentissage non supervisé.

Idéalement, les modèles de ML sont entraînés sur des données réelles. Intuitivement, cela permet de s’assurer que le modèle reflète les circonstances du monde réel qu’il est destiné à analyser ou reproduire. Mais cela n’est pas toujours possible, pratique ou optimal.

Augmentation de la taille et de la complexité des modèles

Plus un modèle a de paramètres, plus il faut de données pour l’entraîner. À mesure de la croissance des modèles d’apprentissage profond, l’acquisition de ces données devient de plus en plus difficile. Ceci est particulièrement évident dans les LLM : GPT-3 d’Open-AI et le modèle BLOOM open source contiennent tous deux plus de 175 milliards de paramètres.

Malgré sa commodité, l’utilisation de données accessibles au public peut présenter des problèmes réglementaires, par exemple lorsque les données doivent être anonymisées, ainsi que des problèmes pratiques. Par exemple, les modèles de langage entraînés sur des fils de médias sociaux peuvent « apprendre » des habitudes ou des inexactitudes qui ne sont pas idéales pour une utilisation en entreprise.

Les données synthétiques offrent alors une solution alternative : un jeu plus petit de données réelles est utilisé pour générer des données d’entraînement très proches et éviter ainsi tout problème de confidentialité.

Élimination des biais

Les modèles de ML entraînés sur des données du monde réel absorberont inévitablement les biais sociétaux reflétés dans ces données. S’ils ne sont pas éliminés, ces biais se perpétueront et exacerberont les inégalités dans tous les domaines où ces modèles sont utilisés, tels que les soins de santé ou le recrutement. La recherche en science des données a permis d’élaborer des algorithmes comme FairIJ et des techniques d’affinement de modèles comme FairReprogram pour remédier aux inégalités inhérentes aux données.

Surajustement et sous-ajustement

On parle de surajustement quand un modèle de ML s’ajuste de trop près aux données d’entraînement, faisant apparaître des informations non pertinentes (ou du « bruit ») dans l’échantillon de données, qui affectent les performances du modèle. On parle de sous-ajustement quand l’effet inverse se produit : lorsque l’entraînement n’est pas approprié.

Modèles de fondation

Également appelés modèles de base ou modèles pré-entraînés, les modèles de fondation sont des modèles d’apprentissage profond préentraînés sur des jeux de données à grande échelle afin de découvrir des caractéristiques et des modèles généraux. Ils servent de points de départ pour être affinés ou adaptés à des applications d’IA plus spécifiques.

Plutôt que de créer des modèles à partir de zéro, les développeurs peuvent modifier les couches de réseaux neuronaux, ajuster les paramètres ou adapter les architectures pour répondre aux besoins spécifiques d’un domaine. Ajouté à l’étendue et à la profondeur des connaissances et de l’expertise d’un modèle vaste et éprouvé, cela permet d’économiser beaucoup de temps et de ressources dans la formation du modèle. Les modèles de fondation permettent ainsi d’accélérer le développement et le déploiement des systèmes d’IA.

Le réglage fin de modèles pré-entraînés pour des tâches spécialisées a récemment fait place à la technique de l’optimisation des invites, qui introduit des signaux frontaux dans le modèle afin de le guider vers le type de décision ou de prédiction souhaité.

Selon David Cox, co-directeur du MIT-IBM Watson AI Lab, le redéploiement d’un modèle d’apprentissage profond entraîné (plutôt que l’entraînement ou le réentraînement d’un nouveau modèle) peut réduire la consommation d’ordinateur et d’énergie de plus de 1 000 fois, ce qui permet d’économiser des coûts considérables1.

Tester les modèles IA

Des tests sophistiqués sont essentiels à l’optimisation, car ils permettent de déterminer si un modèle est bien entraîné pour accomplir la tâche prévue. Différents modèles et tâches se prêtent à différents indicateurs et différentes méthodologies.

Validation croisée

Pour tester la performance d’un modèle, il convient de disposer d’un groupe de contrôle. En effet, évaluer un modèle à partir des données sur lesquelles il a été entraîné peut conduire à un surajustement. Dans la validation croisée, une partie des données d’entraînement est écartée ou rééchantillonnée pour créer ce groupe de contrôle. Il est aussi possible d’utiliser des méthodes non exhaustives telles que la validation croisée en k blocs, par holdout et Monte Carlo, ou des méthodes exhaustives comme la validation croisée leave-p-out.

Indicateurs des modèles de classification

Ces indicateurs courants intègrent des valeurs de résultat discrètes telles que les vrais positifs (TP), les vrais négatifs (TN), les faux positifs (FP) et les faux négatifs (FN).

  • La précision est le rapport entre les prédictions correctes et les prédictions totales : (TP+TN) / (TP+TN+FP+FN). Cette méthode n’est pas adaptée aux jeux de données déséquilibrés.
  • Précision mesure la fréquence à laquelle les prévisions positives sont exactes : TP/(TP+FP).
  • Le recall mesure la fréquence à laquelle les positifs sont capturés : TP/(TP+FN).
  • Le score F1 est la moyenne harmonique de la précision et du rappel : (2×Précision×Rappel)/(Précision+Rappel). Il équilibre les compromis entre la précision (qui encourage les faux négatifs) et le recall (qui encourage les faux positifs).
  • Une matrice de confusion représente visuellement le niveau de confiance (ou de confusion) de votre algorithme pour chaque classification potentielle.

Indicateurs des modèles de régression2

Comme les algorithmes de régression prédisent des valeurs continues plutôt que des valeurs discrètes, ils sont évalués par différents indicateurs où « N » représente le nombre d’observations. Les indicateurs suivants sont couramment utilisés pour évaluer les modèles de régression.

  • L’erreur absolue moyenne (MAE) mesure la différence moyenne entre les valeurs prédites (ypred) et les valeurs réelles (yactual) en termes absolus : ∑(ypred -yactual) / N.
  • L’erreur quadratique moyenne (MSE) correspond à l’erreur moyenne pour pénaliser agressivement les données aberrantes : ∑(ypred – yactual)2 / N.
  • L’erreur quadratique moyenne (RSME) mesure les écarts types dans la même unité que les résultats : √ (∑(ypred - yactual)2 /N).
  • L’erreur moyenne absolue en pourcentage (MAPE) exprime l’erreur moyenne en pourcentage, comme son nom l’indique.

Déploiement de modèles IA

Le déploiement et l’exécution d’un modèle IA nécessitent un dispositif informatique ou un serveur doté d’une puissance de traitement et d’une capacité de stockage suffisantes. L’absence de planification adéquate des pipelines IA et des ressources informatiques peut avoir pour conséquence que des prototypes par ailleurs réussis ne parviennent pas à se déplacer au-delà de la phase de validation du concept.

  • Les frameworks de machine learning open source comme PyTorch, Tensorflow et Caffe2 permettent d’exécuter des modèles de ML avec quelques lignes de code.
  • Les unités centrales de traitement (CPU) constituent une source efficace de puissance de calcul pour l’apprentissage d’algorithmes qui ne nécessitent pas de parallélisme étendu.
  • Les unités de traitement graphique (GPU) ont une plus grande capacité de traitement parallèle, ce qui les rend mieux adaptées aux énormes jeux de données et à la complexité mathématique des réseaux neuronaux d’apprentissage profond.
Solutions connexes

Solutions connexes

Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les modèles d’IA IBM Granite
Notes de bas de page

1 « What is prompt tuning? », IBM Research, 15 février 2023.

2 « Machine learning model evaluation », Geeksforgeeks.org, 2022.