L’inférence de l’intelligence artificielle (IA) est la capacité des modèles d’IA entraînés à reconnaître des schémas et à tirer des conclusions à partir d’informations qu’ils n’ont jamais vues auparavant.
L’inférence IA est un élément clé du développement des technologies d’intelligence artificielle et soutient ses applications les plus innovantes, notamment l’IA générative, qui est le moteur de l’application à succès ChatGPT. Ces mêmes modèles d’IA s’appuient sur l’inférence pour imiter la façon dont les gens pensent, raisonnent et répondent aux requêtes.
Cette inférence repose sur l’entraînement d’un modèle d’IA avec des algorithmes de prise de décision à partir d’un large jeu de données. Les modèles d’IA reposent sur des algorithmes de prise de décision, entraînés grâce à des réseaux neuronaux, c’est-à-dire de grands modèles de langage (LLM) dont la structure s’apparente à celle du cerveau humain. Prenons l’exemple d’un modèle d’IA conçu pour la reconnaissance faciale : il peut être entraîné sur des millions d’images de visages. Au fur et à mesure, il apprend à identifier précisément des caractéristiques comme la couleur des yeux, la forme du nez et la couleur des cheveux, ce qui lui permet ensuite de reconnaître un individu sur une image.
L’inférence IA et le machine learning (ML), bien que proches, constituent deux étapes différentes du cycle de vie d’un modèle d’IA.
Sans un entraînement sur un jeu de données robuste et approprié à leur application, les modèles d’IA sont tout simplement inefficaces. Compte tenu de la nature sensible de la technologie et de l’attention médiatique dont elle fait l’objet1, les entreprises doivent faire preuve de prudence. Mais avec des applications qui couvrent de nombreux secteurs et offrent le potentiel de transformation numérique et d’innovation évolutive, ses avantages sont nombreux :
Si les avantages de l’inférence IA sont nombreux, cette technologie jeune et en plein essor n’est pas sans poser de problèmes. Voici quelques-uns des défis que les entreprises doivent relever avant d’investir dans l’IA :
L’inférence IA est un processus complexe qui implique d’entraîner un modèle d’IA sur des jeux de données appropriés jusqu’à ce qu’il puisse inférer des réponses exactes. Ce processus, très gourmand en ressources de calcul, requiert du matériel et des logiciels spécifiques. Avant d’examiner le processus d’entraînement des modèles d’IA pour l’inférence, explorons quelques-uns des matériels spécialisés qui le permettent :
Le processeur (CPU) est le principal composant fonctionnel d’un ordinateur. Dans l’entraînement et l’inférence IA, il exécute le système d’exploitation et aide à gérer les ressources de calcul nécessaires aux fins d’entraînement.
Les processeurs graphiques (GPU), des circuits électroniques conçus pour les graphiques informatiques et le traitement d’images haute performance, sont utilisés dans divers appareils, notamment les cartes vidéo, les cartes mères et les téléphones portables. Cependant, en raison de leurs capacités de traitement parallèle, ils sont également de plus en plus utilisés dans l’entraînement des modèles d’IA. Une méthode consiste à connecter plusieurs processeurs graphiques à un seul système d’IA pour augmenter la puissance de traitement de ce système.
Les réseaux de portes programmables in situ (FPGA) sont des accélérateurs d’IA hautement personnalisables qui nécessitent des connaissances spécialisées pour être reprogrammés à des fins spécifiques. Contrairement aux autres accélérateurs d’IA, les FPGA ont une conception unique qui convient à une fonction spécifique, souvent liée au traitement des données en temps réel, ce qui est essentiel pour l’inférence IA. Les FPGA sont reprogrammables au niveau matériel, ce qui permet un niveau de personnalisation plus élevé.
Les ASIC sont des accélérateurs d’IA conçus pour un objectif ou une workload spécifique, comme l’apprentissage profond dans le cas de l’accélérateur ASIC WSE-3 produit par Cerebras. Les ASIC aident les data scientists à accélérer les capacités d’inférence IA et à en réduire les coûts. Contrairement aux FPGA, ils ne peuvent pas être reprogrammés, mais comme ils sont construits dans un but unique, ils surpassent généralement les autres accélérateurs à usage plus général. À titre d’exemple, citons le Tensor Processing Unit (TPU) de Google, développé pour le machine learning sur réseaux neuronaux à l’aide du logiciel TensorFlow de Google.
Les entreprises qui envisagent d’investir dans des applications d’intelligence artificielle dans le cadre de leur transition numérique ont intérêt à bien comprendre les bénéfices et les enjeux de l’inférence IA. Pour celles qui ont étudié en profondeur ses différentes applications et qui sont prêtes à les mettre en pratique, voici cinq étapes pour mettre en place une inférence efficace :
Préparer les données est essentiel pour créer des modèles et des applications d’IA efficaces. Les entreprises peuvent créer des jeux de données pour l’entraînement des modèles d’IA à l’aide de données internes ou externes à leur organisation. Pour optimiser les résultats, une combination des deux est courante. Une autre étape clé de la constitution des données sur lesquelles votre IA s’entraînera est le nettoyage des données, c’est-à-dire la suppression des doublons et la résolution des problèmes de format.
Une fois le jeu de données constitué, l’étape suivante consiste à sélectionner le modèle d’IA approprié à votre application. Il existe des modèles de différents niveaux de complexité. Les plus complexes peuvent gérer davantage d’entrées et effectuer des inférences plus fines que les modèles plus simples. Lors de cette étape, il est important de bien définir vos besoins, car entraîner des modèles plus complexes peut s’avérer plus coûteux en temps, en argent et en ressources que former des modèles plus simples.
Afin d’obtenir les résultats escomptés d’une application d’IA, les entreprises doivent généralement effectuer de nombreuses sessions d’entraînement rigoureuses. À mesure que les modèles sont entraînés, la précision de leurs inférences s’améliore et la quantité de ressources de calcul nécessaires pour parvenir à ces inférences, comme la puissance de calcul et la latence, diminue. Plus le modèle apprend, plus il devient capable de faire des suppositions sur de nouvelles données à l’aide de ses connaissances. C’est une étape passionnante lors de laquelle vous pouvez voir votre modèle commencer à fonctionner comme prévu.
Avant de mettre votre modèle en service, il faut bien vérifier qu’il ne fait pas d’erreurs, qu’il n’est pas biaisé et qu’il respecte la confidentialité des données. Cette phase parfois appelée post-traitement consiste à créer un processus par étapes pour garantir l’exactitude de votre modèle. La phase de post-traitement est le moment de créer une méthodologie qui garantira que votre IA vous donne les réponses que vous souhaitez et fonctionne comme prévu.
Après un suivi rigoureux et un post-traitement, votre modèle d’IA est prêt à être déployé pour un usage professionnel. Cette dernière étape comprend la mise en œuvre de l’architecture et des systèmes de données qui permettront à votre modèle de fonctionner, ainsi que la création de procédures de gestion du changement pour former les parties prenantes sur l’utilisation de votre application d’IA dans leurs rôles quotidiens.
Selon le type d’application d’IA dont les entreprises ont besoin, il existe différents types d’inférence parmi lesquels elles peuvent choisir. Si une entreprise souhaite créer un modèle d’IA à utiliser avec une application de l’Internet des objets (IdO), l’inférence en streaming (avec ses capacités de mesure) est probablement le choix le plus approprié. Toutefois, si un modèle d’IA doit interagir avec des humains, l’inférence en ligne (avec ses capacités LLM) sera plus adaptée. Voici les trois catégories d’inférence IA, ainsi que les caractéristiques qui les distinguent.
L’inférence dynamique, ou inférence en ligne, représente le type d’inférence IA le plus rapide et est employée dans les applications LLM d’IA les plus populaires, comme ChatGPT d’OpenAI. Elle fournit des résultats et des prédictions immédiatement après qu’on les lui demande et nécessite ensuite une latence minimale et un accès rapide aux données pour fonctionner. Une autre spécificité de l’inférence dynamique se traduit par le fait que les résultats peuvent être fournis si rapidement qu’il n’y a pas le temps de les vérifier avant qu’ils n’arrivent à l’utilisateur final. Cela incite certaines entreprises à instaurer une couche de contrôle entre les résultats et l’utilisateur final dans un souci de qualité.
L’inférence par lots génère des prédictions d’IA hors ligne à l’aide de grands jeux de données. Avec une approche d’inférence par lots, les données préalablement collectées sont ensuite appliquées aux algorithmes ML. Même si l’inférence par lots n’est pas adaptée aux situations nécessitant des résultats en quelques secondes ou moins, elle est bien adaptée aux prédictions d’IA qui sont actualisées régulièrement durant la journée ou sur une semaine, comme les tableaux de bord de ventes ou de marketing, ou les évaluations de risques.
L’inférence par flux de données s’appuie sur un pipeline de données, généralement fourni par des mesures régulières de capteurs, et les alimente dans un algorithme qui utilise ces données pour effectuer des calculs et des prédictions en continu. Les applications IdO, comme l’IA employée pour surveiller une centrale électrique ou le trafic urbain à l’aide de capteurs connectés à Internet, reposent sur l’inférence par flux de données pour prendre leurs décisions.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.
Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.
Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.
Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Explorez les trois éléments clés d’une stratégie d’IA réussie : créer un avantage concurrentiel, étendre l’IA à l’ensemble de l’entreprise et faire progresser l’IA digne de confiance.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
1 « Why Companies Are Vastly Underprepared For The Risks Posed By AI », Forbes, 15 juin 2023
2 « Onshoring Semiconductor Production: National Security Versus Economic Efficiency », Council on Foreign Relations, avril 2024