Une passerelle d’IA est une plateforme middleware spécialisée qui facilite l’intégration, le déploiement et la gestion des outils d’intelligence artificielle (IA), y compris les grands modèles de langage (LLM) et autres services d’IA, dans les environnements d’entreprise.
Que les services d’IA soient des outils propriétaires construits en interne, ou déployés en tant que modèles tiers accessibles dans le cloud, les passerelles fournissent une couche unifiée et légère qui relie les applications et les modèles d’IA, et applique des politiques de gouvernance et de sécurité de manière cohérente sur tous les outils d’IA présents dans l’écosystème.
Alors que les passerelles d’API (interfaces de programmation d’application) traditionnelles permettent l’échange de données entre les clients et les services back-end, les passerelles d’IA sont conçues pour relever les défis liés aux workloads d’IA. Elles étendent les capacités des passerelles d’API pour inclure l’intégration et l’accès multi-modèles, le routage intelligent des workloads d’IA, l’équilibrage de charge dynamique, le suivi de la consommation de tokens et la limitation du débit, l’application des politiques de sécurité, et plus encore.
Les workloads d’IA d’enterprise peuvent, par exemple, exiger une infrastructure d’IA complexe, capable de prendre en charge les charges de calcul massives, en particulier pour l’apprentissage profond et l’entraînement des grands modèles. Les systèmes d’entreprise existants peuvent peiner à fournir la bande passante élevée et l’accès à faible latence dont les entreprises ont besoin pour gérer des modèles d’IA à l’échelle.
Les passerelles d’IA aident les équipes de développement à gérer plus facilement les architectures complexes pilotées par l’IA. Elles fournissent un point d’entrée unifié pour les interactions avec les modèles d’IA et s’appuient sur des API alimentées par l’IA pour orchestrer le flux de données, d’instructions et de politiques entre les applications et les systèmes d’IA. Cette fonctionnalité permet aux équipes de contrôler l’utilisation et l’accès aux différents modèles et workflows d’IA à partir d’une seule interface.
Ainsi, les passerelles d’IA contribuent à rationaliser l’accès aux écosystèmes de modèles d’IA. Elles permettent de réduire les frictions lors de l’intégration des modèles et de créer une structure de gouvernance centralisée pour faciliter l’adoption de l’IA à l’échelle de l’entreprise.
Les passerelles d’IA servent de ponts entre les systèmes d’IA et les applications utilisateurs finaux, centralisant le déploiement et la gouvernance des modèles d’IA.
Prenons l’exemple d’un outil de support client sur une plateforme de commerce électronique. L’outil utilise un grand modèle de langage (pour répondre aux requêtes des utilisateurs), un modèle d’analyse des sentiments (pour déterminer l’humeur des utilisateurs) et un modèle de reconnaissance d’images (pour analyser les pièces jointes que les utilisateurs envoient pendant les interactions). La passerelle d’API intervient entre les modèles et la plateforme pour orchestrer et rationaliser l’exécution des tâches back-end.
Par exemple, lorsqu’un utilisateur envoie une demande accompagnée d’une capture d’écran comme preuve d’achat, l’application envoie le message et la photo au point de terminaison de la passerelle d’IA. La passerelle achemine la partie texte vers le LLM, et la capture d’écran vers le modèle de reconnaissance d’images pour obtenir une réponse. Elle envoie également le message au modèle d’analyse des sentiments pour déterminer si l’utilisateur semble frustré ou en colère.
En cours de route, la passerelle d’IA permet de s’assurer que toutes les demandes sont authentifiées et qu’aucune donnée sensible ou privée n’est divulguée. Enfin, la passerelle fusionne les résultats de chaque modèle dans un format standardisé avant de les renvoyer au client.
Newsletter sectorielle
Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Les passerelles d’IA relient les systèmes et les applications d’IA, centralisent la gouvernance des modèles d’IA et aident les équipes à éviter une application fragmentée et incohérente des garde-fous. Pour fournir ces fonctionnalités, les passerelles d’IA doivent toutefois exécuter une série de fonctions clés.
Ces modèles incluent :
Les passerelles d’IA imposent un format d’API canonique et unifié pour optimiser l’intégration de plusieurs modèles d’IA aux applications qui les utilisent. Essentiellement, les passerelles permettent de simplifier l’intégration des modèles provenant de divers fournisseurs d’IA. Les définitions canoniques permettent aux API d’IA d’assurer le mappage vers plusieurs fournisseurs pour que les applications disposent d’une surface d’API cohérente, quel que soit le modèle ou outil d’IA déployé.
Les passerelles d’IA établissent un plan de contrôle central qui gère les requêtes applicatives entrantes, automatise les conversions de protocole et masque les différences entre les API des fournisseurs de modèles. Ainsi, les développeurs n’ont pas à reformater les requêtes manuellement. Elles centralisent les contrôles d’accès, les protocoles d’observabilité et de conformité, le suivi de l’utilisation et d’autres pratiques de gestion des modèles.
La gestion et l’orchestration des modèles consistent à la surveiller, à coordonner et à déployer systématiquement plusieurs modèles d’IA coexistant dans le même environnement. Ces processus, qui incluent, entre autres, la gestion du cycle de vie de bout en bout (y compris des tâches telles que la gestion des versions, le déploiement, la restauration et les mises à jour), l’allocation des ressources, la gestion des erreurs et la mise à l’échelle, permettent de s’assurer que les modèles fonctionnent bien ensemble au sein d’un système d’IA unifié.
Les passerelles optimisent la livraison et l’exécution des modèles d’IA, afin que les développeurs n’aient pas à se soucier des déploiements manuels ni des modèles obsolètes. Les passerelles d’IA servent également de points d’accès centraux qui acheminent les requêtes de données, gèrent l’authentification et appliquent des politiques à travers les modèles, les sources de données et les applications.
Par exemple, les passerelles permettent une sélection dynamique des modèles. En effet, elles sélectionnent et acheminent automatiquement les requêtes d’IA vers le modèle approprié selon le cas d’utilisation ou les conditions du système.
Les passerelles d’IA suivent en permanence la performance, l’utilisation et l’état des modèles d’IA, ainsi que le trafic lié à l’IA qu’ils gèrent, offrant ainsi une visibilité en temps réel. Les passerelles surveillent des indicateurs tels que le volume de requêtes, le temps de réponse, le taux d’erreur et l’accumulation des coûts à des niveaux granulaires (par utilisateur ou par application, par exemple).
Parce qu’elles servent de hubs de trafic d’IA, les passerelles unifient la surveillance de modèles et services d’IA, afin d’offrir une vue globale et centralisée de la performance du système (souvent, un tableau de bord). Elles aident également les développeurs à tenir des journaux détaillés de chaque requête et réponse IA, y compris les instructions de prompt, les sorties des modèles, la durée et le nombre de jetons utilisés, afin d’accélérer le dépannage, de renforcer les audits de conformité, ainsi que les mesures d’accountability.
De plus, les passerelles d’IA peuvent s’intégrer aux outils d’observabilité (comme OpenTelemetry) et aux plateformes d’orchestration de la sécurité, d’automatisation et de réponse pour automatiser les workflows d’alerte et de détection des incidents en cas de problème.
L’intégration des données consiste à extraire, à transformer et à charger les données provenant de diverses sources de données (bases de données, plateformes cloud, applications et autres systèmes) dans des entrepôts de données centralisés ou des data lakes, afin de normaliser les formats et de supprimer les silos.
Avec les passerelles d’IA, les développeurs peuvent connecter les sources de données et les fusionner dans des pipelines unifiés à des fins d’analyse prédictive et de Business Intelligence. Les passerelles permettent de préparer et d’introduire les données structurées et non structurées dans les modèles d’IA, de pré-traiter les requêtes entrantes et de normaliser les formats de données pour favoriser un entraînement des modèles et une génération d’inférences plus précis.
Elles peuvent également utiliser les capacités de machine learning (ML) pour optimiser le flux de données, détecter les anomalies et adapter le pipeline à l’évolution des schémas de données.
Les outils d’IA peuvent engendrer des risques considérables en matière de sécurité et de conformité. Les passerelles d’IA permettent de faire face à ces risques en fournissant des contrôles d’accès centralisés et des politiques de sécurité automatisées pour gérer le trafic de données entre les utilisateurs, les applications et les modèles d’IA.
À l’aide d’outils tels que des clés d’API, les passerelles d’IA restreignent l’accès aux données ou aux modèles d’IA en fonction des profils utilisateurs et de l’activité du réseau. Tout le trafic lié à l’IA doit passer par la passerelle.
Elles appliquent des protocoles de chiffrement renforcés pour les données en transit et au repos, afin de réduire le risque d’accès non autorisé et d’utilisation abusive. Les passerelles d’IA surveillent également l’activité du réseau en temps réel, grâce à des fonctionnalités telles que l’inspection approfondie des paquets et la détection des anomalies pour identifier et bloquer les activités malveillantes.
Les passerelles d’IA comprennent également plusieurs fonctions qui aident les entreprises à assurer leur conformité réglementaire. Les passerelles masquent les données personnelles ou confidentielles avant qu’elles ne parviennent aux modèles ou ne quittent l’entreprise. En outre, grâce au filtrage basé sur des règles et à l’évaluation du contenu, les passerelles garantissent que seules les données appropriées sont traitées par les modèles d’IA.
En matière d’IA et de ML, l’inférence est la capacité des modèles d’IA entraînés à reconnaître les schémas et à tirer des conclusions à partir d’informations qu’ils n’ont pas vues auparavant. La mise en service consiste à déployer les modèles d’IA entraînés et à les exposer (à l’aide d’API IA et d’autres interfaces), afin qu’ils puissent traiter les requêtes d’inférence dans un environnement de production.
Les passerelles d’IA utilisent un routage axé sur les modèles pour diriger les requêtes d’inférence vers l’instance de modèle appropriée. Cette fonctionnalité permet une inférence en temps réel mais aussi par lots, et aide les modèles à prioriser les tâches en fonction de leur criticité.
Pour favoriser un service évolutif, les passerelles offrent un équilibrage de charge adaptable aux workloads d’IA, ce qui peut s’avérer particulièrement utile pour les applications sensibles à la latence ou à haut débit. Elles assurent également un déploiement incrémentiel des nouvelles versions de modèle, en mappant modèles affinés et services sous-jacents pour faciliter la mise à jour et le retour en arrière.
Ces fonctionnalités aident les développeurs à fournir des sorties d’IA fiables et à faible latence pour une multitude de fonctions applicatives, des chatbots à l’aide à la décision.
Si la passerelle d’API et la passerelle d’IA sont toutes les deux des couches middleware qui gèrent le trafic entre les clients et les services back-end, elles diffèrent considérablement par leur objectif, leurs capacités et les types de workloads qu’elles gèrent.
Les passerelles d’API traditionnelles sont des outils de gestion qui servent de point d’entrée unique pour gérer et sécuriser le trafic API traditionnel. Elles offrent des capacités transversales essentielles telles que la gestion du trafic, la journalisation, la sécurisation et la gestion des versions, afin de faciliter la gestion et la mise à l’échelle des API.
Les passerelles d’API acheminent les requêtes de données et gèrent l’authentification, l’autorisation, la limitation du débit, la mise en cache, l’équilibrage de charge, la gestion des prompts et les processus de sécurité de base pour les API standard Web ou de microservice. Elles suppriment également les responsabilités d’intégration, afin que les développeurs puissent exposer les API et microservices sans avoir à gérer le réseau sous-jacent et l’infrastructure de sécurité.
Les passerelles d’IA sont essentiellement des passerelles d’API spécialisées pour les modèles et les services d’IA. Elles gèrent les flux de requêtes IA et orchestrent les interactions avec les services d’IA (par exemple, les nouvelles tentatives de requête et le retour en arrière des modèles). Elles fournissent une couche de contrôle spécialement conçue pour les workloads d’IA et les interactions avec les LLM, l’IA générative, les agents IA et d’autres systèmes d’IA.
Outre les fonctions de routage et de sécurité de base, les passerelles d’IA offrent des fonctionnalités avancées telles que l’inspection sémantique des prompts et des réponses, la gestion du trafic multimodal (texte, voix, images), l’ajustement dynamique des politiques et les services de gestion des coûts, ainsi que le masquage des données (pour des raisons de confidentialité).
De nombreux environnements informatiques modernes associent passerelles d’API et passerelles d’IA. Contrairement aux passerelles d’API, les passerelles d’IA sont spécialement conçues pour répondre aux besoins uniques en matière de gestion des données, de sécurité, d’observabilité et de maîtrise des coûts des applications, des workflows et des environnements pilotés par l’IA.
Les modèles de déploiement définissent les différentes façons dont les passerelles d’IA gèrent les modèles et les services d’IA à travers les diverses configurations d’infrastructure. Ils déterminent l’emplacement des passerelles d’IA et la manière dont elles gèrent l’acheminement du trafic, la sécurité, la mise à l’échelle et la gouvernance des workloads d’IA.
Voici quelques exemples de modèles de déploiement :
Dans le cas d’un déploiement à l’échelle mondiale, la passerelle utilise l’infrastructure du fournisseur de services cloud pour acheminer dynamiquement les requêtes vers les centres de données ou les points de terminaison du modèle, le tout avec une disponibilité optimale et une latence minime.
Les passerelles d’IA sont déployées dans certaines zones de données ou régions géographiques pour garantir que le traitement des données s’effectue conformément aux réglementations en matière de résidence des données et de protection de la vie privée en vigueur dans les différentes régions.
Les passerelles s’exécutent avec une capacité de traitement réservée, ce qui permet un débit élevé et prévisible pour les demandes d’inférence des modèles d’IA. Cette approche de déploiement est adaptée aux workloads dont la demande est importante et constante.
Les passerelles d’IA font abstraction des complexités sous-jacentes du déploiement en acheminant les requêtes, en équilibrant leur charge et en les transférant vers le back-end de modèle approprié. Cela permet un accès unifié aux modèles d’IA hébergés sur différents clouds ou par différents fournisseurs.
Des passerelles d’IA petites et légères sont déployées parallèlement aux applications ou services pour offrir un modèle de déploiement qui réduit les sauts de réseau et permet des politiques de personnalisation par service. Les micro-passerelles sont fréquemment utilisées dans les architectures de microservices.
Dans le cas d’un déploiement de passerelles à deux niveaux, la passerelle centrale est complétée par des micro-passerelles plus proches d’un service ou d’une équipe. Cette approche améliore l’évolutivité et localise le trafic, tout en permettant un contrôle centralisé des politiques et une observabilité à partir de la passerelle principale.
Les passerelles d’IA sont déployées comme proxy sidecar aux côtés des services de modèle d’IA au sein d’un seul et même conteneur ou pod (dans les environnements Kubernetes). Le déploiement de sidecars relie étroitement les passerelles aux services d’IA pour garantir un contrôle précis du routage, de la sécurité et de la surveillance pour chaque service.
Le recours aux outils et aux services d’IA comporte des risques importants.
Les outils d’IA s’appuient fortement sur les API pour accéder aux données provenant de sources externes, déployer les workflows et interagir avec les applications et les services. Chaque intégration d’API est potentiellement un point d’entrée pour les attaquants. Comme elles ne suivent pas toujours des schémas d’utilisation d’API prévisibles, les fonctions alimentées par l’IA peuvent involontairement divulguer des données sensibles ou propriétaires et étendre considérablement la surface d’attaque.
En effet, un seul point de terminaison d’API compromis ou mal configuré peut accorder l’accès à plusieurs systèmes back-end et jeux de données sensibles, permettant aux cybercriminels de se déplacer latéralement au sein de l’architecture et d’accroître leurs privilèges.
En outre, la plupart des outils d’IA s’exécutent sur des LLM (par exemple, (les modèles GPT d’OpenAI ou les modèles Claude d’Anthropic), ce qui leur permet d’hériter des vulnérabilités du fournisseur. Si un attaquant intègre des instructions malveillantes dans les prompts ou dans les sources de données fiables (telles que les fichiers de configuration, la documentation ou les tickets d’assistance), l’outil peut exécuter à son insu des actions préjudiciables lorsqu’il traite le prompt.
Les passerelles d’IA aident les équipes de développement à faire face à ces risques et défis comme suit :
Les passerelles d’IA constituant une technologie plus récente, les développeurs trouvent de nouveaux moyens de maximiser leur efficacité.
Par exemple, pour prendre en charge les workloads sensibles à la latence et localisées (comme celles des véhicules autonomes et des dispositifs médicaux), les développeurs se tournent de plus en plus vers un déploiement des passerelles d’IA en périphérie du réseau. Le déploiement edge s’appuie sur des outils d’IA légers et optimisés pour la périphérie, qui permettent de générer des inférences locales et aident les équipes à déplacer les services cloud vers les serveurs edge, tout en préservant la réactivité du système.
La mise en cache sémantique améliore les passerelles d’IA en réduisant la latence, ainsi que les coûts, et en augmentant la capacité des applications alimentées par les LLM. Contrairement à la mise en cache traditionnelle, qui ne fait que réutiliser les réponses précédentes, les outils de mise en cache sémantique s’appuient sur des vecteurs intégrés pour comprendre le sens des requêtes. Les vecteurs intégrés aident les passerelles d’IA à reconnaître et à réutiliser les réponses pour les questions sémantiquement similaires (même si elles sont formulées différemment), afin d’éviter les appels redondants aux API LLM et d’accélérer la réponse.
Le basculement de modèle aide également les équipes à maximiser les avantages des passerelles d’IA. Les configurations de basculement de modèle créent une redondance qui fait que, même si un modèle est en panne ou s’exécute lentement, la passerelle peut continuer à acheminer efficacement les requêtes d’IA.
Si les modèles d’IA principaux deviennent indisponibles ou renvoient des erreurs, la passerelle d’IA fait basculer automatiquement le trafic vers un modèle de sauvegarde ou secondaire. En cas de problème lié à un modèle, l’expérience de l’utilisateur final n’est ainsi pas perturbée.
Avec la génération augmentée par récupération, les passerelles d’IA fournissent une couche d’orchestration qui permet de relier les LLM aux sources d’information externes actuelles. Au lieu de s’appuyer uniquement sur les données d’apprentissage du LLM, la RAG permet au modèle de récupérer d’abord le contexte pertinent à partir des bases de connaissances, des documents et des bases de données externes, puis d’enrichir le prompt avec ces données afin de générer une réponse. Ainsi, les passerelles d’IA dotées de fonctionnalités RAG aident les modèles à combler le fossé entre les données d’entraînement statiques et les connaissances dynamiques, et à générer des réponses plus précises et plus pertinentes.
En outre, les passerelles d’IA contribuent à atténuer les risques associés au déploiement d’outils d’IA agentique.
Les agents IA font appel aux LLM, au traitement automatique du langage naturel (TAL) et au ML pour concevoir de manière autonome leurs workflows, réaliser des tâches et exécuter des processus au nom des utilisateurs et d’autres systèmes. Ils permettent des pratiques de développement de type « l’humain dans la boucle », selon lesquelles les agents travaillent aux côtés des ingénieurs et des équipes DevOps pour atteindre plus rapidement les objectifs fixés. Cependant, l’IA agentique peut également contribuer à l’apparition d’une « IA fantôme ». Les actions non autorisées et potentiellement dangereuses des agents peuvent élargir de manière significative la surface d’attaque.
Les passerelles d’IA appliquent protocoles de sécurité, restrictions visant à protéger les données et conformité réglementaire dans les déploiements complexes et distribués, et permettent de contrôler l’accès aux API, les processus d’authentification et d’autorisation des agents IA. Parce que les passerelles d’IA rendent l’IA agentique plus observable, elles aident également les entreprises à maîtriser les problèmes liés à l’IA fantôme, ainsi que les coûts exorbitants que peut entraîner le déploiement.
Découvrez quatre stratégies pour faire évoluer l’IA grâce à un socle de données solide.
Découvrez comment les PDG peuvent trouver un équilibre entre la valeur que l’IA générative peut créer, l’investissement qu’elle exige et les risques qu’elle introduit.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
Découvrez comment une approche agile de l’IA permet aux organisations d’innover rapidement et de réduire le risque d’échec.
Apprenez comment intégrer l’IA générative, le machine learning et les modèles de fondation dans vos opérations métier pour améliorer les performances.
Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.
Découvrez l’histoire de l’IA et explorez ce que l’avenir réserve aux entreprises qui envisagent d’adopter l’IA.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.