Lorsque vous visitez un pays dont vous ne connaissez pas la langue, vous pouvez vous appuyer sur un(e) ami(e) pour traduire les conversations ou sur une application de traduction pour demander votre chemin. Ainsi, vous n’avez pas besoin d’apprendre la langue, en particulier pour les séjours de courte durée.
Dans le domaine des grands modèles de langage (LLM), les interfaces de programmation d’applications (API) agissent comme des traducteurs, permettant des échanges transparents entre les LLM et les applications d’intelligence artificielle (IA). Ces interfaces facilitent l’intégration des capacités de traitement automatique du langage naturel (NLP) et de compréhension du langage naturel dans les systèmes logiciels.
Grâce aux API LLM, les entreprises peuvent exploiter les modèles d’IA dans leurs workflows. Les détaillants en ligne, par exemple, peuvent connecter le chatbot de leur service client à un modèle de langage pour personnaliser davantage les réponses et favoriser une interaction naturelle et engageante. De la même manière, les entreprises peuvent lier leur assistant de codage IA à un LLM pour optimiser l’analyse et la génération de code.
Les API LLM reposent généralement sur une architecture de type requête-réponse qui suit plusieurs étapes :
Une application envoie une requête à l’API, généralement sous la forme d’une requête HTTP (HyperText Transfer Protocol). Avant de la transmettre, l’application convertit la requête au format de données requis par l’API (généralement JavaScript Object Notation, ou JSON), qui contient des informations telles que la variante du modèle, le prompt, ainsi que d’autres paramètres.
Une fois que l’API a reçu la requête, elle la transmet au LLM à des fins de traitement.
Le modèle de machine learning fait appel à ses compétences en matière de NLP, qu’il s’agisse de la génération de contenu, de la réponse à des questions, de l’analyse de sentiments, de la génération de texte ou du résumé de texte pour produire une réponse qu’il transmet à l’API.
L’API renvoie cette réponse à l’application.
Pour accéder à une API LLM, les utilisateurs doivent s’inscrire auprès du fournisseur de leur choix et générer des clés d’API pour l’authentification.
La tarification est un aspect important des API LLM. Les fournisseurs proposent des prix qui varient selon les modèles.
Pour comprendre comment fonctionne la tarification de l’API LLM, vous devez d’abord comprendre le concept de tokens. Pour les modèles linguistiques, les tokens sont des représentations de mots lisibles par une machine. Un token peut être une lettre, un signe de ponctuation, la partie d’un mot ou le mot lui-même.
Les tokens sont les plus petites unités de texte qu’un modèle peut prendre en compte, traiter en entrée et générer en sortie. Ils servent de base à la tarification. La plupart des fournisseurs utilisent un modèle de tarification à la carte, en facturant l’accès à l’API LLM par millier ou million de tokens, avec une tarification distincte pour les tokens d’entrée et de sortie.
Ce modèle tarifaire basé sur les tokens reflète les coûts de calcul et de traitement associés à l’exécution des LLM. Synonyme de transparence et de flexibilité, il s’adapte aux habitudes d’utilisation des entreprises.
Associer données ou services d’entreprise et couche d’IA apportée par les API LLM permet de créer des applications plus puissantes. Voici quelques-uns des avantages qu’offrent les API LLM :
Outre ces avantages, les API LLM présentent également des défis :
Les API LLM permettent aux entreprises d’exploiter pleinement le potentiel de leurs applications grâce à l’IA. Voici cinq techniques pour aider les entreprises à utiliser les API LLM plus efficacement :
Sélectionnez le modèle de langage le plus adapté à votre cas d’utilisation. Commencez par les fonctionnalités de base et passez progressivement à des fonctionnalités plus avancées.
Par exemple, si vous recherchez uniquement l’analyse des sentiments, un modèle plus petit, plus ancien et plus rentable fera l’affaire. Toutefois, si vous recherchez des réponses rapides et en temps réel, comme les chatbots de service client et les applications de traduction, vous devrez certainement opter pour un modèle plus grand et plus récent. Les tâches plus complexes peuvent nécessiter la variante de modèle la plus récente et la plus puissante.
Certains fournisseurs proposent même des API et des modèles adaptés à des cas d’utilisation spécifiques. L’API Assistants d’OpenAI est destinée à la création d’assistants d’IA, tandis que Mistral propose des API pour les tâches de codage et de vision par ordinateur. Vous pouvez également envisager d’utiliser des API de réglage fin pour affiner un modèle avec les données d’entraînement de votre organisation.
Le coût d’utilisation des API LLM peut s’accumuler rapidement, alors surveillez votre utilisation. La plupart des fournisseurs disposent de tableaux de bord ou d’outils pour surveiller l’utilisation des tokens et fixer des limites de dépenses mensuelles afin de gérer vos coûts. Tenez-vous informé des modifications de tarification et d’algorithmes qui pourraient mieux convenir à votre budget et générer plus de valeur.
Certains fournisseurs proposent des prix plus bas ou des réductions sur certains services. L’API Gemini de Google, comme OpenAI, propose un prix inférieur pour la mise en cache du contexte, par laquelle un ensemble de tokens d’entrée sont stockés dans un cache pour être récupérés en cas de requêtes successives. Cette pratique est utile lorsque du contenu répétitif est transmis à un modèle, qu’il s’agisse d’une instruction récurrente provenant d’un chatbot, de requêtes répétées pour un jeu de données ou de correctifs de bugs similaires pour une base de code.
En parallèle, OpenAI offre une remise pour le traitement par lots via son API Batch (Anthropic et Mistral ont des API similaires). Ce traitement asynchrone peut être une option rentable pour l’envoi de groupes de requêtes ne nécessitant pas de réponse immédiate sur de grands jeux de données, comme la synthèse de documents volumineux ou la classification de contenu.
Profitez des niveaux d’API LLM gratuits. Ils sont gratuits, mais ont des limites basées sur les tokens ou l’utilisation. Les niveaux d’API LLM gratuits peuvent convenir aux entreprises ayant un budget limité pour tester des applications ou créer des prototypes.
La sécurité des API est indispensable pour toute entreprise. Voici quelques moyens de sécuriser les interactions API avec les LLM :
Étant donné que les tokens augmentent les coûts, la réduction du nombre de tokens en entrée peut aider à réduire les coûts et à améliorer les performances. L’une des façons de minimiser les tokens en entrée consiste à les optimiser, ce qui s’inspire grandement des tactiques de prompt engineering.
Voici quelques stratégies d’optimisation des tokens :
Après avoir appliqué les techniques d’optimisation appropriées, affinez continuellement les prompts en fonction des sorties du modèle. Vérifiez que ces dernières sont correctes et précises.
Observez vos habitudes d’utilisation pour déterminer si elles respectent votre budget et si vous avez choisi le modèle le plus rentable. Tournez-vous vers des solutions de surveillance des API pour suivre la performance des API à l’aide d’indicateurs clés comme que le temps de réponse, la latence et le taux d’erreur, et maximiser l’efficacité du modèle choisi.
Les API LLM représentent un marché en pleine croissance. De nombreux développeurs LLM ont leurs propres API, tandis que les fournisseurs d’API tiers donnent accès à divers grands modèles de langage.
La société de benchmarking indépendante Artificial Analysis publie un classement très populaire des API LLM (lien externe à ibm.com). Il compare et classe les différents points de terminaison d’API selon des indicateurs tels que la latence, la vitesse de production, la qualité et le prix.
Voici quelques API LLM largement utilisées :
La société de recherche en IA Anthropic dispose d’API (lien externe à ibm.com) pour sa famille de modèles de langage Claude. Ces modèles incluent Claude 3.5 Sonnet, la dernière offre premium de la société ; Claude 3.5 Haiku, son modèle le plus rapide et le plus rentable ; et Claude 3 Opus, un modèle puissant pour les tâches complexes. Des API sont également disponibles pour des versions de modèles plus anciennes telles que Claude 3 Haiku et Claude 3 Sonnet.
Il existe trois méthodes pour accéder à l’API (lien externe à ibm.com) : la console web d’Anthropic, les bibliothèques pour développeurs en Python et TypeScript sur GitHub, et les plateformes partenaires telles qu’Amazon Bedrock et Google Cloud Vertex AI.
Cohere, société spécialisée dans l’IA, propose sa propre API (lien externe à ibm.com) pour Command R+, son LLM conçu pour les cas d’utilisation d’entreprise, et Command R, un modèle d’IA générative optimisé pour la génération augmentée de récupération (RAG) et les fonctionnalités d’IA agentique. Les développeurs peuvent accéder à l’API (lien externe à ibm.com) en utilisant l’outil d’interface de ligne de commande de Cohere ou via les bibliothèques Go, Java, Python et TypeScript sur GitHub.
Google propose des API (lien externe à ibm.com) pour sa gamme de grands modèles de langage Gemini. Cette dernière comprend Gemini 1.5 Flash, son modèle d’IA multimodale le plus rapide, Gemini 1.5 Flash-8B, son plus petit modèle, Gemini 1.5 Pro, son modèle nouvelle génération, et Gemini 1.0 Pro, son modèle de première génération.
Les développeurs peuvent accéder à l’API Gemini (lien externe à ibm.com) sur Google AI Studio et Google Cloud Vertex AI. Plusieurs bibliothèques de développement logiciel sont également disponibles dans différents langages de programmation.
IBM Granite est la série phare des modèles de fondation LLM d’IBM. Les développeurs peuvent utiliser les API de la plateforme IBM watsonx pour accéder aux modèles Granite 3.0, en particulier Granite 3.0 2B Instruct et Granite 3.0 8B Instruct, des modèles réglés par instructions avec respectivement 2 et 8 milliards de paramètres. Les modèles open source Granite 3.0 sont également disponibles auprès des partenaires de la plateforme tels que Google Vertex AI et Hugging Face.
Llama est la collection de modèles d’IA open source de Meta. Les modèles Llama 3, en particulier les versions 3.1, sont accessibles via les API des différents partenaires de l’écosystème de Meta (lien externe à ibm.com).
Meta a également publié Llama Stack (lien externe à ibm.com) pour rationaliser le développement et le déploiement d’applications d’IA basées sur des modèles Llama. Llama Stack se compose d’un ensemble d’API interopérables pour les agents, l’inférence, la mémoire et la sécurité, entre autres.
Mistral AI a différents points de terminaison d’API (lien externe à ibm.com) pour ses modèles de premier plan, tels que Mistral Large, Mistral Small et Ministral, ainsi que pour des modèles gratuits, notamment Mistral NeMo et Mistral 7B. L’entreprise propose également une API de réglage fin. L’API Mistral est accessible via sa propre plateforme de développement « La Plateforme » et des plateformes partenaires telles qu’IBM watsonx et Microsoft Azure AI.
OpenAI, l’entreprise derrière ChatGPT, propose des API pour ses différents modèles (lien externe à ibm.com). Parmi ces API, citons ses derniers modèles de transformers préentraînés génératifs (GPT) GPT-4o et GPT-4o mini, ou encore les modèles OpenAI GPT plus anciens, comme GPT-4 Turbo et GPT-3.5 Turbo.
Les modèles de génération de texte d’OpenAI utilisent un point de terminaison d’API de complétion de chat, mais d’autres API incluent une API Images pour le modèle d’image d’OpenAI, une API Audio pour son modèle Text to Speech et une API Realtime pour les applications à faible latence. Les développeurs peuvent accéder à l’API d’OpenAI via la plateforme OpenAI et les bibliothèques de développement logiciel dans différents langages de programmation.
Les API LLM jouent un rôle essentiel dans le pipeline de l’IA. En combinant la capacité de raisonnement des LLM et la facilité d’utilisation des interfaces programmées, les API LLM comblent le fossé entre les grands modèles de langage et les applications d’entreprise. Comprendre leur fonctionnement interne et savoir les utiliser efficacement permet aux entreprises de mieux intégrer l’IA dans leurs systèmes.
Découvrez IBM Granite, notre famille de modèles d'IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d'IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.
Plonger dans les articles, les blogs et les tutoriels d'IBM Developer pour approfondir vos connaissances sur les LLM.
Découvrez comment pousser continuellement vos équipes à améliorer les performances des modèles et à dépasser la concurrence en utilisant les dernières techniques et infrastructures d’IA.
Découvrez la valeur des modèles de fondation dédiés aux entreprises qui offrent confiance, performances et avantages rentables à tous les secteurs.
Apprenez comment intégrer l’IA générative, le machine learning et les modèles de fondation dans vos opérations métier pour améliorer les performances.
Lisez les résultats de l'enquête menée auprès de 2 000 organisations sur leurs initiatives en matière d'IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment vous pouvez prendre de l'avance
Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.