Qu’est-ce que l’orchestration des LLM ?

Un homme étudiant assis à une table

Auteurs

Vanna Winland

AI Advocate & Technology Writer

Joshua Noble

Data Scientist

L’orchestration des LLM permet d’inciter, d’enchaîner, de gérer et de surveiller de grands modèles de langage (LLM). Elle s’appuie sur des cadres d’orchestration. Ces cadres sont des outils complets qui rationalisent le développement et la gestion d’applications basées sur les LLM.

Les LLMOps emploient l’orchestration dans un large éventail d’applications telles que la génération de langage naturel, la traduction automatique, la prise de décision et les chatbots. Alors que les organisations adoptent l’intelligence artificielle pour construire ce type d’applications d’IA générative, une orchestration efficace des LLM est indispensable.

Aussi puissant que soit le modèle de fondation d’un LLM, les LLM restent limités dans ce qu’ils peuvent accomplir seuls. Ainsi, ils n’ont pas la capacité de retenir ou d’apprendre de nouvelles informations en temps réel et peinent à résoudre des problèmes en plusieurs étapes en raison des restrictions imposées par le contexte.1 En outre, la coordination de nombreux LLM peut rapidement devenir complexe lorsqu’il s’agit de gérer les interfaces de programmation des applications (API) des différents fournisseurs de LLM.

Les cadres d’orchestration des LLM compensent ces limitations en simplifiant les processus complexes d’intégration du prompt engineering, de l’interaction API, de la récupération des données et de la gestion de l’état pour les conversations avec les modèles de langage.2

De nouveaux cadres d’orchestration des LLM sont développés et gagnent en popularité tous les jours. Certains se consacrent à la configuration ou aux bases de données, tandis que d’autres ont recours à des agents d’IA pour collaborer à l’exécution de tâches ou à la réalisation d’objectifs.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Fonctionnement des cadres d’orchestration des LLM

Pour comprendre comment fonctionnent les cadres d’orchestration des LLM, il faut d’abord situer l’orchestration dans l’architecture des applications pilotées par LLM.

La couche d’orchestration

La couche d’orchestration est l’épine dorsale de la pile d’applications LLM. L’orchestrateur crée un workflow cohérent en gérant les interactions entre les autres couches de l’architecture de l’application.3 Comme un orchestrateur musical, l’orchestrateur LLM délègue et gère le workflow de chaque composant technique en fonction de la composition de l’application.

Ces composants englobent l’interaction entre les LLM, les modèles de prompt, les bases de données vectorielles et les agents.L’orchestration garantit que chaque composant d’une application d’IA générative fonctionne de manière cohérente en fournissant des outils et des mécanismes permettant de gérer efficacement le cycle de vie des LLM au sein de diverses applications et de divers environnements.

Les tâches d’orchestration

Les cadres d’orchestration simplifient les tâches complexes, notamment l’enchaînement de prompts, l’interface avec des API externes, l’obtention de données contextuelles à partir de bases de données vectorielles et la gestion de la mémoire dans le cadre de multiples interactions LLM. Voici une vue d’ensemble des tâches opérationnelles généralement effectuées dans les orchestrations des LLM :

Gestion de l’enchaînement de prompts

Le prompt engineering est la pratique consistant à structurer les entrées du LLM (prompts) de manière à ce que les outils d’IA générative produisent des résultats optimisés. Les cadres d’orchestration fournissent des modèles de prompts qui incluent des instructions, des exemples few-shot et un contexte spécifique, ainsi que des questions adaptées à une tâche.5

L’enchaînement fait référence à une séquence d’appels qui connectent plusieurs LLM pour conjuguer leurs sorties afin d’obtenir des résultats plus nuancés (également connu sous le nom d’enchaînement de prompts), un outil ou une étape de prétraitement des données.6

La couche d’orchestration gère ces tâches en stockant les prompts dans une base de connaissances ou une bibliothèque où elle peut facilement rechercher et extraire des données de prompts. L’orchestrateur peut sélectionner dynamiquement des prompts dans la bibliothèque en fonction des entrées en temps réel, du contexte ou des préférences de l’utilisateur. En outre, il peut séquencer les prompts dans un ordre logique pour gérer les flux de conversation.

Les LLM n’ont pas la capacité inhérente d’apprendre en permanence et sont limités dans leur compréhension du contexte. En gérant les prompts, l’orchestrateur affine les résultats en évaluant les réponses. 

Les LLM sont également incapables de vérifier eux-mêmes les faits, ce qui conduit à des hallucinations s’ils ne sont pas gérés. L’orchestrateur peut vérifier les réponses et s’assurer qu’elles respectent les directives personnalisées. Si une réponse n’est pas satisfaisante, il peut la signaler pour qu’elle soit examinée par un humain ou faire d’autres suggestions, ce qui permet au LLM d’apprendre et de s’améliorer.7

Gestion des ressources et des performances des LLM

La plupart des cadres d’orchestration des LLM incluent une certaine forme de LLMOps pour la surveillance opérationnelle. Ces fonctionnalités prévoient la collecte d’indicateurs de performance basés sur des tests de référence LLM. Ces indicateurs peuvent être consultés via des tableaux de bord qui permettent aux utilisateurs de les suivre en temps réel.

D’autres ressources LLMOps comprennent des outils de diagnostic pour l’analyse des causes racines (RCA), réduisant ainsi le temps nécessaire au débogage.

Gestion des données et prétraitement

L’orchestrateur facilite l’accès aux données et leur récupération à partir de sources identifiées à l’aide de connecteurs ou d’API adaptés. Lors du prétraitement, les données « brutes » provenant de sources multiples sont converties dans un format compatible avec le LLM. Plus la collecte de données est importante, plus le mécanisme d’analyse des données doit être sophistiqué. Le prétraitement garantit que les données sont adaptées aux exigences posées par chaque algorithme de fouille de données.8 Les orchestrateurs peuvent favoriser le prétraitement en réglant et en affinant les données afin de les rendre plus utiles.

Intégration et interaction des LLM

L’orchestrateur lance le LLM pour qu’il exécute la tâche qui lui a été confiée. Une fois le traitement terminé, l’orchestrateur reçoit le résultat du modèle et intègre tout mécanisme de retour d’information afin d’évaluer sa qualité globale et de le livrer à son destinataire.

L’orchestrateur contient des mémoires qui servent de base de connaissances pour améliorer les résultats et les interactions du LLM et fournir une compréhension contextuelle. En traitant et en stockant les messages ou les entrées précédents, l’orchestrateur accumule des connaissances à long terme qui fournissent des réponses plus précises basées sur les interactions passées.9

Le rôle de l’orchestrateur est de faciliter la mise en œuvre des fonctions d’observabilité des LLM et des cadres de garde. Du point de vue des LLMOps, les LLM fonctionnant sans ces fonctions sont susceptibles de produire des résultats erronés et de présenter des risques pour la sécurité en raison des capacités limitées des LLM dont le réglage n’est pas très précis.

AI Academy

Pourquoi les modèles de fondation constituent-ils un changement de paradigme pour l’IA ?

Découvrez une nouvelle catégorie de modèles IA flexibles et réutilisables, capables de générer de nouveaux revenus, de réduire les coûts et d’augmenter la productivité. Utilisez ensuite notre guide pour obtenir plus d’informations.

Les avantages de l’orchestration des LLM

Les cadres d’orchestration des LLM fournissent la gestion et l’optimisation nécessaires pour rationaliser les interactions et les workflows LLM afin d’améliorer les LLMOps.

  • Évolutivité : utilisation optimale des ressources grâce à la possibilité d’augmenter ou de réduire les capacités en fonction de la demande. 
  • Gestion des ressources : les cadres gèrent les ressources telles que le CPU, le GPU, la mémoire et le stockage en allouant les ressources de manière dynamique en fonction de la workload.
  • Automatisation des workflows : permet d’automatiser les workflows complexes qui impliquent des LLM tels que le prétraitement des données, l’entraînement des modèles, l’inférence et le post-traitement. La rationalisation des opérations réduit les efforts manuels et améliore l’efficacité globale en libérant les développeurs de ces tâches.
  • Équilibrage de la charge : en répartissant les demandes sur plusieurs instances LLM, les cadres évitent de surcharger des instances spécifiques et améliorent la fiabilité globale du système et les temps de réponse.
  • Tolérance aux pannes : la plupart des cadres incluent des mécanismes permettant de détecter les pannes dans les instances LLM et de rediriger automatiquement le trafic vers des instances opérationnelles, ce qui minimise les temps d’arrêt et préserve la disponibilité du service.
  • Contrôle des versions et mises à jour : gestion des différentes versions des LLM et déploiement des mises à jour sans distribution.
  • Rentabilité : une orchestration efficace peut optimiser les coûts en allouant dynamiquement les ressources en fonction de la demande. 
  • Sécurité et conformité : le contrôle et la surveillance centralisés des instances LLM garantissent le respect des normes réglementaires. 
  • Intégration avec d’autres services : favorise un écosystème cohérent en prenant en charge l’intégration avec d’autres services tels que le stockage de données, la journalisation, la surveillance et l’analyse.
  • Réduction des obstacles techniques : permet la mise en œuvre avec les équipes existantes, sans recourir à des experts en IA. Les outils sont conçus à partir de cadres pour faciliter leur utilisation. Ainsi, LangFlow est une interface graphique (GUI) pour LangChain.10

Choisir le bon cadre d’orchestration des LLM

Les développeurs d’applications peuvent adopter les solutions émergentes ou élaborer leurs propres solutions à partir de zéro. Le choix du bon cadre d’orchestration des LLM implique une planification et une stratégie réfléchies.

Voici les éléments à prendre en compte avant de choisir un cadre d’orchestration des LLM : 

Convivialité

Consultez la documentation de l’API du cadre de travail et assurez-vous qu’elle est utile et qu’elle permet aux développeurs de prendre facilement les choses en main. Examinez également les ressources de la communauté du cadre afin d’évaluer le type d’aide au dépannage fournie.

Considérations relatives aux coûts

Évaluez les implications financières de l’adoption de différents cadres. De nombreux cadres d’orchestration des LLM sont open source et disposent d’une option payante pour les entreprises. Veillez à ce que le modèle de tarification soit compatible non seulement avec l’investissement initial, mais aussi avec les dépenses courantes telles que les licences, les mises à jour et les services d’assistance. Un cadre rentable propose un juste équilibre entre le prix et les fonctionnalités qu’il propose.

Considérations relatives à la sécurité

Lorsque vous recherchez le bon LLM, vérifiez qu’il dispose de fonctionnalités de sécurité telles que le chiffrement, les contrôles d’accès et les journaux d’audit, qui assurent la sécurité des données et contribuent à protéger vos données et à respecter les réglementations en vigueur en matière de confidentialité.

Outils de surveillance et de gestion des performances

Renseignez-vous sur les outils de surveillance et de gestion. Ceux-ci comprennent des fonctions de suivi des indicateurs tels que les temps de réponse, la précision et l’utilisation des ressources. 

Les cadres d’orchestration des LLM

Voici quelques cadres d’orchestration réputés et émergents :

IBM watsonx Orchestrate

IBM watsonx Orchestrate utilise le traitement automatique du langage naturel (NLP) pour accéder à un large éventail de compétences de machine learning. Le cadre d’IBM comprend des milliers d’applications et de compétences prêtes à l’emploi, notamment un générateur d’assistant d’IA et un studio de compétences. 

Les cas d’utilisation comprennent l’aide aux services de ressources humaines en donnant aux équipes les outils nécessaires pour intégrer et accompagner les nouvelles recrues et pour stimuler les équipes d’approvisionnement et de vente.

LangChain

Un cadre open source basé sur Python pour la création d’applications LLM. LangChain se compose de plusieurs bibliothèques open source qui fournissent un interfaçage modulable avec les principaux composants des applications LLM, tels que les modèles d’intégration, les LLM, les bases de données vectorielles et les outils de récupération.11

Les cas d’utilisation de bout en bout de LangChain comprennent les chaînes de questions-réponses et les agents sur une base de données SQL, les chatbots, l’extraction, l’analyse des requêtes, le résumé, les simulations d’agents, les agents autonomes et bien plus encore.12

AutoGen

Le cadre de conversation multi-agents open source de Microsoft propose une abstraction de haut niveau des modèles de fondation. AutoGen est un cadre agentique, ce qui signifie qu’il utilise plusieurs agents pour converser et accomplir des tâches. Ses principales fonctionnalités comprennent des agents d’IA personnalisables qui participent à des conversations multi-agents avec des modèles flexibles pour développer une large gamme d’applications LLM.13

Les implémentations d’AutoGen dans les applications LLM comprennent des chatbots de tutorat en mathématiques, des échecs conversationnels, la prise de décision, les discussions de groupe dynamiques et le codage multi-agents.14 AutoGen offre des analyses de surveillance et de relecture pour le débogage par l’intermédiaire d’AgentOps.15

LlamaIndex

LlamaIndex fournit les outils nécessaires à la création d’applications LLM contextualisées. Ceux-ci comprennent des outils d’intégration de données tels que des connecteurs de données permettant de traiter des données provenant de plus de 160 sources et formats.16 LlamaIndex dispose également d’une suite de modules permettant d’évaluer les performances des applications LLM.

Parmi les nombreux cas d’utilisation populaires de LlamaIndex figurent les applications de questions-réponses (génération augmentée de récupération ou RAG), les chatbots, la compréhension de documents et l’extraction de données, ainsi que l’affinement des modèles sur les données pour améliorer les performances.17

Haystack

Haystack est un cadre Python open source fondé sur deux concepts principaux pour élaborer des systèmes d’IA générative personnalisés de bout en bout : les composants et les pipelines. Haystack a conclu des partenariats avec de nombreux fournisseurs de LLM, de bases de données vectorielles et d’outils d’IA pour que la construction de ces outils soit complète et flexible.18

Les cas d’utilisation courants proposés par Haystack comprennent les systèmes de recherche sémantique, l’extraction d’informations et la réponse aux questions de type FAQ.19

crewAI

crewAI est un cadre multi-agents open source basé sur LangChain. Des agents d’IA autonomes de jeu de rôle sont organisés en équipes pour accomplir les workflows et les tâches liés à l’application du LLM.20 crewAI propose une version d’entreprise appelée crewAI+. 

Les applications pour les débutants et les utilisateurs plus techniques comprennent la génération de pages d’accueil, l’analyse des actions et la connexion. crewAI emploie AgentOps pour superviser les agents et établir des indicateurs.21

L’avenir de l’orchestration des LLM

Les cadres d’orchestration des LLM continuent de mûrir avec l’avancement des applications d’IA générative, rationalisant les workflows des LLMOps pour davantage de solutions d’intelligence artificielle.

Ils fournissent les outils et la structure nécessaires pour qu’une application LLM puisse tirer le meilleur parti de ses modèles. Les futurs cadres pourraient avoir recours à des agents d’IA et à des systèmes multi-agents pour faciliter l’automatisation intelligente.

Les tendances observées dans les cadres d’orchestration émergents suggèrent que la construction d’architectures plus complexes, telles que des systèmes multi-agents capables de s’intégrer pour mettre en œuvre des fonctionnalités, donne aux agents les compétences dont ils ont besoin pour accomplir des workflows autonomes.

La convivialité devient également une priorité pour les plateformes d’orchestration. À mesure que le marché mûrit, de plus en plus d’outils axés sur l’expérience utilisateur seront mis au point. Cette approche réduit également les obstacles techniques à l’utilisation de ces cadres. Certains cadres d’orchestration, comme IBM watsonx Orchestrate, exploitent une interface en langage naturel pour favoriser l’engagement et la convivialité.

La gestion de l’orchestration des LLM est une tâche complexe, alors que l’orchestration est la clé de la mise à l’échelle et de l’automatisation des workflows pilotés par les LLM.

Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les solutions d’IA
Notes de bas de page

1 Andrei Kucharavy, « Fundamental Limitations of Generative LLMS », SpringerLink, 1er janvier 1970, https://link.springer.com/chapter/10.1007/978-3-031-54827-7_5.

2 Anna Vyshnevska, « LLM Orchestration for Competitive Business Advantage: Tools & Frameworks », Master of Code Global, 26 juin 2024. https://masterofcode.com/blog/llm-orchestration.

3 Matt Bornstein, Rajko Radovanovic, « Emerging Architectures for LLM Applications », Andreessen Horowitz, 8 mai 2024. https://a16z.com/emerging-architectures-for-llm-applications/

4 Vyshnevska, « LLM Orchestration for Competitive Business ». 

5 « Quick Reference », LangChain, https://python.langchain.com/v0.1/docs/modules/model_io/prompts/quick_start/

6 « Chains », LangChain, https://python.langchain.com/v0.1/docs/modules/chains/.

7 Manish, « Compounding GenAI Success ».

8 Salvador Garcia et al., « Big Data Preprocessing: Methods and Prospects - Big Data Analytics », SpringerLink, 1er novembre 2016, https://link.springer.com/article/10.1186/s41044-016-0014-0.

9 Manish, « Compounding GenAI Success ».

10 « Create Your AI App! », Langflow, https://www.langflow.org/.

11 « Conceptual Guide », LangChain, https://python.langchain.com/v0.2/docs/concepts/.

12 « Use Cases », LangChain, https://js.langchain.com/v0.1/docs/use_cases/.

13 « Getting Started: Autogen », AutoGen RSS, https://microsoft.github.io/autogen/docs/Getting-Started/.

14 « Multi-Agent Conversation Framework: Autogen », AutoGen RSS, https://microsoft.github.io/autogen/docs/Use-Cases/agent_chat/#diverse-applications-implemented-with-autogen.

15 « AgentOps », AgentOps, https://www.agentops.ai/?=autogen.

16 « Loading Data (Ingestion) », LlamaIndex, https://docs.llamaindex.ai/en/stable/understanding/loading/loading/.

17 « Use Cases », LangChain, https://js.langchain.com/v0.1/docs/use_cases/.

18 « What Is Haystack? », Haystack, https://haystack.deepset.ai/overview/intro.

19 « Use Cases », Haystack, https://haystack.deepset.ai/overview/use-cases.

20 « Ai Agents Forreal Use Cases », crewAI, https://www.crewai.com/.

21 crewAI, Inc. « Agent Monitoring with AgentOps », crewAI, https://docs.crewai.com/introduction#agentops.