Bulles de dialogue indiquant plusieurs conversations avec le service client
Conversation with Agent Assist

Le système de support multiniveaux de l’entreprise peut employer un assistant conversationnel (ou chatbot) alimenté par un grand modèle de langage pour compléter le travail de ses agents, afin d’offrir un service d’assistance complet et efficace aux utilisateurs finaux.

Capture d’écran montrant les principaux composants et leurs interactions pour la prise en charge des questions des utilisateurs dans l’architecture de la solution Conversation with Agent Assist.
Les principaux composants et leurs interactions pour la prise en charge des questions des utilisateurs dans l’architecture de la solution Conversation with Agent Assist.

L’architecture d’agent conversationnel est illustrée dans le schéma ci-dessus. Les principales étapes du flux d’architecture sont les suivantes :

  1. Les documents d’entreprise tels que les manuels des produits, les FAQ, les documents d’offre, les prospectus, les tickets d’assistance résolus, etc. sont ingérés dans une instance d'IBM watsonx Discovery et préparés pour la recherche sémantique.
     

  2. Les utilisateurs soumettent leurs requêtes, problèmes ou questions par le biais d’une interface sur le site Web de l’entreprise, d’une application dédiée ou d’autres plateformes. Cette interaction est facilitée par IBM watsonx Assistant, qui sert d’interface principale pour les échanges par chat.
     

  3. Pour les demandes nécessitant la récupération de données dans les documents ou la base de connaissances de l’organisation, IBM watsonx Discovery est appelé pour rechercher et récupérer les passages d’informations les plus pertinents pour la demande de l’utilisateur.
     

  4. La requête de l’utilisateur, ainsi que les informations pertinentes récupérées à partir de Watson Discovery, sont ensuite transmises par watsonx Assistant à un grand modèle de langage (LLM) hébergé sur watsonx.ai.
     

  5. Le LLM synthétise la requête de l’utilisateur, les informations fournies et les connaissances intégrées au LLM pour générer une réponse semblable à celles d’un humain. Cette réponse est renvoyée à watsonx.ai, puis présentée à l’utilisateur après un éventuel traitement tel que le formatage.
     

  6. Si l’utilisateur n’est pas satisfait de la réponse générée (par exemple, si sa demande est nuancée, complexe ou nécessite des connaissances spécifiques), il peut choisir de demander à watsonx Assistant de transmettre l’appel à un agent humain. De même, les interactions peuvent être automatiquement remontées si la réponse du LLM est jugée peu fiable ou potentiellement offensante. Les utilisateurs peuvent choisir d’interagir avec un représentant humain à tout moment. watsonx Assistant transfère l’interaction à un agent humain de manière fluide via le système de gestion du centre de contact de l’entreprise.
     

  7. Un agent humain, qui a un accès complet à l’historique des conversations avec watsonx Assistant, aide l’utilisateur à résoudre sa demande, son problème ou sa question.
     

  8. Après la résolution du problème, le système, via watsonx Assistant, peut solliciter un retour de l’utilisateur. Ces commentaires permettront d’affiner les interactions futures en analysant les requêtes fréquemment non résolues ou remontées, et permettront à l’organisation d’optimiser le LLM hébergé sur watsonx.ai et/ou de régler les paramètres de recherche de watsonx Discovery pour améliorer les performances.

Architecture des produits IBM

Les relations entre le portefeuille de produits d’IA IBM watsonx et l’architecture conceptuelle sont illustrées dans le schéma ci-dessous. watsonx Assistant fournit les capacités d’interaction du composant d’assistant virtuel, tandis que watsonx Discovery, un module complémentaire de watsonx Assistant, fournit les capacités d’ingestion de documents et de recherche sémantique. L’environnement de développement et d’hébergement de modèles watsonx.ai permet de sélectionner, régler, tester et déployer le grand modèle de langage.

Une illustration de la manière dont IBM watsonx Discovery, watsonx Assistant et la plateforme SaaS watsonx.ai forment l’architecture de la solution.
Une illustration de la manière dont IBM watsonx Discovery, watsonx Assistant et la plateforme SaaS watsonx.ai forment l’architecture de la solution.
Déploiements sur site / privés

Certains clients n’ont pas accès à watsonx.ai dans leur région, ou peuvent être confrontés à des problèmes de sécurité ou à des exigences réglementaires qui les empêchent d’utiliser le studio d’IA dédié aux entreprises watsonx.ai. Pour ces clients, nous proposons watsonx.ai sous forme d’ensemble de services conteneurisés qui peuvent être déployés sur Red Hat Openshift dans les centres de données des clients, dans un cloud privé virtuel sur l’infrastructure d’un fournisseur de services cloud ou à un autre emplacement.

Un déploiement alternatif de la solution sur site à l’aide de watsonx Discovery, watsonx Assistant et watsonx.ai.
Un déploiement alternatif de la solution sur site à l’aide de watsonx Discovery, watsonx Assistant et watsonx.ai.

Décisions et considérations relatives à l’architecture

Choix du modèle de génération

 

De nombreux facteurs entrent en jeu dans le choix d’un modèle adapté à votre projet.

La licence du modèle peut restreindre son utilisation. Par exemple, la licence d’un modèle peut empêcher son utilisation dans le cadre d’une application commerciale.

Le jeu de données utilisé pour entraîner le modèle affecte directement la performance de ce dernier sur une tâche donnée. Le risque que le modèle génère des réponses absurdes, offensantes ou tout simplement indésirables en dépend également. De la même manière, les modèles entraînés sur des données privées ou protégées par le droit d’auteur peuvent engager la responsabilité des utilisateurs. IBM assure une transparence totale des données d’entraînement et une indemnisation en cas de réclamation portant sur ses modèles.

La taille du modèle, le nombre de paramètres avec lesquels il est entraîné et la taille de sa fenêtre de contexte (la longueur d’un passage de texte que le modèle peut accepter) affectent les performances du modèle, ses besoins en ressources et son débit. Bien qu’il soit tentant d’adopter une philosophie du type « plus c’est grand, mieux c’est » et de choisir un modèle à 20 milliards de paramètres, les besoins en ressources et l’amélioration de la précision (quand elle est possible) ne justifient peut-être pas cette approche. Des études récentes ont montré que les modèles plus petits peuvent être nettement plus performants que les modèles plus grands pour certaines solutions

.

Tout réglage fin appliqué aux modèles peut affecter leur adéquation à une tâche donnée. Par exemple, IBM propose deux versions du modèle Granite : l’une adaptée aux applications de chat générales, et une autre conçue pour suivre des instructions.

Autres aspects à prendre en compte pour bien choisir votre modèle :

La sélection des paramètres du modèle, par exemple la température du modèle, pour équilibrer la création de textes en langage naturel et les réponses factuelles. Le réglage du modèle sur une température élevée générera des réponses cohérentes, mais potentiellement sans intérêt ou trop lacunaires, tandis que le réglage de la température sur une valeur faible offrira plus de variété dans les réponses, mais augmentera leur imprévisibilité en termes de longueur et de contenu.

 

La sélection et la mise en œuvre de garde-fous dans le modèle pour se prémunir contre les résultats inefficaces ou offensants.

La langue des données du client et des prompts utilisateur doit également être prise en compte. La majorité des LLM sont entraînés sur des textes en anglais et peuvent souvent traduire entre l’anglais et d’autres langues avec des niveaux d’expertise variables. Les applications nécessitant une prise en charge multilingue ou plus localisée peuvent nécessiter l’utilisation de plusieurs modèles entraînés dans chacune des langues prises en charge, ou la mise en œuvre d’une étape de traduction pour traduire les entrées multilingues en anglais ou dans une autre langue « de base ».

Étapes suivantes

Contactez nos experts pour obtenir de l’aide sur l’implémentation d’un schéma de déploiement de cloud hybride.

Autres moyens d’information Centre d’architectures de cloud hybride Outils de diagrammes et modèles IBM Well-Architected Framework
Contributeurs

Manav GuptaChris Kirby, Pete Nuwayser

Mise à jour : 30 novembre 2023