La synthèse est la capacité de résumer de longs documents pour mettre en avant leurs points clés. D’un point de vue technologique, la synthèse est difficile, car elle nécessite un large éventail de capacités : compréhension de longs passages de texte, identification des points clés et des sujets et génération de nouveaux textes qui capturent l’intention du travail plus général. Heureusement, les grands modèles de langage (LLM) sont bien adaptés à ces tâches. À l’aide des LLM, les architectes peuvent concevoir des solutions qui aident les utilisateurs à réduire la charge liée à la lecture détaillée de longs documents, ce qui se traduit par des gains de productivité et une expérience utilisateur plus positive.

Architecture

Une illustration des principaux composants et de leurs interconnexions pour une solution de synthèse de documents.

Schémas d’architecture d’IA générative

Le diagramme ci-dessus montre les deux formes du schéma de synthèse. La forme la plus simple du schéma est la variante Stuff. Dans ce modèle :

Le contenu d’un document est lu et « enrichi » (stuffed), c’est-à-dire copié dans son intégralité dans un prompt LLM.
Un modèle de prompt est couramment utilisé pour « encapsuler » le contenu avec des instructions et des mots clés pour diriger le modèle cible et générer une synthèse.
La requête résultante est soumise à un LLM entraîné qui génère une synthèse en réponse.

L’approche Stuff est excellente pour les petits documents, mais elle ne convient pas aux documents trop volumineux pour la fenêtre contextuelle du LLM, ni pour les collections de documents. Heureusement, pour ces situations, nous disposons de la variante Map-Reduce. Lors de la phase Map de la variante, des documents individuels et/ou des sous-sections de documents sont transformés en prompts LLM à l’aide de l’approche Stuff. Les synthèses renvoyées pour les documents et/ou les segments sont agrégées par l’application puis soumises à un LLM (4) afin de générer une synthèse globale de la tâche plus générale et/ou de l’ensemble de documents. Il est possible d’utiliser le même LLM pour les phases Map et Reducte. Toutefois, en règle générale, le modèle Reduce devra être affiné pour générer des synthèses agrégées sans perdre de détails clés.

D’un point de vue conceptuel, la synthèse est similaire à une tâche de traduction automatique : nous voulons que le LLM « traduise » un long document en une synthèse plus courte. Ainsi, les modèles encodeur-décodeur, tels que BART et T5, sont bien adaptés aux solutions de synthèse. La majorité des LLM adaptés à la synthèse sont entraînés en utilisant un ou plusieurs kits d’entraînement disponibles publiquement et provenant de sources telles que des actualités, Wikipédia, la législation et des publications scientifiques. Toutefois, en général, ces LLM ont besoin d’être affinés avant de pouvoir générer des synthèses acceptables pour des processus métier ciblés et des données d’entrée.

Un processus métier complexe nécessite généralement plusieurs modèles affinés pour générer des synthèses pour différents groupes d’utilisateurs. Par exemple, un processus de déclarations d’assurance pourrait avoir besoin de LLM optimisés pour la synthèse et l’acheminement des déclarations, la détection des fraudes et les enquêtes, ainsi que pour la synthèse des rapports provenant des prestataires de services tels que les médecins-conseils ou les ingénieurs consultants.

Cas d’utilisation

La synthèse est un modèle de solution éligible à tout scénario professionnel dans lequel les utilisateurs doivent lire et comprendre des documents volumineux de manière régulière, sans avoir besoin de connaître le contenu des documents plus tard dans le processus métier.

Voici quelques exemples d’utilisation :

Arbitrage des demandes d’indemnisation : les demandes d’indemnisation, en particulier les demandes complexes des entreprises et des groupes de santé, sont généralement lues plusieurs fois au cours du processus de soumission et d’arbitrage. Souvent, les demandes d’indemnisation sont d’abord lues pour déterminer le service et/ou l’expert approprié pour traiter la demande. Des lectures complémentaires sont nécessaires pour comprendre les rapports d’évaluation indépendants et y donner suite, pour déterminer la couverture et pour évaluer les éventuelles fraudes. Une solution de synthèse qui extrait les points pertinents d’un texte a le potentiel d’améliorer considérablement ces processus.
Contrats : les contrats commerciaux sont souvent complexes et difficiles à comprendre ; même pour une transaction relativement simple. Une solution de synthèse capable de résumer les principales clauses d’un contrat en langage clair pourrait être un atout considérable pour les professionnels des affaires, les juristes et les para-juristes dans de nombreux secteurs d’activité.
Résumés médicaux : la compilation de résumés médicaux à partir de dossiers de patients est une tâche ardue qui nécessite une expertise importante pour être menée à bien. Une solution de synthèse capable d’extraire les éléments clés d’un dossier patient volumineux et d’aider à la codification des dossiers (en utilisant la classification CIM-10 ou un autre schéma de codage diagnostique) améliorerait à la fois la rapidité et la cohérence du processus de résumé.
Assistance produits et services : l’équipe de support client est souvent sollicitée pour prendre en charge ou se lancer dans des efforts de résolution des problèmes qui peuvent couvrir de nombreuses interactions entre les clients et l’équipe de support. Une solution de synthèse qui résume avec précision un dossier d’assistance peut réduire le temps nécessaire à l’équipe de support pour se familiariser avec un dossier et, idéalement, réduire le temps nécessaire à sa résolution.

Décisions et considérations relatives à l’architecture

Les solutions de synthèse exigent que les architectes prennent un certain nombre de décisions importantes pour répondre aux exigences fonctionnelles et non fonctionnelles de la solution.

Choix du modèle de génération

Comme indiqué ci-dessus, de nombreux LLM sont capables d’effectuer des résumés de texte « prêts à l’emploi ». Si les capacités inhérentes au modèle répondent aux exigences de la solution, alors les architectes doivent prendre en compte des facteurs tels que la taille du modèle (qui détermine les besoins en infrastructure), la qualité des réponses et la rapidité d’inférence. Si un réglage fin est nécessaire, les architectes doivent également tenir compte de la quantité de données de réglage et de la complexité du processus de réglage nécessaire pour adapter un modèle de base sélectionné à leurs besoins spécifiques.

Indicateurs d’évaluation

Évaluer la performance des solutions d’IA générative peut être difficile en raison de la nature qualitative de la tâche, c’est-à-dire comment une synthèse générée se veut « meilleure » qu’une autre. Parmi les indicateurs courants, citons la perplexité, la fluidité, la pertinence et la cohérence, sans oublier les indicateurs BLU et ROUGE. L’architecte doit sélectionner des indicateurs qui correspondent aux exigences fonctionnelles de la solution et aux objectifs commerciaux généraux.

Ressources

Regardez la démo pour voir comment, en capturant les points clés des rapports financiers, des transcriptions de réunions et plus encore, watsonx.ai peut vous aider à transformer un texte dense en un aperçu personnalisé.

L’architecture d’IA générative d’IBM

L’architecture d’IA générative d’IBM est celle proposée par IBM IT Architect Assistant (IIAA), un outil de développement et de gestion des architectures.