Qu’est-ce qu’un système question-réponse ?

30 janvier 2025

Auteurs

Tim Mucci

IBM Writer

Qu’est-ce qu’un système question-réponse ?

La réponse aux questions (QA) est une branche de l’informatique qui s’inscrit dans le cadre du traitement automatique du langage naturel (NLP) et de la recherche d’information, et qui se consacre au développement de systèmes capables de répondre à des questions exprimées en langage naturel avec un langage naturel. Ces systèmes identifient le contexte des questions, extraient les informations pertinentes d’une grande quantité de données et les présentent à l’utilisateur de manière concise et lisible.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Types de systèmes question-réponse

Les systèmes question-réponse peuvent être classés selon la manière dont ils génèrent des réponses aux questions de l’utilisateur, l’étendue des connaissances qu’ils possèdent et les types de questions ou de modalités qu’ils prennent en charge.

Systèmes question-réponse extractifs et génératifs

Les systèmes de question-réponse extractifs identifient et extraient les réponses directement à partir des textes ou des sources de données fournis. Ils s’appuient sur des techniques telles que la reconnaissance d’entités nommées et la prédiction d’étendue pour localiser les segments de texte qui répondent à une question donnée.

Par exemple, on peut demander à un système question-réponse extractif de déterminer la population d’un pays dans un document.

Les systèmes de question-réponse génératifs, quant à eux, synthétisent leurs propres réponses en s’appuyant sur les connaissances acquises lors de l’entraînement. Ces systèmes ne se contentent pas d’extraire des informations textuelles. En effet, ils génèrent des réponses créatives et nuancées, en s’appuyant souvent sur les grands modèles de langage (LLM).

Un exemple bien connu de QA génératif est le GPT-3 ou ChatGPT d’OpenAI, qui est alimenté par l’intelligence artificielle générative.

Systèmes de question-réponse à domaine ouvert ou fermé

Les systèmes de QA peuvent également être classés en fonction de l’étendue des connaissances dans lesquelles ils opèrent. Les systèmes de QA à domaine ouvert sont conçus pour traiter des questions sur pratiquement tous les sujets.

Ils s’appuient sur une vaste connaissance générale et font appel à des cadres tels que les ontologies pour récupérer et organiser efficacement les informations. Ces systèmes sont idéaux pour les applications exigeant une grande polyvalence, telles que les assistants virtuels ou les moteurs de recherche.

Les systèmes de question-réponse à domaine fermé sont spécialisés dans un domaine comme la médecine, le droit ou l’ingénierie. Ils s’appuient sur des connaissances spécialisées pour fournir des réponses détaillées et précises, adaptées à leur domaine.

Par exemple, un système de question-réponse à domaine fermé peut assister les médecins en s’appuyant sur des données cliniques pour répondre à des questions de diagnostic.

Systèmes de question-réponse à livre fermé ou ouvert

Les systèmes de question-réponse peuvent également être classés comme étant à livre fermé ou à livre ouvert, selon la manière dont ils accèdent aux informations et les utilisent. Les systèmes à livre fermé s’appuient entièrement sur les connaissances mémorisées pendant leur entraînement, sans se référer à des sources externes.

Ainsi, GPT-3 peut fournir des réponses sans accès en temps réel aux données. Cependant, les systèmes à livre ouvert peuvent accéder à des bases de connaissances ou à des sources de données externes pendant leur fonctionnement, ce qui leur permet de fournir des réponses actualisées et pertinentes dans leur contexte. Les systèmes de QA intégrés aux moteurs de recherche sont un exemple courant de ce type de systèmes.

Systèmes conversationnels, mathématiques et visuels

Les systèmes de question-réponse spécialisés sont conçus pour certains types d’entrées ou d’interactions. Les systèmes de question-réponse conversationnels maintiennent le contexte tout au long des conversations multi-tours pour assurer des échanges cohérents et naturels. Ils conviennent donc aux chatbots et aux assistants virtuels, pour lesquels la continuité et le contexte sont essentiels.  

Les systèmes de QA mathématiques, en revanche, se concentrent sur les réponses aux questions qui nécessitent un raisonnement et des calculs mathématiques. Ces systèmes doivent comprendre les notations mathématiques et effectuer des calculs pour fournir des réponses, comme résoudre des équations ou appliquer des formules.

Les systèmes de QA visuels sont conçus pour répondre à des questions sur les images, en alliant le NLP aux techniques de vision par ordinateur. Par exemple, un système de QA visuel pourrait analyser l’image d’une voiture et répondre à une question telle que « De quelle couleur est la voiture ? ». La QA visuelle a des applications dans des domaines tels que les outils d’accessibilité, le sous-titrage d’images et les moteurs de recherche multimodaux

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Jeux de données

Les jeux de données fournissent les informations brutes nécessaires pour entrainer les modèles, évaluer leurs performances et mesurer les progrès dans le domaine. Les jeux de données de QA se composent généralement de questions associées à leurs réponses correspondantes, souvent tirées de contextes spécifiques tels que des documents, des bases de connaissances ou des jeux de données structurés.

Les modèles de question-réponse utilisent des données d’entraînement de qualité pour associer correctement questions et réponses, et identifier les schémas présents dans dans le jeu de données. Ce processus leur permet de généraliser à partir des exemples qu’ils ont vus vers de nouvelles questions invisibles.

Les jeux de données servent également de repères qui permettent aux chercheurs et aux praticiens de comparer les capacités de différents modèles de QA. Les modèles de base constituent souvent des points de référence pour mesurer l’efficacité de systèmes nouveaux ou avancés par rapport à des normes de performance établies.  

Différents jeux de données sont conçus pour tester divers aspects des systèmes de QA. Ainsi, certains ensembles de données évaluent la capacité d’un système à répondre à des questions provenant de sources très diverses, tandis que d’autres se consacrent à la compréhension de questions complexes ou ambiguës.

Certains encore testent le raisonnement multi-hop, où le système doit intégrer des informations provenant de plusieurs documents ou sections pour parvenir à une réponse. D’autres enfin incluent des questions sans réponse, mettant les modèles au défi de créer une réponse lorsqu’aucune réponse n’existe parmi les sources.

La disponibilité de jeux de données divers et soigneusement construits a considérablement fait progresser le domaine des questions-réponses. En posant aux systèmes des défis de plus en plus complexes et variés, ces jeux de données ont favorisé le développement de modèles plus performants et plus robustes, capables de gérer un large éventail de scénarios réalistes.

Mesurer les performances des systèmes de QA

Les indicateurs d’évaluation standardisent les mesures de performance, permettant aux développeurs d’identifier les aspects à améliorer et d’affiner leurs modèles. En fournissant des informations objectives et quantifiables, ces indicateurs vont au-delà des évaluations subjectives pour déterminer l’efficacité avec laquelle les systèmes peuvent répondre aux questions.

Essentiels pour identifier les points forts et les points faibles d’un système question-réponse, les indicateurs permettent aux développeurs de prioriser l’amélioration de certains aspects de leurs systèmes.

En utilisant des critères de référence cohérents, tels que le Stanford Question Answering Dataset (SQuAD), les chercheurs peuvent évaluer la performance de leurs modèles par rapport à d’autres dans le domaine. Ces points de référence permettent non seulement de garantir l’équité des comparaisons, mais aussi de suivre les progrès et de mettre en évidence les techniques les plus efficaces pour faire progresser la technologie de QA.

Les indicateurs d’évaluation permettent d’éviter le surapprentissage, un défi courant dans le machine learning. En testant les modèles sur des jeux de données distincts, les développeurs peuvent s’assurer que leurs systèmes se généralisent bien aux nouvelles données au lieu de mémoriser le jeu d’entraînement.

En outre, les indicateurs peuvent mettre en évidence les limites des systèmes actuels. Par exemple, la sous-performance d’un modèle peut indiquer les aspects nécessitant des recherches plus approfondies. Cette quête de scores toujours meilleurs encourage le développement de modèles de question-réponse plus avancés, capables de gérer des tâches et des jeux de données de plus en plus complexes.

La fiabilité est un autre aspect essentiel évalué par les indicateurs. Ces derniers permettent de valider l’exactitude des réponses du système et de réduire le risque d’erreur. Les indicateurs guident également le développement itératif des modèles en fournissant un feedback sur la performance du système. Cela permet aux développeurs d’affiner ses composants afin d’obtenir des résultats optimaux.

Il existe divers indicateurs correspondant aux différentes exigences en matière de systèmes question-réponse. Par exemple, certains indicateurs se concentrent sur les correspondances exactes entre les réponses, tandis que d’autres évaluent le degré de chevauchement entre les réponses prédites et les réponses réelles.

Ces distinctions permettent de s’assurer que le processus d’évaluation répond aux exigences des différents modèles et tâches « question-réponse ».

  • Correspondance exacte (EM) : cet indicateur vérifie si la réponse prédite correspond exactement à la bonne réponse. Il s’agit d’un indicateur strict qui permet de déterminer si un modèle peut obtenir une réponse correcte.
  • Score F1 : le score F1 est une mesure équilibrée qui prend en compte tant la précision (le nombre de réponses prédites correctement) que le rappel (le nombre de réponses correctes trouvées). Il s’agit d’un score unique, qui prend en compte les faux positifs et les faux négatifs pour déterminer la précision globale du modèle, ce qui le rend plus nuancé que la correspondance exacte (EM), qui ne vérifie que les correspondances parfaites.
  • Pertinence : selon l’architecture du système et de l’outil de récupération, les modèles peuvent évaluer la mesure dans laquelle un document donné est pertinent pour une requête.

Cependant, les indicateurs existants peuvent ne pas saisir pleinement les complexités de la compréhension et de la réponse efficace aux questions.

  • Compréhension contextuelle : si les indicateurs peuvent mesurer si un modèle donne une réponse correcte, ils ne montrent pas toujours dans quelle mesure un système comprend la totalité d’une question.
  • Raisonnement et synthèse : certaines tâches de réponse aux questions nécessitent un raisonnement et une synthèse des informations provenant de différentes parties d’un texte, ce qui peut être difficile à évaluer à l’aide d’indicateurs simples.
  • Subjectivité : certaines questions peuvent avoir plusieurs réponses correctes; l’évaluation de ce type de questions peut être subjective.
  • Sans réponse : dans certains jeux de données, il existe des questions auxquelles il est impossible de répondre en s’appuyant sur les informations données, et les systèmes doivent pouvoir le reconnaître. Des indicateurs ont été développés pour rendre compte des questions sans réponse.
  • Mots hors du vocabulaire : les indicateurs peuvent ne pas saisir entièrement la performance des systèmes qui traitent des mots non inclus dans le vocabulaire du système.

Malgré ces difficultés, les indicateurs d’évaluation restent essentiels pour évaluer l’efficacité des systèmes de QA. Ils aident les développeurs à savoir dans quelle mesure un système répond aux questions et à identifier les points à améliorer. Étant donné que les modèles de QA sont entraînés sur des données générées par des humains, toute inexactitude ou biais dans les données peut conduire à des réponses biaisées, même si le modèle obtient un score élevé sur les indicateurs d’évaluation.

La possibilité que les modèles « trichent » en exploitant les biais statistiques des jeux de données est une autre préoccupation. Ainsi, un modèle peut apprendre à associer des mots-clés spécifiques dans une question à une plage de réponses particulière sans réellement comprendre la requête.

Pour remédier à ce problème, certains jeux de données incluent des questions rédigées sans permettre l’accès au texte source correspondant lors de leur création. Cette approche réduit le risque que les modèles se fient à des schémas superficiels au lieu d’une compréhension significative.

Les défis des systèmes de réponse aux questions

Les systèmes de réponse aux questions sont confrontés à plusieurs défis opérationnels susceptibles d’affecter leur efficacité. L’un des principaux obstacles est de comprendre le sens et l’intention d’une question. Il ne s’agit pas seulement d’interpréter les mots, mais aussi de discerner l’objectif de la question, même si elle est formulée de manière ambiguë ou peu claire.

Les systèmes de question-réponse doivent gérer des structures linguistiques complexes, faire la distinction entre des mots ou des phrases à consonance similaire et reconnaître les variations subtiles de sens.

Les questions peuvent être formulées de différentes manières, présentées sous forme de requêtes à plusieurs phrases ou manquer de clarté explicite, ce qui exige des capacités avancées de compréhension du langage naturel.

Un autre défi important consiste à récupérer efficacement des informations pertinentes à partir d’immenses quantités de données. Les systèmes de question-réponse doivent employer des techniques de récupération d’informations avancées telles que l’analyse sémantique et l’extraction d’informations, pour identifier les sources pertinentes et les réponses appropriées.

Le volume considérable de données traitées par ces systèmes, qui couvrent souvent des jeux de données massifs, ajoute à la complexité de leur gestion.

Les systèmes de QA ont également besoin de mécanismes robustes pour représenter et organiser les connaissances. Des techniques telles que les ontologies et les réseaux sémantiques permettent aux modèles de catégoriser et de relier les concepts, améliorant ainsi leur capacité à comprendre comment les mots et les idées se connectent au sein d’une phrase ou d’un jeu de données.

La tokenisation des mots, par exemple, divise le texte en unités plus petites et analysables, aidant ainsi les systèmes à mieux comprendre les relations entre les mots et leurs contextes.

Le raisonnement contextuel présente un autre niveau de complexité. Au-delà de la compréhension de la question elle-même, les systèmes de QA doivent prendre en compte le contexte plus large, en synthétisant les informations provenant de sources ou de documents multiples pour fournir des réponses adaptées.

Les modèles doivent donc être capables d’évaluer les relations entre les points de données et de tirer des conclusions pertinentes en fonction de leurs interconnexions.

Enfin, la vérification de l’exactitude des réponses est essentielle pour les systèmes de QA. Ils doivent évaluer de manière critique la fiabilité de leurs sources et tenir compte des biais potentiels dans les données.

Pour ce faire, ils doivent recouper les informations, identifier les incohérences et contribuer à garantir que les réponses sont étayées par des preuves crédibles. 

Applications des systèmes de QA

Couvrant divers secteurs et cas d’utilisation, les différentes applications des systèmes de question-réponse consistent principalement à automatiser la récupération d’informations et à fournir des réponses rapides et précises aux requêtes en langage naturel.  

Citons notamment l’application des systèmes de question-réponse au service client. En s’appuyant sur une base de connaissances, ils permettent d’automatiser les réponses aux questions fréquemment posées afin de rationaliser les opérations. Grâce à leurs réponses instantanées et cohérentes, ils permettent d’améliorer l’efficacité du service, ainsi que la satisfaction client.

De la même manière, dans le domaine du support technique, les systèmes de question-réponse offrent aux salariés et aux clients un accès immédiat aux informations pertinentes, afin de réduire les temps d’attente et d’augmenter la productivité. Les capacités de question-réponse profitent également aux assistants virtuels, qui sont en mesure de comprendre et de répondre plus efficacement aux requêtes utilisateur en langage naturel.

Dans les domaines de l’enseignement, les systèmes de question-réponse génèrent des rapports et facilitent la recherche, ainsi que la vérification des faits. Ces systèmes fournissent aux étudiants des réponses sur demande et leur offrent une assistance en temps réel.

Ils sont également utilisés pour évaluer les étudiants (par exemple, notation de devoirs ou évaluation des réponses aux examens), en raison de leur capacité à interpréter le texte et à fournir des réponses fondées sur ces informations.

Dans les fonctions des moteurs de recherche, les systèmes de QA améliorent l’expérience utilisateur en fournissant des réponses instantanées directement pertinentes aux requêtes des utilisateurs. Au lieu de se contenter de fournir une liste de pages connexes, les systèmes de recherche modernes utilisent la technologie de QA pour extraire des informations spécifiques des documents, offrant aux internautes des réponses concises et exploitables.

De plus, les systèmes de QA sont de plus en plus appliqués aux tâches organisationnelles internes. Ils facilitent le traitement efficace des informations au sein de vastes référentiels de dossiers médicaux, de documents bancaires et de registres de voyage.

En permettant des recherches rapides et précises à partir de données structurées et non structurées, ces systèmes permettent de gagner du temps et d’améliorer la prise de décision dans les environnements professionnels. 

Mise en œuvre des systèmes question-réponse

La mise en œuvre d’un système de QA efficace requiert une planification et une exécution minutieuses en plusieurs étapes, à commencer par la collecte et le prétraitement des données. Cette étape implique la collecte d’un corpus important et varié de données textuelles provenant de sources telles que des articles d’actualité, des livres et des bases de données.

Les données doivent être nettoyées pour éliminer les contenus non pertinents, standardisées par racinisation ou lemmatisation, et tokenisées en mots ou phrases. Parfois, les annotateurs humains créent des paires question-réponse ou traduisent les jeux de données dans d’autres langues.

Les jeux de données de haute qualité générés par l’humain sont généralement plus performants que ceux traduits par des machines, ce qui souligne l’importance de leur qualité.

La recherche d’information est un autre élément essentiel d’un système de QA. Des algorithmes sont développés pour extraire des informations pertinentes du corpus de textes en réponse aux questions des utilisateurs.

Des techniques telles que la recherche par mot-clé, la classification de texte et la reconnaissance d’entités nommées aident à affiner les documents pertinents. Pour optimiser l’efficacité, les modèles de classement des passages peuvent privilégier les documents susceptibles de contenir la réponse avant d’appliquer un modèle de QA plus gourmand en calcul.

Le pipeline récupérateur-lecteur est une architecture courante, dans laquelle le récupérateur identifie un sous-ensemble de documents pertinents et le lecteur extrait ou génère la réponse spécifique. La récupération de passage denses, qui fait appel à l’apprentissage profond, est une approche prometteuse qui améliore à la fois la vitesse et la précision.

Un autre élément à prendre en compte lors la conception d’un système de question-réponse est la taille de la fenêtre contextuelle, qui détermine la quantité d’informations que le modèle pourra traiter en même temps. Par exemple, les modèles comme IBM Granite-3, dotés d’une fenêtre contextuelle de 128 000 tokens, peuvent gérer efficacement les documents volumineux.

Lors du traitement de vastes jeux de données, les pipelines récupérateur-lecteur jouent un rôle fondamental, permettant aux systèmes de filtrer les documents non pertinents avant d’extraire les réponses, et ainsi de préserver à la fois l’efficacité et la précision.

Études et tendances actuelles concernant les systèmes question-réponse

Les recherches et les tendances actuelles en matière de systèmes de réponse aux questions se concentrent sur l’amélioration de leur capacité à gérer des tâches complexes et variées tout en renforçant leur efficacité et leur fiabilité. La réponse aux questions à domaine ouvert, où les systèmes traitent des questions sur pratiquement tous les sujets à l’aide d’ontologies générales et de connaissances du monde, est un axe de développement clé.  

La réponse aux questions multilingue est une autre tendance importante, avec des modèles tels que XLM-Roberta qui démontrent la capacité à gérer plusieurs langues simultanément tout en maintenant des performances équivalentes à celles des systèmes monolingues.

Le développement de systèmes de QA multilingues est indispensable pour les applications internationales, car il facilite l’accès à des langues et des communautés diverses.

De même, l’essor des systèmes de QA multimodaux marque un tournant décisif, en permettant aux systèmes de traiter et d’intégrer des informations provenant de textes, d’images et de fichiers audio.

Ces capacités sont particulièrement précieuses pour les tâches de réponse aux questions sur le contenu d’images ou de vidéos, car elles favorisent une compréhension plus complète et des réponses plus riches et plus sophistiquées.

Des efforts sont également en cours pour améliorer les architectures de modèles afin d’en accroître les performances et l’efficacité. Les modèles basés sur des transformeurs tels que BERT, qui s’appuient sur un pré-apprentissage approfondi pour saisir la compréhension nuancée du langage (largement accessible via des plateformes telles que Hugging Face), ont amélioré les systèmes de QA en augmentant considérablement la précision, ce qui les rend viables pour des applications concrètes.  

La recherche explore actuellement des méthodes pour réduire les exigences en matière de calcul de ces modèles. On emploie notamment des techniques comme la distillation, qui entraîne des réseaux plus petits et plus efficaces à reproduire la performance des grands modèles.

De plus, de nouveaux jeux de données sont conçus pour mettre les systèmes de QA à l’épreuve en introduisant des tâches qui nécessitent un raisonnement en plusieurs étapes, en traitant des questions ambiguës ou sans réponse et en répondant à des requêtes plus complexes.

Les améliorations des méthodes de recherche sont un autre domaine d’intérêt. Les systèmes de QA modernes adoptent souvent une approche en deux étapes, comprenant un récupérateur pour identifier les documents les plus pertinents et un lecteur, généralement doté d’une architecture basée sur un encodeur, pour extraire la réponse de ces documents.

Les innovations, notamment la récupération de passages denses, qui s’appuie sur l’apprentissage profond pour le processus de récupération, s’avèrent efficaces pour améliorer à la fois la vitesse et la précision. Cela s’avère particulièrement important pour adapter les systèmes de QA afin qu’ils traitent efficacement des jeux de données massifs.

L’interactivité devient également une caractéristique centrale des systèmes de QA nouvelle génération. Les chercheurs développent des modèles de réponse aux questions qui peuvent apporter des clarifications, affiner leur compréhension des requêtes ambiguës, réutiliser les réponses précédentes et présenter les réponses dans des formats plus détaillés et intuitifs. 

Solutions connexes
IBM watsonx Orchestrate

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate
Outils et API de traitement automatique du langage naturel

Accélérez la valeur métier de l’intelligence artificielle grâce à un portefeuille puissant et flexible de bibliothèques, de services et d’applications.

Découvrir les solutions NLP
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate Découvrir les solutions NLP