Qu’est-ce que la recherche d’information ?

Auteurs

Jacob Murel Ph.D.

Senior Technical Content Creator

Meredith Syed

Technical Content, Editorial Lead

IBM

Qu’est-ce que la recherche d’information ?

La recherche d’information (RI) est un vaste domaine d’informatique et de science de l’information qui traite de la recherche de données pour les requêtes des utilisateurs. Elle alimente les outils de recherche tels que les catalogues de bibliothèques et les moteurs de recherche sur Internet.

Nous pouvons généralement définir la RI comme la recherche de données non structurées au sein d’une grande collection afin de répondre à un besoin d’information particulier.1 Un système de RI (système de recherche d’information) fournit des informations en réponse à une requête donnée. Le système recherche dans les collections les éléments correspondant à la requête de l’utilisateur. Il renvoie ensuite ces éléments à l’utilisateur, généralement sous forme de liste triée en fonction de la pertinence calculée.2

Les systèmes et techniques de RI alimentent un ensemble d’outils de recherche, tels que les moteurs de recherche Internet et les catalogues de bibliothèques numériques.

Recherche d’information ou recherche de données

Notons que de nombreuses sources en ligne opposent les systèmes de RI à la recherche de données : Les systèmes de RI récupèrent des informations non structurées, telles que des documents textuels et des pages Web ; la récupération de données, en revanche, traite des données structurées, telles que celles que l’on trouve dans les systèmes de gestion de bases de données relationnelles. Par extension, la recherche de données utilise un langage de requête structuré (SQL) pour effectuer des recherches.

Cette distinction entre la RI en tant que système non structuré et non relationnel et la recherche de données en tant que système structuré et relationnel est toutefois plus équivoque que ne le suggèrent de nombreuses sources en ligne. Les systèmes de RI indexent, et donc structurent, l’information. Ainsi, s’il est vrai que la RI traite traditionnellement de la recherche de documents textuels bruts, certains systèmes de RI utilisent XML pour représenter et indexer des textes. La littérature de recherche décrit souvent les systèmes basés sur XML comme une branche de la RI appelée recherche structurée ou recherche semi-structurée.3 En outre, la littérature explore l’utilisation de modèles relationnels de RI depuis des décennies.4

La distinction entre la RI et la recherche de données est donc plus ambiguë que ce que l’on pense traditionnellement. En effet, étant donné que les données sont, par définition, des informations, la recherche de données structurées est peut-être mieux perçue comme un type de recherche d’information.

Recherche d’information ou systèmes de recommandation

La recherche d’information se distingue des systèmes de recommandation. Les techniques de recommandation par machine learning, telles que le filtrage collaboratif et le filtrage basé sur le contenu, peuvent peut-être être considérées comme une forme de filtrage de l’information, une tâche secondaire des systèmes de RI. Néanmoins, les systèmes de RI et de recommandation sont bien différents. La RI exige traditionnellement une requête de l’utilisateur ; les moteurs de recommandation récupèrent généralement des objets sans requête de l’utilisateur.5

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Fonctionnement des systèmes de recherche d’information

Les différents modèles de RI représentent l’information de différentes manières. La forme choisie de représentation des documents conditionne largement la manière dont le modèle recherche et récupère les informations. Néanmoins, l’indexation, la pondération et le retour de pertinence sont trois techniques de recherche d’information communes à tous les modèles de RI.

Indexation

L’indexation équivaut essentiellement à la création de métadonnées.6 De nombreuses personnes ont déjà rencontré un index à la fin d’un livre papier. Il s’agit d’un ensemble structuré de mots compilés à partir d’un document imprimé donné, qui permet aux lecteurs d’accéder facilement à des passages sur des sujets précis. L’index RI est similaire. Un index RI (ou index inversé) est une structure de données provenant d’un ensemble de documents et destinée à améliorer les résultats des requêtes de recherche.7

La création d’un index nécessite d’abord l’analyse d’un document pour en extraire les caractéristiques. Supposons, par exemple, que nous créions un système de RI pour des documents textuels. Comme c’est souvent le cas dans le traitement automatique du langage naturel (NLP), nous préparons la collection de documents à l’aide de diverses techniques de prétraitement, telles que la tokenisation et l’élimination des mots vides. Le système de RI représente ensuite cette collection de documents traités sous la forme d’une structure de données organisée. L’une de ces structures est un dictionnaire dans lequel chaque document possède un identifiant pointé par les mots (ou termes d’indexation) qui y figurent.8 Une autre structure de données potentielle pour un système de recherche de texte est un modèle d’espace vectoriel, tel qu’un sac de mots (ou « bag of words »).9 Ces deux approches extraient des mots en tant que caractéristiques, qui servent ensuite à extraire et à classer des documents en réponse à des requêtes d’utilisateurs.

Pondération

Comment un système de recherche classe-t-il les correspondances approximatives ou exactes pour une requête donnée ? Les approches du classement et de la recherche d’information dépendent à la fois du type de modèle de recherche d’information et de la forme de représentation des documents utilisés dans le système. Les termes d’indexation jouent toutefois un rôle clé dans la manière dont un système de RI classe les documents en réponse aux requêtes. Mais tous les termes d’indexation ne sont pas égaux. Les systèmes de RI emploient donc différentes méthodes pour pondérer les termes de l’index en fonction de leur importance perçue.

Ceux qui utilisent des modèles d’espace vectoriel, tels que les sacs de mots, peuvent recourir à la fréquence des termes et à la fréquence inverse des documents (TF-IDF). La TF-IDF est une variante du sac de mots qui tient compte de la prévalence d’un mot dans chaque document de l’ensemble de textes. Plus le nombre de documents dans lesquels un mot donné apparaît est élevé, plus la TF-IDF réduit le poids de ce mot. D’autres approches comprennent la décomposition en valeurs singulières (SVD) et l’analyse sémantique latente (LSA), cette dernière étant une approche courante de modélisation thématique.10

Ces approches de pondération affectent la manière dont les systèmes de RI classent les documents en réponse aux requêtes. Cependant, les différents types de modèles de RI exploitent ces pondérations pour le classement de différentes manières.

Retour de pertinence

Comment un système peut-il améliorer ses résultats de recherche ? En d’autres termes, comment un système peut-il affiner la recherche d’un utilisateur et augmenter le nombre de documents pertinents renvoyés ?

Le retour de pertinence est une technique courante de recherche d’information qui permet d’améliorer les résultats de la recherche. Elle consiste essentiellement à recueillir des informations sur la réponse de l’utilisateur à un ensemble initial de résultats de recherche. Le système réévalue ensuite la pertinence des éléments à la lumière des réponses de l’utilisateur. Il renvoie ensuite un nouvel ensemble de résultats de recherche intégrant la requête initiale et les réactions de l’utilisateur à cet ensemble initial de résultats.

Le retour de pertinence implique généralement que l’utilisateur fournisse des réponses explicites sur la pertinence des documents retrouvés. Le retour d’information implicite est une variante qui déduit la pertinence des éléments en observant le comportement de l’utilisateur (par exemple, les liens de sites Web sur lesquels l’utilisateur clique dans une page de résultats de recherche). Le retour de pseudo-pertinence suppose que les n premiers documents retrouvés d’une requête initiale sont pertinents. Il recueille ensuite des caractéristiques supplémentaires communes à ces documents afin de modifier davantage la requête.11

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Types de techniques de recherche d’information

Il existe de nombreux types de modèles de recherche d’information. Une synthèse détaillée exigerait un examen beaucoup plus approfondi. Néanmoins, les manuels de RI et les aperçus encyclopédiques se recoupent souvent en mentionnant trois méthodologies générales de RI : Les modèles booléens, algébriques et probabilistes.

Modèle booléen

Les modèles booléens sont peut-être les plus simples, voire les plus simplistes, des modèles de RI. Ils reposent sur une structure de dictionnaire de termes d’indexation telle que décrite précédemment. Le modèle classe ensuite les documents en fonction de la présence des mots de la requête de l’utilisateur dans les documents retrouvés. Par exemple, si un utilisateur formule la requête « jazz ET danse », le modèle booléen ne retrouve que les documents qui contiennent les mots « jazz » et « danse » ensemble. Les modèles booléens ne tiennent donc compte que de la présence ou de l’absence de mots dans un document ; les correspondances partielles n’existent pas dans ces systèmes. Les techniques de prétraitement de texte telles que la racinisation et la lemmatisation peuvent résoudre ce problème de variantes morphologiques, comme les documents qui contiennent « danse », « danses » ou « danseur », plutôt que la seule requête de l’utilisateur « danse ».

Comme indiqué précédemment, les modèles booléens ne prennent en compte que la présence ou l’absence de mots. Ce critère de décision binaire n’est pas assorti d’une échelle de classement permettant d’identifier les documents les plus pertinents par rapport à la requête de l’utilisateur. Une solution potentielle consiste à classer les documents en fonction de la fréquence des termes de la requête de l’utilisateur qu’ils contiennent. En d’autres termes, plus un document mentionne les termes « jazz » et « danse », plus le modèle le considère comme pertinent pour la requête de l’utilisateur. Toutefois, l’augmentation de la fréquence des termes n’indique pas nécessairement une plus grande pertinence. Malgré cet inconvénient potentiel, les modèles booléens ont été utilisés dans de nombreux systèmes de RI en raison de leur facilité de mise en œuvre.12

Modèle algébrique

La recherche booléenne de documents empêche toute forme de correspondance partielle. Les modèles algébriques et probabilistes abordent cette question en attribuant des poids non binaires aux termes de l’index.

Le modèle d’espace vectoriel est un modèle algébrique représentatif. Dans cette approche, le système de RI représente les documents et les requêtes comme des vecteurs dans un espace vectoriel multidimensionnel. Dans cet espace, les termes d’indexation seront probablement des caractéristiques de l’espace vectoriel, et les requêtes et les documents sont représentés dans cet espace en fonction de la présence et de la fréquence à laquelle ils contiennent des termes d’indexation. Le système de RI calcule la similarité entre une requête de recherche et des documents en fonction de leur proximité dans l’espace vectoriel.

Il existe un certain nombre d’indicateurs pour établir la proximité dans un modèle d’espace vectoriel, tels que l’indice de Jaccard et le produit scalaire. Toutefois, l’une des mesures les plus courantes est sans doute la similarité cosinus, représentée par la formule suivante

 cosine_similarity(A,B)=i=1nAiBii=1nAi2i=1nBi2   

Ici, x et y représentent deux vecteurs dans l’espace vectoriel. Le score de similarité cosinus peut être compris entre -1 et 1. Plus le score cosinus est élevé, plus les deux éléments sont considérés comme similaires.

Le modèle d’espace vectoriel de la RI renvoie les documents dans l’ordre de leur degré de similarité mesuré. De cette manière, les systèmes algébriques de RI, tels que le modèle de l’espace vectoriel, permettent une mise en correspondance partielle, fournissant potentiellement une forme plus précise ou nuancée de recherche d’information.13

Modèle probabiliste

Les modèles probabilistes permettent également une mise en correspondance partielle entre les requêtes de l’utilisateur et les documents. Les modèles probabilistes reposent sur l’hypothèse qu’une requête donnée dispose d’un ensemble idéal de ressources du système d’information récupérées. Cet ensemble idéal est, il est vrai, inconnu. Mais la sémantique des termes d’indexation peut caractériser les propriétés de cet ensemble.

Comme les modèles algébriques, les modèles probabilistes exploitent la présence et la fréquence des termes d’indexation pour déterminer la similarité entre les requêtes et les documents. Mais les modèles probabilistes diffèrent en ce qu’ils prennent en compte des facteurs supplémentaires. Ainsi, ils peuvent tenir compte de la cofréquence des termes d’indexation (fréquence de cooccurrence des termes d’indexation dans un document) par rapport à la longueur du texte intégral du document, ou de la fréquence d’apparition d’un seul terme d’indexation par rapport à tous les termes d’une requête donnée. Il ne s’agit là que de quelques facteurs potentiels pris en compte ; une discussion plus détaillée implique une compréhension plus approfondie de la théorie des probabilités.

Notons que tous les modèles probabilistes ne prennent pas en compte les mêmes facteurs lorsqu’ils calculent la similarité des documents ou la probabilité. Par exemple, le modèle d’indépendance binaire (BIM), le premier modèle probabiliste de RI, ne prend pas en compte la fréquence des termes. Un modèle incorporant la technique de modélisation thématique d’allocation de Dirichlet latente (LDA), cependant, tiendra compte de la cofréquence des termes.14

Recherches récentes

Biais. Les moteurs de recherche Internet sont peut-être l’un des cas d’utilisation de la RI les plus connus. L’outil de résumé de texte PageRank est utilisé pour récupérer et classer les pages Web (documents HTML). La recherche établit clairement la triste réalité selon laquelle les algorithmes de recherche perpétuent une série de préjugés, tels que les préjugés raciaux et sexistes.15 En réponse, les expériences publiées explorent une série de méthodes pour réduire les préjugés sociaux dans les systèmes de RI, tels que l’échantillonnage négatif16 et les algorithmes sensibles aux préjugés qui intègrent des pénalités pour les résultats biaisés.17 L’atténuation des préjugés est un domaine de recherche primordial pour développer une praxis éthique autour de la RI et même de l’intelligence artificielle.

Solutions connexes
IBM watsonx Orchestrate

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate
Outils et API de traitement automatique du langage naturel

Accélérez la valeur métier de l’intelligence artificielle grâce à un portefeuille puissant et flexible de bibliothèques, de services et d’applications.

Découvrir les solutions NLP
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Concevez facilement des assistants et des agents IA évolutifs, automatisez les tâches répétitives et simplifiez les processus complexes avec IBM watsonx Orchestrate.

Découvrir watsonx Orchestrate Découvrir les solutions NLP
Notes de bas de page

1 Christopher Manning, Prabhakar Raghavan et Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

2 Qiaozhu Mei et Dragomir Radev, « Information Retrieval », Oxford Handbook of Computational Linguistics, 2e édition, Oxford University Press, 2016.

3 Christopher Manning, Prabhakar Raghavan et Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009. Mounia Lalmas et Ricardo Baeza-Yates, « Structured Document Retrieval », Encyclopedia of Database Systems, Springer, 2018.

4 Robert Crawford, « The relational model in information retrieval », Journal of the American Society for Information Science, vol. 32, n° 1, 1981, pages 51 à 64.

5 Alejandro Bellogín et Alan Said, « Information Retrieval and Recommender Systems », Data Science in Practice, Springer, 2018.

6 Jeffrey Pomerantz, Metadata, MIT Press, 2015.

7 Steven Beitzel, Eric Jensen et Ophir Frieder, « Index Creation and File Structures », Encyclopedia of Database Systems, Springer, 2018.

8 Christopher Manning, Prabhakar Raghavan et Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

9 Qiaozhu Mei et Dragomir Radev, « Information Retrieval », Oxford Handbook of Computational Linguistics, 2e édition, Oxford University Press, 2016.

10 Qiaozhu Mei et Dragomir Radev, « Information Retrieval », Oxford Handbook of Computational Linguistics, 2e édition, Oxford University Press, 2016. Ricardo Baeza-Yates et Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999.

11 Qiaozhu Mei et Dragomir Radev, « Information Retrieval », Oxford Handbook of Computational Linguistics, 2e édition, Oxford University Press, 2016. Stefan Büttcher, Charles Clarke et Gordon Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2016.

12 Ricardo Baeza-Yates et Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan et Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

13 Qiaozhu Mei et Dragomir Radev, « Information Retrieval », Oxford Handbook of Computational Linguistics, 2e édition, Oxford University Press, 2016. Christopher Manning, Prabhakar Raghavan et Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

14 Ricardo Baeza-Yates et Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999. Christopher Manning, Prabhakar Raghavan et Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University Press, 2009.

15 Safiya Umoja Noble, Algorithms of Oppression: How Search Engines Reinforce Racism, NYU Press, 2018.

16 Amin Bigdeli et al., « A Light-Weight Strategy for Restraining Gender Biases in Neural Rankers », actes de la 44e conférence européenne sur les progrès de la recherche d’information, 2022, pages 47 à 55.

17 Dhanasekar Sundararaman and Vivek Subramanian, “Debiasing Gender Bias in Information Retrieval Models,” 2022, https://arxiv.org/abs/2208.01755. Shirin Seyed Salehi et al., “Bias-aware Fair Neural Ranking for Addressing Stereotypical gender Biases,” Microsoft Research, 2022.