La recherche booléenne de documents empêche toute forme de correspondance partielle. Les modèles algébriques et probabilistes abordent cette question en attribuant des poids non binaires aux termes de l’index.
Le modèle d’espace vectoriel est un modèle algébrique représentatif. Dans cette approche, le système de RI représente les documents et les requêtes comme des vecteurs dans un espace vectoriel multidimensionnel. Dans cet espace, les termes d’indexation seront probablement des caractéristiques de l’espace vectoriel, et les requêtes et les documents sont représentés dans cet espace en fonction de la présence et de la fréquence à laquelle ils contiennent des termes d’indexation. Le système de RI calcule la similarité entre une requête de recherche et des documents en fonction de leur proximité dans l’espace vectoriel.
Il existe un certain nombre d’indicateurs pour établir la proximité dans un modèle d’espace vectoriel, tels que l’indice de Jaccard et le produit scalaire. Toutefois, l’une des mesures les plus courantes est sans doute la similarité cosinus, représentée par la formule suivante
Ici, x et y représentent deux vecteurs dans l’espace vectoriel. Le score de similarité cosinus peut être compris entre -1 et 1. Plus le score cosinus est élevé, plus les deux éléments sont considérés comme similaires.
Le modèle d’espace vectoriel de la RI renvoie les documents dans l’ordre de leur degré de similarité mesuré. De cette manière, les systèmes algébriques de RI, tels que le modèle de l’espace vectoriel, permettent une mise en correspondance partielle, fournissant potentiellement une forme plus précise ou nuancée de recherche d’information.13