Il recupero booleano dei documenti inibisce qualsiasi forma di corrispondenza parziale. I modelli algebrici e probabilistici affrontano questo problema assegnando pesi non binari ai termini dell'indice.
Un modello algebrico rappresentativo è il modello dello spazio vettoriale. In questo approccio, il sistema IR rappresenta documenti e interrogazioni come vettori in uno spazio vettoriale multidimensionale. In questo spazio, i termini dell'indice saranno probabilmente caratteristiche dello spazio vettoriale e le query e i documenti vengono qui tracciati in base alla presenza e alla frequenza con cui contengono i termini dell'indice. Il sistema IR calcola la somiglianza tra una query di ricerca e i documenti in base alla loro vicinanza nello spazio vettoriale.
Esistono diverse metriche per determinare la prossimità in un modello di spazio vettoriale, come Jaccard e il prodotto scalare. Forse una delle più comuni, tuttavia, è la similarità del coseno, rappresentata dalla formula
Qui, A e B significano due vettori nello spazio vettoriale. Il punteggio di similarità del coseno può essere qualsiasi valore compreso tra -1 e 1. Più alto è il valore del coseno, più due oggetti sono considerati simili.
Il modello dello spazio vettoriale IR restituisce i documenti in ordine in base al grado di similarità misurato. In questo modo, i sistemi IR algebrici, come il modello dello spazio vettoriale, consentono un abbinamento parziale, fornendo potenzialmente una forma più precisa o sfumata di recupero delle informazioni.13