La recuperación booleana de documentos inhibe cualquier forma de coincidencia parcial. Los modelos algebraicos y probabilísticos abordan este asunto mediante la asignación de ponderaciones no binarias a los términos del índice.
Un modelo algebraico representativo es el modelo de espacio vectorial. En este enfoque, el sistema de IR representa documentos y consultas como vectores en un espacio vectorial multidimensional. En este espacio, los términos de índice probablemente serán características del espacio vectorial, y las consultas y los documentos se trazan en este espacio de acuerdo con la presencia y frecuencia con que contienen términos de índice. El sistema de IR calcula la similitud entre una consulta de búsqueda y los documentos según su proximidad en el espacio vectorial.
Hay una serie de métricas para determinar la proximidad en un modelo de espacio vectorial, como Jaccard y el producto escalar. Sin embargo, quizás uno de los más comunes sea la similitud coseno, representada por la fórmula
Aquí, A y B significan dos vectores en el espacio vectorial. La puntuación de similitud coseno puede ser cualquier valor entre -1 y 1. Cuanto mayor sea la puntuación del coseno, más similares se considerarán dos elementos.
El modelo de espacio vectorial IR devuelve los documentos ordenados según su grado de similitud medido. De este modo, los sistemas algebraicos de IR, como el modelo de espacio vectorial, permiten realizar correspondencias parciales, lo que potencialmente proporciona una forma más precisa o matizada de recuperación de la información13.