¿Qué es la recuperación de información?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Meredith Syed

Technical Content, Editorial Lead

IBM

¿Qué es la recuperación de información?

La recuperación de información (IR) es un amplio campo de la informática y la ciencia de la información que aborda la recuperación de datos para las consultas de los usuarios. Impulsa herramientas de búsqueda como catálogos de bibliotecas y motores de búsqueda web.

En general, podemos definir la IR como encontrar datos no estructurados dentro de una gran colección para satisfacer una necesidad de información particular1. Un sistema de IR (sistema de recuperación de información) proporciona material en respuesta a una consulta determinada. El sistema busca en las colecciones elementos relevantes a la consulta del usuario. Luego devuelve esos elementos al usuario, generalmente en forma de lista ordenada según la relevancia calculada2.

Los sistemas y técnicas de IR alimentan toda una serie de herramientas de búsqueda, como los buscadores web y los catálogos de las bibliotecas digitales.

Recuperación de información vs. recuperación de datos

Tenga en cuenta que muchas fuentes en internet contrastan los sistemas de IR con la recuperación de datos: los sistemas de IR recuperan información no estructurada, como documentos de texto y páginas web; la recuperación de datos, por el contrario, se ocupa de datos estructurados, como los que se encuentran en los sistemas de gestión de bases de datos relacionales. Por extensión, la recuperación de datos utiliza un lenguaje de consulta estructurado (SQL) para realizar consultas de búsqueda.

Esta distinción entre la IR como no estructurada y no relacional frente a la recuperación de datos como estructurada y relacional, sin embargo, es más equívoca de lo que sugieren muchas fuentes en internet. Los sistemas de IR indexan y, por lo tanto, estructuran la información. Por ejemplo, aunque es cierto que la IR se ocupa tradicionalmente de la recuperación de documentos de texto sin formato, algunos sistemas de IR utilizan XML para representar e indexar textos. La literatura de investigación describe a menudo los sistemas basados en XML como una rama de la IR llamada recuperación estructurada o recuperación semiestructurada3. Además, la literatura ha explorado el uso de modelos de IR relacionales durante décadas4.

La distinción entre IR y recuperación de datos es por lo tanto más ambigua de lo que tradicionalmente se ha sostenido. De hecho, dado que los datos son, por definición, información, la recuperación de datos estructurados quizás se entienda mejor como un tipo de recuperación de información.

Recuperación de información vs. sistemas de recomendación

Tenga en cuenta que la IR es distinta de los sistemas de recomendación. Las técnicas de recomendación de machine learning (como el filtrado colaborativo y el filtrado basado en contenido) quizás puedan entenderse como una forma de filtrado de información, una subtarea de los sistemas de IR. Sin embargo, los sistemas de IR y de recomendación son distintos. Tradicionalmente, la IR requiere una consulta del usuario; los motores de recomendación normalmente recuperan objetos sin una consulta del usuario5.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funcionan los sistemas de recuperación de información

Los diferentes modelos de IR representan la información de diferentes maneras. La forma elegida de representación del documento determina en gran medida cómo el modelo busca y recupera la información. Sin embargo, la indexación, la ponderación y el feedback de relevancia son tres técnicas de recuperación de información comunes en todos los modelos de IR.

Indexación

La indexación equivale esencialmente a la creación de metadatos6. Muchas personas se han encontrado con un índice al final de un libro impreso. Es un conjunto estructurado de palabras compiladas a partir del documento impreso dado que permite a los lectores acceder fácilmente a pasajes sobre temas determinados. El índice IR es similar. Un índice IR (o índice invertido) es una estructura de datos procedente de un conjunto de documentos cuyo objetivo es mejorar los resultados de las consultas de búsqueda7.

La construcción de índices requiere analizar primero un documento para extraer características. Por ejemplo, supongamos que estamos creando un sistema de IR para documentos basados en texto. Como es habitual en el procesamiento del lenguaje natural (PLN), preparamos la colección de documentos con diversas técnicas de preprocesamiento, como la tokenización y la eliminación de palabras vacías. A continuación, el sistema de IR representa esta colección procesada de documentos como una estructura de datos organizada. Una de estas estructuras es un diccionario en el que cada documento tiene un ID señalado por las palabras (o términos índice) que aparecen en él8. Otra estructura de datos potencial para un sistema de recuperación de textos es un modelo de espacio vectorial, como una bag of words9. Ambos enfoques extraen palabras como características, que luego se utilizan para recuperar y clasificar documentos en respuesta a las consultas de los usuarios.

Ponderación

¿Cómo clasifica un sistema de búsqueda las coincidencias aproximadas o exactas para una consulta determinada? Los enfoques para la clasificación y recuperación de información dependen tanto del tipo de modelo de recuperación de información como de la forma de representación del documento utilizado en el sistema. Sin embargo, los términos de índice juegan un papel clave en cómo un sistema IR clasifica los documentos en respuesta a las consultas. Pero no todos los términos de índice son iguales. De este modo, los sistemas IR utilizan métodos diferentes para ponderar los términos del índice según su importancia percibida.

Los sistemas IR que utilizan modelos de espacio vectorial, como bag of words, pueden utilizar el término frecuencia-frecuencia inversa del documento (TF-IDF). TF-IDF es una variación de bag of words que da cuenta de la prevalencia de una palabra en cada documento del conjunto de textos. Cuantos más documentos aparezcan en los que esté presente una palabra determinada, mayor es la reducción de la ponderación de esa palabra por TF-IDF. Otros enfoques incluyen la descomposición de valores singulares (SVD) y el análisis semántico latente (LSA). Este último es un enfoque común de modelado de temas10.

Estos enfoques de ponderación afectan a la forma en que los sistemas IR clasifican los documentos en respuesta a las consultas. Pero los diferentes tipos de modelos IR utilizan estas ponderaciones para clasificar de diferentes maneras.

Feedback de relevancia

¿Cómo podría un sistema mejorar sus resultados de búsqueda? Es decir, ¿cómo podría un sistema afinar la búsqueda de un usuario y aumentar el número de documentos relevantes devueltos?

El feedback de relevancia es una técnica común de recuperación de información para mejorar los resultados. Básicamente, el feedback de relevancia recopila información sobre la respuesta del usuario a un conjunto inicial de resultados de consulta. A continuación, el sistema vuelve a ponderar la relevancia del elemento a la luz de las respuestas del usuario. A continuación, devuelve un nuevo conjunto de resultados de búsqueda que incorpora la consulta inicial y el feedback del usuario a ese conjunto inicial de resultados de consulta.

El feedback de relevancia suele implicar que el usuario proporcione respuestas explícitas sobre la relevancia de los documentos recuperados. El feedback implícito es una variante que deduce la relevancia de los artículos mediante la observación del comportamiento del usuario; por ejemplo, en qué enlaces de sitios web hace clic un usuario en una página de resultados de búsqueda. El feedback de pseudorrelevancia asume que los primeros n documentos recuperados de una consulta inicial son relevantes. A continuación, reúne características adicionales comunes a todos esos documentos para modificar aún más la consulta11.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Tipos de técnicas de recuperación de información

Existen numerosos tipos de modelos de recuperación de información. Proporcionar algo en forma de resumen exhaustivo requiere una discusión mucho más amplia. Sin embargo, los libros de texto sobre IR y las reseñas enciclopédicas a menudo se superponen al mencionar tres metodologías generales de IR: booleana, algebraica y probabilística.

Modelo booleano

Los modelos booleanos son quizás los modelos IR más directos, incluso simplistas. Utilizan una estructura de diccionario de términos de índice como se ha descrito anteriormente. A continuación, el modelo clasifica los documentos según la presencia de palabras de la consulta de un usuario en los documentos recuperados. Por ejemplo, si un usuario realiza la consulta "jazz Y baile", el modelo booleano recupera solo los documentos que contienen las palabras jazz y baile en combinación. Los modelos booleanos solo tienen en cuenta la presencia o ausencia de palabras en un documento; no existen coincidencias parciales en los sistemas de recuperación booleanos. Las técnicas de preprocesamiento de texto, como el stemming y la lematización, pueden resolver este problema de las variantes morfológicas, como los documentos que contienen bailebailesbailarín, en lugar de solo la consulta del usuario bailando.

Como se ha mencionado, los modelos booleanos solo consideran la presencia y ausencia de palabras. Este criterio de decisión binario carece de una escala de calificación para determinar qué documentos son más pertinentes para la consulta de un usuario. Una posible solución es clasificar los documentos en función de la frecuencia con la que los usuarios consultan los términos que contienen. En otras palabras, cuanto más se mencionan en un documento  jazz y  baile, más pertinente lo considera el modelo para la consulta del usuario. Sin embargo, una mayor frecuencia de términos no indica necesariamente una mayor relevancia. A pesar de este posible inconveniente, los modelos booleanos se han utilizado en muchos sistemas de IR debido a su facilidad de implementación12.

Modelo algebraico

La recuperación booleana de documentos inhibe cualquier forma de coincidencia parcial. Los modelos algebraicos y probabilísticos abordan este asunto mediante la asignación de ponderaciones no binarias a los términos del índice.

Un modelo algebraico representativo es el modelo de espacio vectorial. En este enfoque, el sistema de IR representa documentos y consultas como vectores en un espacio vectorial multidimensional. En este espacio, los términos de índice probablemente serán características del espacio vectorial, y las consultas y los documentos se trazan en este espacio de acuerdo con la presencia y frecuencia con que contienen términos de índice. El sistema de IR calcula la similitud entre una consulta de búsqueda y los documentos según su proximidad en el espacio vectorial.

Hay una serie de métricas para determinar la proximidad en un modelo de espacio vectorial, como Jaccard y el producto escalar. Sin embargo, quizás uno de los más comunes sea la similitud coseno, representada por la fórmula

 cosine_similarity(A,B)=i=1nAiBii=1nAi2i=1nBi2   

Aquí, A y B significan dos vectores en el espacio vectorial. La puntuación de similitud coseno puede ser cualquier valor entre -1 y 1. Cuanto mayor sea la puntuación del coseno, más similares se considerarán dos elementos.

El modelo de espacio vectorial IR devuelve los documentos ordenados según su grado de similitud medido. De este modo, los sistemas algebraicos de IR, como el modelo de espacio vectorial, permiten realizar correspondencias parciales, lo que potencialmente proporciona una forma más precisa o matizada de recuperación de la información13.

Modelo probabilístico

Los modelos probabilísticos también permiten la coincidencia parcial entre las consultas de los usuarios y los documentos. Los modelos probabilísticos funcionan sobre la base de la suposición de que una consulta dada tiene un conjunto ideal de recursos del sistema de información recuperados. Este conjunto ideal es, sin duda, desconocido. Pero la semántica de los términos de índice puede caracterizar las propiedades de este conjunto.

Al igual que los modelos algebraicos, los modelos probabilísticos utilizan la presencia y frecuencia de términos de índice para determinar la similitud entre consultas y documentos. Pero los modelos probabilísticos se diferencian en que consideran factores adicionales. Por ejemplo, pueden tener en cuenta la cofrecuencia de términos de índice (con qué frecuencia los términos de índice coexisten en un documento) en relación con la longitud del texto completo del documento, o con qué frecuencia un solo término de índice aparece en todos los términos de consulta en una consulta determinada. Estos son solo algunos de los factores potenciales considerados; un análisis más detallado requiere una comprensión más profunda de la teoría de la probabilidad.

Tenga en cuenta que no todos los modelos probabilísticos consideran los mismos factores al calcular la similitud o probabilidad de un documento. Por ejemplo, el modelo de independencia binaria (BIM), el primer modelo probabilístico de IR, no tienen en cuenta la frecuencia de los términos. Sin embargo, un modelo que incorpore la técnica de modelado de temas de asignación latente de Dirichlet (LDA) tendrá en cuenta la cofrecuencia de términos14.

Investigación reciente

Sesgo. Los motores de búsqueda web son quizá uno de los casos de uso de IR más conocidos. La herramienta de resumen de texto PageRank se utiliza para recuperar y clasificar páginas web (documentos HTML). Las investigaciones demuestran de forma fehaciente la desafortunada realidad de que los algoritmos de búsqueda perpetúan una serie de sesgos, como los basados en la raza y el género15. En respuesta, los experimentos publicados exploran una serie de métodos para reducir el sesgo social en los sistemas de IR, como el muestreo negativo16 y los algoritmos conscientes del sesgo que incorporan penalizaciones por resultados sesgados17. Mitigar el sesgo es un área primordial de investigación para desarrollar una praxis ética en torno a la IR e incluso a la inteligencia artificial.

Soluciones relacionadas
IBM watsonx Orchestrate

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate
Herramientas y API de procesamiento del lenguaje natural

Acelere el valor empresarial de la inteligencia artificial con una cartera potente y flexible de bibliotecas, servicios y aplicaciones.

Explore soluciones de PLN
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Diseñe asistentes y agentes de IA escalables con facilidad, automatice tareas repetitivas y simplifique procesos complejos con IBM watsonx Orchestrate.

Descubra watsonx Orchestrate Explore soluciones de PLN
Notas a pie de página

1 Christopher Manning, Prabhakar Raghavan y Hinrich Schütze. An Introduction to Information Retrieval. Cambridge University Press. 2009.

2 Qiaozhu Mei y Dragomir Radev. “Information Retrieval”. The Oxford Handbook of Computational Linguistics. 2a edición. Oxford University Press. 2016.

3 Christopher Manning, Prabhakar Raghavan y Hinrich Schütze. An Introduction to Information Retrieval. Cambridge University Press. 2009. Mounia Lalmas y Ricardo Baeza-Yates. “Structured Document Retrieval”. Encyclopedia of Database Systems. Springer. 2018.

4 Robert Crawford. “The relational model in information retrieval”. Journal of the American Society for Information Science. Vol. 32. No. 1. 1981. Pp. 51-64.

5 Alejandro Bellogín y Alan Said. “Information Retrieval and Recommender Systems”. Data Science in Practice. Springer. 2018.

6 Jeffrey Pomerantz. Metadata. MIT Press. 2015.

7 Steven Beitzel, Eric Jensen y Ophir Frieder. “Index Creation and File Structures”. Encyclopedia of Database Systems. Springer. 2018.

8 Christopher Manning, Prabhakar Raghavan y Hinrich Schütze. An Introduction to Information Retrieval. Cambridge University Press. 2009.

9 Qiaozhu Mei y Dragomir Radev. “Information Retrieval”. The Oxford Handbook of Computational Linguistics. 2a edición. Oxford University Press. 2016.

10 Qiaozhu Mei and Dragomir Radev. “Information Retrieval.” The Oxford Handbook of Computational Linguistics. 2a edición. Oxford University Press. 2016. Ricardo Baeza-Yates y Berthier Ribeiro-Neto, Modern Information Retrieval, ACM Press, 1999.

11 Qiaozhu Mei y Dragomir Radev. “Information Retrieval”. The Oxford Handbook of Computational Linguistics. 2a edición. Oxford University Press. 2016. Stefan Büttcher, Charles Clarke y Gordon Cormack. Information Retrieval: Implementing and Evaluating Search Engines. MIT Press. 2016.

12 Ricardo Baeza-Yates y Berthier Ribeiro-Neto. Modern Information Retrieval. ACM Press. 1999. Christopher Manning, Prabhakar Raghavan y Hinrich Schütze. An Introduction to Information Retrieval. Cambridge University Press. 2009.

13 Qiaozhu Mei y Dragomir Radev. “Information Retrieval”. The Oxford Handbook of Computational Linguistics. 2a edición. Oxford University Press. 2016. Christopher Manning, Prabhakar Raghavan y Hinrich Schütze. An Introduction to Information Retrieval. Cambridge University Press. 2009.

14 Ricardo Baeza-Yates y Berthier Ribeiro-Neto. Modern Information Retrieval. ACM Press. 1999. Christopher Manning, Prabhakar Raghavan y Hinrich Schütze. An Introduction to Information Retrieval. Cambridge University Press. 2009.

15 Safiya Umoja Noble. Algorithms of Oppression: How Search Engines Reinforce Racism. NYU Press. 2018.

16 Amin Bigdeli et al. “A Light-Weight Strategy for Restraining Gender Biases in Neural Rankers”. Actas de la 44a Conferencia Europea sobre Avances en Recuperación de Información. 2022. Pp. 47-55.

17 Dhanasekar Sundararaman y Vivek Subramanian. “Debiasing Gender Bias in Information Retrieval Models”. 2022. https://arxiv.org/abs/2208.01755. Shirin Seyed Salehi et al. “Bias-aware Fair Neural Ranking for Addressing Stereotypical gender Biases”. Microsoft Research. 2022.