¿Qué es la recuperación de datos?

By Alice Gomstyn , Alexandra Jonker

Definición de recuperación de datos

La recuperación de datos es el proceso de acceder a información lista para usar desde una fuente de datos.

Tradicionalmente, el término de recuperación de datos se ha referido al uso de lenguajes de consulta para recuperar datos estructurados de bases de datos. Sin embargo, a medida que aumentan los volúmenes de datos y avanza la tecnología, el término se ha ido asociando a la recuperación de una gran variedad de tipos de datos, ya sean estructurados o no estructurados.

Las organizaciones utilizan la recuperación de datos para aprovechar los conjuntos de datos cada vez más completos, tanto dentro de sus propios sistemas como en repositorios de terceros. Gracias a las herramientas de recuperación de datos, los usuarios empresariales, los investigadores y otras personas pueden encontrar respuestas a sus preguntas y localizar datos clave procedentes de fuentes a las que sería difícil, o incluso imposible, acceder mediante métodos manuales.

En la actualidad, los sistemas de recuperación de datos, que antes se limitaban a búsquedas rudimentarias en bases de datos, a menudo se mejoran con tecnologías de automatización e inteligencia artificial (IA) que pueden gestionar solicitudes de datos complejas, conectarse a más bases de conocimiento y optimizar dinámicamente la ejecución de consultas. El machine learning, el procesamiento de lenguaje natural y la generación aumentada por recuperación (RAG, por sus siglas en inglés) ayudan a mejorar la precisión y relevancia de los datos proporcionados en respuesta a las consultas.

¿Por qué es importante la recuperación de datos?

La toma de decisiones inteligente ocurre cuando las organizaciones pueden extraer insights de datos de alta calidad.

Pero antes de poder realizar el análisis, las organizaciones deben tener acceso a esos datos. Esta tarea puede ser especialmente desafiante cuando los datos residen dentro de un gran conjunto de datos o un vasto patrimonio de datos, como una base de datos de investigación científica expansiva o un sistema de almacenamiento híbrido multinube en expansión.

El crecimiento explosivo de los datos intensifica estos desafíos: se crean más de 400 millones de terabytes de datos cada día, según algunas estimaciones, mientras que las propias empresas a menudo gestionan un petabyte de datos o más.¹

Los avances en inteligencia artificial también han cambiado las necesidades de datos empresariales. Los flujos de trabajo de IA requieren acceso rápido a los datos, incluyendo acceso a grandes volúmenes de datos no estructurados.

Históricamente, los procesos de recuperación de datos se enfocaron en consultas de fuentes estructuradas como sistemas de gestión de bases de datos relacionales. Sin embargo, en lugar de utilizar enfoques manuales que requieren mucho tiempo para analizar las enormes fuentes de datos internas y externas actuales, las organizaciones recurren a la recuperación de datos moderna. Este enfoque utiliza tecnologías como las bases de datos vectoriales y la generación aumentada por recuperación para satisfacer la demanda de datos que se encuentran fuera de las bases de datos relacionales internas.

La RAG agéntica, en particular, ha demostrado ser especialmente poderosa para satisfacer esta demanda. David Levy, ingeniero asesor de tecnología para Client Engineering en IBM, explicó las capacidades de RAG agéntica en una presentación para IBM Technology.

“La RAG agéntica es una evolución en la forma en que mejoramos el pipeline de RAG al ir más allá de la simple generación de respuestas a una toma de decisiones más inteligente. Al permitir que un agente elija las mejores fuentes de datos y potencialmente incluso incorpore información externa, como datos en tiempo real o servicios de terceros, podemos crear un pipeline que sea más receptivo, más preciso y más adaptable”, dijo Levy.

¿El resultado? Las empresas y otras organizaciones pueden aprovechar mejor sus propios datos empresariales estructurados y no estructurados, así como los crecientes volúmenes de datos producidos fuera de sus ecosistemas. Tienen la capacidad de acceder a los datos precisos que necesitan cuando los necesitan, lo que permite realizar analytics y obtener insights basados en datos que impulsan mejores resultados comerciales.

Recuperación de datos, recuperación de información y minería de datos

Los términos de recuperación de datos y recuperación de información (IR) a menudo se usan indistintamente, y por una buena razón.

Si bien tradicionalmente se han asociado con diferentes tipos de datos (estructurados para la recuperación de datos; no estructurados para IR), los desarrollos en la ciencia de datos han enturbiado la distinción. La recuperación de datos ahora no solo puede cubrir datos no estructurados, sino que algunos sistemas de IR permiten la “recuperación estructurada de documentos” (mediante el uso de XML para indexar documentos de texto).

Podría decirse que la diferencia más sobresaliente entre los dos se manifiesta en los tipos de resultados que cada uno produce. La recuperación de datos se centra en devolver coincidencias exactas a las consultas de los usuarios, mientras que los sistemas de IR, que forman la columna vertebral de los motores de búsqueda web, proporcionan múltiples resultados (como páginas web) clasificados por su información relevante.

Tanto la recuperación de datos como la recuperación de información se confunden a veces con la minería de datos. Aquí, sin embargo, la diferenciación es clara: mientras que la recuperación de datos y la IR se centran en acceder a datos y entregarlos, la minería de datos implica descubrir patrones e insights a partir de los datos. En otras palabras, abarca el análisis, no solo la recuperación. Además, la minería de datos se aplica a grandes conjuntos de datos, mientras que la recuperación de datos y la IR se pueden utilizar para colecciones de datos de cualquier tamaño.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

Enfoques tradicionales de recuperación de datos

Los métodos de recuperación de datos se pueden dividir en dos categorías: técnicas tradicionales y técnicas de IA.² Las técnicas tradicionales incluyen:

Uso de lenguajes de consulta
Indexación
Optimización de consultas

Uso de lenguajes de consulta

Los datos se recuperan de los sistemas clásicos de gestión de bases de datos (DBMS) a través de lenguajes de consulta. El lenguaje de consulta más destacado es el lenguaje de consulta estructurado, o SQL, que se utiliza para las bases de datos relacionales. Los usuarios despliegan comandos SQL para recuperar datos y realizar otras tareas, como inserciones, actualizaciones y eliminaciones.

Indexación

La indexación es la creación de estructuras de datos que se pueden buscar y que apuntan a registros de datos en tablas más grandes. Las operaciones de búsqueda pueden escanear índices en lugar de tablas enteras, lo que da como resultado un procesamiento de consultas más rápido y eficiente.

Optimización de consultas

En los sistemas de gestión de bases de datos, las herramientas de optimización de consultas mejoran el rendimiento de las consultas al seleccionar la opción más eficiente entre los distintos planes de consulta, o las diferentes formas de ejecutar las consultas. Los optimizadores deciden, por ejemplo, si se deben usar índices, de qué manera leer una tabla y, cuando se solicita una unión, el orden en que se unen las tablas.

Estas técnicas bien establecidas han demostrado ser eficaces para recuperar datos estructurados y respaldar operaciones de búsqueda básicas, pero también se sabe que son insuficientes en múltiples áreas, incluida la recuperación de datos no estructurados, la ejecución de consultas complejas, la captura del significado semántico, el apoyo a la escalabilidad y la entrega de resultados en tiempo real.³

Técnicas de IA para la recuperación de datos

Las técnicas de recuperación de datos impulsadas por IA ayudan a compensar las deficiencias de las técnicas tradicionales de recuperación de datos, mejorando el rendimiento de las consultas y las experiencias del usuario.⁴

Las tecnologías clave de recuperación de datos con IA incluyen:

Búsqueda vectorial
Machine learning y aprendizaje profundo
Procesamiento del lenguaje natural
Generación aumentada por recuperación y RAG agéntica

Búsqueda vectorial

En las bases de datos vectoriales, se almacenan diversos tipos de datos, como texto e imágenes, en forma de representaciones numéricas conocidas como incorporaciones vectoriales. Las incorporaciones vectoriales que tienen dimensiones similares se agrupan. Durante una búsqueda vectorial, los sistemas recuperan datos y documentos relevantes con incorporaciones vectoriales que son similares a los términos de búsqueda. Dichas búsquedas generalmente se basan en algoritmos del vecino más cercano que infieren conexiones entre puntos de datos en función de su proximidad.

Machine learning (ML) y aprendizaje profundo

Los algoritmos de machine learning entrenados con datos históricos y el comportamiento de los usuarios pueden proporcionar recomendaciones de consulta a los usuarios basadas en patrones de consulta comunes y luego mostrar datos relevantes. Además, un subconjunto de machine learning conocido como aprendizaje profundo puede ayudar a recuperar datos no estructurados. Por ejemplo, las redes neuronales convolucionales (CNN) son la base de la visión artificial, que se puede utilizar para buscar archivos de imagen y video.⁵

Procesamiento de lenguaje natural

El procesamiento de lenguaje natural, o PLN, permite consultas de búsqueda fáciles de usar al permitir que los usuarios realicen consultas por texto de forma conversacional, en lugar de estructurarlas como comandos en lenguaje de consulta. Además, en lugar de basarse únicamente en la coincidencia de palabras clave, los motores de búsqueda basados en el PLN pueden realizar búsquedas semánticas: identifican resultados relevantes que reflejan la intención de la consulta, incluso si los términos exactos de la búsqueda no aparecen en el documento.

Generación aumentada por recuperación y RAG agéntica

La generación aumentada por recuperación conecta los modelos de lenguaje grandes con bases de conocimiento externas mediante interfaces de programación de aplicaciones (API). Esto permite que los sistemas recuperen información específica del dominio y oportuna.

Los sistemas de RAG agéntica agregan capacidades avanzadas a la RAG tradicional, con razonamiento agéntico que optimiza dinámicamente las consultas y eleva el rendimiento de recuperación de datos. Los componentes de los principales sistemas de RAG agéntica incluyen:

Capacidades básicas de búsqueda: la recuperación de datos está basada en enfoques de recuperación de datos tradicionales e impulsados por IA, incluida la indexación y las combinaciones de búsqueda por palabra clave y búsqueda vectorial (conocida como búsqueda híbrida).

Almacenamiento en caché semántico: los sistemas RAG basados en agentes pueden almacenar y consultar conjuntos anteriores de consultas, contexto y resultados. Esta memoria puede informar nuevas búsquedas, produciendo resultados más relevantes y personalizados.

Agrupación por agentes: la agrupación por agentes divide grandes entradas de texto en bloques más pequeños y semánticamente coherentes (fragmentos) que se almacenan en bases de datos vectoriales. Su coherencia semántica permite a los sistemas obtener respuestas más completas y de mayor calidad a las consultas.

Agentes de enrutamiento: los agentes de enrutamiento determinan qué fuentes y herramientas de conocimiento externas abordan mejor una consulta de usuario.

Agentes de planificación de consultas: los agentes de planificación de consultas desglosan las consultas complejas de los usuarios en procesos paso a paso y envían las subconsultas resultantes a los demás agentes del sistema RAG. Una vez que esos agentes entregan sus respectivas respuestas, los agentes de planificación de consultas las combinan para obtener una respuesta cohesiva.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Ir al episodio

Casos de uso de recuperación de datos

Las técnicas y soluciones de recuperación de datos pueden mejorar el acceso y la gestión de los datos en una gran variedad de industrias y disciplinas.

Atención médica

Un proveedor de servicios para instalaciones de atención médica utilizó el procesamiento de lenguaje natural y la generación aumentada por recuperación para acelerar la recuperación de datos críticos para el negocio en un 90 %.

Servicios financieros

Una empresa de tecnología financiera desplegó un chatbot de atención al cliente impulsado por RAG que recuperaba información en tiempo real, lo que redujo el tiempo promedio de interacción en un 80 % en comparación con los centros de atención telefónica tradicionales.

Comercio electrónico

Las empresas de comercio electrónico permiten a los compradores subir fotos de lo que desean adquirir, y las soluciones de búsqueda basadas en la visión artificial recuperan información sobre productos similares a los que aparecen en las imágenes.

Desafíos de la recuperación de datos

A medida que las empresas exploran soluciones de recuperación de datos, es importante tener en cuenta los desafíos potenciales.

Calidad de los datos

A medida que las empresas tienen más éxito en la recuperación de datos, es posible que algunos estén plagados de deficiencias y errores. Las prácticas de gestión de calidad de los datos, como la elaboración de perfiles de datos y la limpieza de datos, pueden ayudar a las organizaciones a optimizar los conjuntos de datos en cuanto a precisión, integridad, coherencia y otras dimensiones de la calidad.

Seguridad

Implementar capacidades mejoradas de recuperación de datos puede ser arriesgado sin las medidas de seguridad adecuadas para garantizar que las personas equivocadas no puedan recuperar datos confidenciales. Las plataformas de datos gobernadas pueden incluir controles integrados de seguridad, identidad y acceso para evitar el acceso no autorizado y garantizar el cumplimiento normativo.

Vendor lock-in (dependencia de proveedores)

Las soluciones de datos propietarias suelen agrupar la recuperación de datos, la orquestación y los modelos de IA en sistemas cerrados, limitando a las organizaciones a pilas de tecnología controladas por el proveedor. Las soluciones de datos de código abierto con RAG agéntica y otras tecnologías ofrecen una alternativa que permite a las empresas un mayor control sobre sus pilas tecnológicas y funciones de gestión de datos.

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor