¿Qué es la recuperación de datos?

By Alice Gomstyn , Alexandra Jonker

Recuperación de datos: definición

La recuperación de datos es el proceso de acceder a información lista para su uso desde una fuente de datos.

Tradicionalmente, el término “recuperación de datos” se ha referido al uso de lenguajes de consulta para recuperar datos estructurados de bases de datos. Sin embargo, a medida que los volúmenes de datos aumentan y la tecnología avanza, el término se ha asociado a la recuperación de una gran variedad de tipos de datos, ya sean estructurados o no estructurados.

Las organizaciones utilizan la recuperación de datos para aprovechar las colecciones de datos cada vez más ricas, tanto dentro de sus propios sistemas como en repositorios de terceros. A través de herramientas de recuperación de datos, los usuarios empresariales, los investigadores y otros pueden encontrar respuestas a sus preguntas y localizar puntos de datos clave, procedentes de fuentes a las que sería difícil o incluso imposible acceder mediante métodos manuales.

Antaño limitados a búsquedas rudimentarias en bases de datos, los sistemas de recuperación de datos actuales suelen estar mejorados con tecnologías de automatización e inteligencia artificial (IA) capaces de gestionar solicitudes de datos complejas, conectarse a más bases de conocimiento y optimizar dinámicamente la ejecución de consultas. El machine learning, el procesamiento del lenguaje natural y la generación aumentada de recuperación (RAG) contribuyen a mejorar la precisión y la relevancia de los datos proporcionados en respuesta a las consultas.

¿Por qué es importante la recuperación de datos?

La toma de decisiones inteligente se produce cuando las organizaciones pueden extraer perspectivas valiosas a partir de datos de alta calidad.

Pero antes de que pueda llevarse a cabo el análisis, las organizaciones deben acceder a esos datos. Esta tarea puede resultar especialmente compleja cuando los datos residen en un gran conjunto de datos o en un vasto ecosistema de datos, como una amplia base de datos de investigación científica o un extenso sistema de almacenamiento híbrido en multinube.

El crecimiento explosivo de los datos intensifica estos retos: según algunas estimaciones, cada día se crean más de 400 millones de terabytes de datos, mientras que las propias empresas suelen gestionar un petabyte de datos o más¹.

Los avances en inteligencia artificial también han cambiado las necesidades de datos de las empresas. Los flujos de trabajo de IA requieren un acceso a datos rápido, incluido el acceso a grandes volúmenes de datos no estructurados.

Históricamente, los procesos de recuperación de datos se centraban en consultas procedentes de fuentes estructuradas, como los sistemas de gestión de bases de datos relacionales. Sin embargo, en lugar de utilizar enfoques manuales que requieren mucho tiempo para examinar las enormes fuentes de datos internas y externas actuales, las organizaciones recurren a la recuperación de datos moderna. Este enfoque utiliza tecnologías como las bases de datos vectoriales y la generación aumentada por recuperación para satisfacer la demanda de datos que residen fuera de las bases de datos relacionales internas.

La RAG agéntica, en particular, ha demostrado ser especialmente eficaz a la hora de satisfacer esta demanda. David Levy, ingeniero tecnológico asesor de Client Engineering en IBM, explicó las capacidades de la RAG agéntica en una presentación para IBM Technology.

“La RAG agéntica supone una evolución en la forma en que mejoramos el proceso de RAG, yendo más allá de la simple generación de respuestas para alcanzar una toma de decisiones más inteligente. Al permitir que un agente elija las mejores fuentes de datos e incluso incorpore información externa, como datos en tiempo real o servicios de terceros, podemos crear un proceso más receptivo, más preciso y más adaptable”, afirmó Levy.

¿El resultado? Las empresas y otras organizaciones pueden sacar mayor partido a sus propios datos empresariales estructurados y no estructurados, así como a los crecientes volúmenes de datos generados fuera de sus ecosistemas. Tienen la capacidad de acceder a los datos precisos que necesitan cuando los necesitan, lo que permite realizar análisis y obtener perspectivas basadas en datos que impulsan mejores resultados empresariales.

Recuperación de datos vs. recuperación de información vs. minería de datos

Los términos recuperación de datos y recuperación de información (IR) se utilizan a menudo de forma intercambiable, y con razón.

Aunque tradicionalmente se han asociado a diferentes tipos de datos (estructurados para la recuperación de datos; no estructurados para la IR), los avances en la ciencia de datos han difuminado la distinción. La recuperación de datos no solo puede abarcar ahora datos no estructurados, sino que algunos sistemas de IR permiten la “recuperación de documentos estructurados” (mediante el uso de XML para indexar documentos de texto).

Podría decirse que la diferencia más notable entre ambos se manifiesta en los tipos de resultados que produce cada uno. La recuperación de datos se centra en devolver coincidencias exactas a las consultas de los usuarios, mientras que los sistemas de IR, que constituyen la columna vertebral de los motores de búsqueda web, proporcionan múltiples resultados (como páginas web) clasificados según su relevancia.

Tanto la recuperación de datos como la recuperación de información se confunden a veces con la minería de datos. En este caso, sin embargo, la diferencia es clara: mientras que la recuperación de datos y la recuperación de información se centran en acceder a los datos y proporcionarlos, la minería de datos implica descubrir patrones y perspectivas a partir de los datos. En otras palabras, abarca el análisis, no solo la recuperación. Además, la minería de datos se aplica a grandes conjuntos de datos, mientras que la recuperación de datos y la recuperación de información pueden utilizarse para colecciones de datos de cualquier tamaño.

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

Enfoques tradicionales de recuperación de datos

Los métodos de recuperación de datos pueden dividirse en dos categorías: técnicas tradicionales y técnicas de IA². Las técnicas tradicionales incluyen:

Uso de lenguajes de consulta
Indexación
Optimización de consultas

Uso de lenguajes de consulta

Los datos se recuperan de los sistemas clásicos de gestión de bases de datos (DBMS) mediante lenguajes de consulta. El lenguaje de consulta más destacado es el lenguaje de consulta estructurado, o SQL, que se utiliza para bases de datos relacionales. Los usuarios implementan comandos SQL para recuperar datos y realizar otras tareas, como adiciones, actualizaciones y eliminaciones.

Indexación

La indexación consiste en la creación de estructuras de datos consultables que apuntan a registros de datos en tablas más grandes. Las operaciones de búsqueda pueden escanear índices en lugar de tablas completas, lo que da lugar a un procesamiento de consultas más rápido y eficiente.

Optimización de consultas

En los sistemas de gestión de bases de datos, las herramientas de optimización de consultas mejoran el rendimiento de las mismas eligiendo la opción más eficiente entre diferentes planes de consulta, o diferentes formas de realizar consultas. Los optimizadores deciden, por ejemplo, si se deben utilizar índices, de qué manera leer una tabla y, cuando se solicita una unión, el orden en que se unen las tablas.

Estas técnicas bien establecidas han demostrado su eficacia para recuperar datos estructurados y dar soporte a operaciones de búsqueda básicas, pero también se sabe que se quedan cortas en múltiples áreas, incluyendo la recuperación de datos no estructurados, la ejecución de consultas complejas, la captura de significado semántico, el soporte a la escalabilidad y la entrega de resultados en tiempo real³.

Técnicas de IA para la recuperación de datos

Las técnicas de recuperación de datos impulsadas por IA ayudan a compensar las deficiencias de las técnicas tradicionales de recuperación de datos, mejorando el rendimiento de las consultas y la experiencia de los usuarios⁴.

Entre las tecnologías clave de recuperación de datos basadas en la IA se incluyen:

Búsqueda vectorial
Machine learning y deep learning
Procesamiento del lenguaje natural
Generación aumentada por recuperación y RAG agéntica

Búsqueda vectorial

En las bases de datos vectoriales, diversos tipos de datos, incluidos textos e imágenes, se almacenan como representaciones numéricas conocidos como embeddings vectoriales. Los embeddings vectoriales que presentan dimensiones similares se agrupan. Durante una búsqueda vectorial, los sistemas recuperan datos y documentos relevantes con embeddings vectoriales similares a los términos de búsqueda. Estas búsquedas suelen basarse en algoritmos de vecino más cercano que infieren conexiones entre puntos de datos en función de su proximidad.

Machine learning y deep learning

Los algoritmos de machine learning entrenados con datos históricos y el comportamiento de los usuarios pueden ofrecer recomendaciones de búsqueda a los usuarios basadas en patrones de búsqueda comunes, para luego mostrar los datos relevantes. Además, una rama del machine learning conocida como deep learning puede ayudar a recuperar datos no estructurados. Por ejemplo, las redes neuronales convolucionales (CNN) impulsan la visión artificial, que puede utilizarse para buscar archivos de imagen y vídeo⁵.

Procesamiento del lenguaje natural

El procesamiento del lenguaje natural, o PLN, facilita la realización de consultas de búsqueda intuitivas, ya que permite a los usuarios formular sus consultas de forma coloquial, en lugar de estructurarlas como comandos de un lenguaje de consulta. De este modo, en lugar de basarse únicamente en la coincidencia de palabras clave, los motores de búsqueda basados en el PLN pueden llevar a cabo búsquedas semánticas: identifican resultados relevantes que reflejan la intención de la consulta, incluso si los términos exactos de la búsqueda no están presentes en un documento.

Generación aumentada por recuperación y RAG agéntica

La generación aumentada por recuperación conecta modelos de lenguaje de gran tamaño on bases de conocimiento externas mediante interfaces de programación de aplicaciones (API). Esto permite a los sistemas recuperar información que es tanto específica del dominio como oportuna.

Los sistemas de RAG agéntica añaden capacidades avanzadas a la RAG tradicional, con un razonamiento agéntico que optimiza dinámicamente las consultas y mejora el rendimiento de la recuperación de datos. Los componentes de los principales sistemas de RAG agéntica incluyen:

Capacidades de búsqueda básicas: la recuperación de datos se basa en enfoques tradicionales y con IA, incluyendo la indexación y combinaciones de búsqueda por palabras clave y búsqueda vectorial (conocida como búsqueda híbrida).

Almacenamiento en caché semántico: los sistemas de RAG agéntica pueden almacenar y consultar conjuntos anteriores de consultas, contexto y resultados. Esta memoria puede servir de base para nuevas búsquedas, lo que genera resultados más relevantes y personalizados.

Segmentación agéntica: la segmentación agéntica divide grandes entradas de texto en bloques más pequeños y semánticamente coherentes (chunks) almacenados en bases de datos vectoriales. Su coherencia semántica permite a los sistemas recuperar respuestas más completas y de mayor calidad a las consultas.

Agentes de enrutamiento: los agentes de enrutamiento determinan qué fuentes de conocimiento y herramientas externas responderían mejor a la consulta de un usuario.

Agentes de planificación de consultas: los agentes de planificación de consultas desglosan las consultas complejas de los usuarios en procesos paso a paso y envían las subconsultas resultantes a los demás agentes del sistema RAG. Una vez que dichos agentes proporcionan sus respectivas respuestas, los agentes de planificación de consultas las combinan para ofrecer una respuesta cohesiva.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

Ir al episodio

Casos de uso de recuperación de datos

Las técnicas y soluciones de recuperación de datos pueden mejorar el acceso y la gestión de datos en una gran variedad de sectores y disciplinas.

Atención médica

Un proveedor de servicios para instalaciones sanitarias utilizó el procesamiento del lenguaje natural y la generación aumentada por recuperación para acelerar la recuperación de datos críticos para el negocio en un 90 %.

Servicios financieros

Una empresa de fintech implementó un chatbot de atención al cliente basado en RAG que recuperaba información en tiempo real, reduciendo el tiempo medio de interacción en un 80 % en comparación con los call centers tradicionales.

Comercio electrónico

Las empresas de comercio electrónico permiten a los compradores subir fotos de lo que pretenden adquirir, y las soluciones de búsqueda basadas en visión artificial recuperan información sobre productos similares a los que aparecen en las imágenes.

Retos de la recuperación de datos

A medida que las empresas exploran soluciones de recuperación de datos, es importante tener en cuenta los posibles retos.

Calidad de los datos

A medida que las empresas logran recuperar datos con mayor éxito, es posible que descubran que algunos de ellos están plagados de lagunas y errores. Las prácticas de gestión de la calidad de los datos, como la elaboración de perfiles de datos y la limpieza de datos, pueden ayudar a las organizaciones a optimizar los conjuntos de datos en cuanto a precisión, exhaustividad, coherencia y otras dimensiones de la calidad.

Seguridad

La implementación de capacidades mejoradas de recuperación de datos puede ser arriesgada si no se cuentan con las medidas de seguridad adecuadas para garantizar que las personas no autorizadas no puedan acceder a los datos confidenciales. Las plataformas de datos gobernadas pueden incluir controles integrados de seguridad, identidad y acceso para impedir el acceso no autorizado y facilitar el cumplimiento normativo.

Vendor lock-in

Las soluciones de datos propietarias suelen agrupar la recuperación de datos, la orquestación y los modelos de IA en sistemas cerrados, lo que limita a las organizaciones a pilas tecnológicas controladas por los proveedores. Las soluciones de datos de código abierto que incorporan RAG agéntica y otras tecnologías ofrecen una alternativa, lo que permite a las empresas un mayor control sobre sus pilas tecnológicas y sus funciones de gestión de datos.

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor