O que é recuperação de dados?

By Alice Gomstyn , Alexandra Jonker

Definição de recuperação de dados

A recuperação de dados é o processo de acessar informações prontas para uso a partir de uma fonte de dados.

Tradicionalmente, o termo recuperação de dados se refere ao uso de linguagens de consulta para recuperar dados estruturados de bancos de dados. No entanto, com a aumento do volume de dados e o avanço da tecnologia, o termo passou a ser associado à recuperação de inúmeros tipos de dados, sejam eles estruturados ou não estruturados.

A recuperação de dados é usada pelas organizações para aproveitar as coleções de dados cada vez mais ricas, tanto em seus próprios sistemas quanto de repositórios de terceiros. Por meio de ferramentas de recuperação de dados, os usuários corporativos, pesquisadores e outros podem encontrar respostas para perguntas e localizar pontos de dados importantes, de fontes que seriam difíceis ou até mesmo inacessíveis por meio de abordagens manuais.

Antes limitados a pesquisas rudimentares em bancos de dados, os sistemas de recuperação de dados atuais geralmente são aprimorados com tecnologias de automação e inteligência artificial (IA) que podem gerenciar solicitações de dados complexas, conectar-se a mais bases de conhecimento e otimizar dinamicamente a execução de consultas. Aprendizado de máquina, processamento de linguagem natural e geração aumentada de recuperação (RAG) ajudam a melhorar a precisão e a relevância dos dados fornecidos em resposta às consultas.

Por que a recuperação de dados é importante?

A tomada de decisão inteligente acontece quando as organizações conseguem extrair insights de dados de alta qualidade.

Mas antes que a análise possa ocorrer, as organizações devem acessar esses dados. Essa tarefa pode ser especialmente desafiadora quando os dados residem em um grande conjunto de dados ou em um vasto ambiente de dados, como um extenso banco de dados de pesquisa científica ou um sistema de armazenamento híbrido multi-nuvem disperso.

O crescimento explosivo de dados intensifica esses desafios: mais de 400 milhões de terabytes de dados, segundo algumas estimativas, são criados todos os dias, enquanto as próprias empresas costumam gerenciar um petabyte ou mais de dados.¹

Os avanços na inteligência artificial também mudaram as necessidades de dados das empresas. Os fluxos de trabalho de IA exigem acesso rápido aos dados, incluindo o acesso a grandes volumes de dados não estruturados.

Historicamente, os processos de recuperação de dados se concentram em consultas de fontes estruturadas, como sistemas de gerenciamento de bancos de dados relacionais. No entanto, em vez de usar abordagens manuais e demoradas para vasculhar as enormes fontes de dados internas e externas atuais, as organizações recorrem à recuperação de dados moderna. Essa abordagem usa tecnologias como bancos de dados de vetores e geração aumentada de recuperação para atender à demanda por dados que residem fora dos bancos de dados relacionais internos.

A RAG agêntica, em particular, tem se mostrado especialmente eficaz para atender a essa demanda.David Levy, Engenheiro de Tecnologia Consultiva para Client Engineering na IBM, explicou os recursos da RAG agêntica em uma apresentação para a IBM Technology.

"A RAG agêntica é uma evolução na forma como aprimoramos o pipeline de RAG, indo além da simples geração de respostas para uma tomada de decisão mais inteligente. Ao permitir que um agente escolha as melhores fontes de dados e potencialmente incorpore informações externas, como dados em tempo real ou serviços de terceiros, podemos criar um fluxo de trabalho mais responsivo, mais preciso e mais adaptável", disse Levy.

O resultado? As empresas e outras organizações podem tirar maior proveito de seus próprios dados empresariais estruturados e não estruturados, bem como dos volumes crescentes de dados produzidos fora de seu ecossistema. Elas têm autonomia para acessar os dados precisos de que precisam, quando precisam, permitindo análises de dados e insights baseados em dados que impulsionam melhores resultados de negócios.

Recuperação de dados versus recuperação de informações versus mineração de dados

Os termos recuperação de dados e recuperação de informações (IR) são frequentemente usados de forma intercambiável, e por um bom motivo.

Embora tradicionalmente tenham sido associados a diferentes tipos de dados (estruturados para recuperação de dados; não estruturados para recuperação de informação), os avanços na ciência de dados têm tornado essa distinção confusa. A recuperação de dados agora não só abrange dados não estruturados, como alguns sistemas de recuperação de informações permitem a "recuperação de documentos estruturados" (por meio do uso de XML para indexar documentos de texto).

Pode-se argumentar que a diferença mais notável entre os dois se manifesta nos tipos de resultados que cada um produz. A recuperação de dados se concentra em retornar correspondências exatas às consultas do usuário, enquanto os sistemas de recuperação de Informação, que formam a espinha dorsal dos mecanismos de busca na web, fornecem múltiplos resultados (como páginas da web) classificados por suas informações relevantes.

A recuperação de dados e a recuperação de informações também são, às vezes, confundidas com a mineração de dados. Aqui, porém, a diferenciação é clara: enquanto a recuperação de dados e a recuperação de informações se concentram no acesso e na entrega de dados, a mineração de dados envolve a descoberta de padrões e insights a partir dos dados. Em outras palavras, abrange a análise, não apenas a recuperação de dados. Além disso, a mineração de dados é aplicada a grandes conjuntos de dados, enquanto a recuperação de dados e a recuperação de informações podem ser usadas para coleções de dados de qualquer tamanho.

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Abordagens tradicionais da recuperação de dados

Os métodos de recuperação de dados podem ser divididos em duas categorias: técnicas tradicionais e técnicas de IA.² As técnicas tradicionais incluem:

Uso de linguagens de consulta
Indexação
Otimização de consultas

Uso de linguagens de consulta

Os dados são recuperados de sistemas de gerenciamento de banco de dados (SGBD) clássicos por meio de linguagens de consulta. A linguagem de consulta mais proeminente é a linguagem de consulta estruturada, ou SQL, que é usada para bancos de dados relacionais. Os usuários implementam comandos SQL para recuperar dados e realizar outras tarefas, incluindo adições, atualizações e exclusões.

Indexação

A indexação é a criação de estruturas de dados pesquisáveis que apontam para registros de dados em tabelas maiores. As operações de pesquisa podem examinar índices em vez de tabelas inteiras, resultando em um processamento de consultas mais rápido e eficiente.

Otimização de consultas

Em sistemas de gerenciamento de banco de dados, as ferramentas de otimização de consultas melhoram o desempenho das consultas escolhendo a opção mais eficiente entre diferentes planos de consulta, ou diferentes maneiras de executar consultas. Os otimizadores decidem, por exemplo, se os índices devem ser usados, qual a maneira de ler uma tabela e, quando uma junção é solicitada, a ordem em que as tabelas são unidas.

Essas técnicas bem estabelecidas provaram ser eficazes para recuperar dados estruturados e dar suporte a operações básicas de busca, mas também apresentam limitações em diversas áreas, incluindo a recuperação de dados não estruturados, a execução de consultas complexas, a captura de significado semântico, o suporte à escalabilidade e a entrega de resultados em tempo real.³

Técnicas de IA para recuperação de dados

As técnicas orientadas por IA para recuperação de dados ajudam a compensar as deficiências das técnicas tradicionais de recuperação de dados, melhorando o desempenho da consulta e a experiência do usuário.⁴

As principais tecnologias de recuperação de dados de IA incluem:

Pesquisa vetorial
Aprendizado de máquina e deep learning
Processamento de linguagem natural
Geração aumentada de recuperação e RAG agêntica

Pesquisa vetorial

Nos bancos de dados de vetores, vários tipos de dados, incluindo texto e imagens, são armazenados como representações numéricas conhecidas como incorporação vetorial. Incorporações vetoriais que possuem dimensões semelhantes são agrupadas. Durante uma busca vetorial, os sistemas recuperam dados e documentos relevantes com incorporações vetoriais semelhantes aos termos da pesquisa. Essas buscas normalmente dependem de algoritmos do vizinho mais próximo que inferem conexões entre pontos de dados com base em sua proximidade.

Aprendizado de máquina (ML) e deep learning

Algoritmos de aprendizado de máquina treinados com dados históricos e comportamento do usuário podem fornecer recomendações de consultas aos usuários com base em padrões de consulta comuns e, em seguida, apresentar dados relevantes. Além disso, um subconjunto do aprendizado de máquina conhecido como deep learning pode ajudar a recuperar dados não estruturados. Por exemplo, as redes neurais convolucionais (CNNs) alimentam a visão computacional, que pode ser usada para pesquisar arquivos de imagem e vídeo.⁵

Processamento de linguagem natural

O processamento de linguagem natural, ou NLP, possibilita consultas de pesquisa intuitivas, permitindo que os usuários formulem suas perguntas de maneira conversacional, em vez de estruturá-las como comandos de linguagem de consulta. Então, em vez de depender apenas da correspondência de palavras-chave, os mecanismos de busca alimentados por NLP podem realizar buscas semânticas: eles identificam resultados relevantes que refletem a intenção da consulta, mesmo que os termos exatos não estejam presentes em um documento.

Geração aumentada de recuperação e RAG agêntica

A geração aumentada de recuperação conecta grandes modelos de linguagem a bases de conhecimento externas usando interface de programação de aplicativos, ou APIs. Isso permite que os sistemas recuperem informações específicas do domínio e oportunas.

Os sistemas de RAG agêntica adicionam recursos avançados à RAG tradicional, com raciocínio agêntico que otimiza dinamicamente as consultas e eleva o desempenho da recuperação de dados. Os componentes dos principais sistemas de RAG agêntica incluem:

Recursos principais de pesquisa: a recuperação de dados é feita por meio de abordagens tradicionais e impulsionadas por IA, incluindo indexação e combinações de pesquisa por palavra-chave e pesquisa vetorial (conhecida como pesquisa híbrida).

Cache semântico: sistemas de RAG agêntica podem armazenar e consultar conjuntos anteriores de consultas, contexto e resultados. Essa memória pode orientar novas buscas, gerando resultados mais relevantes e personalizados.

Segmentação agêntica: a segmentação agêntica divide grandes entradas de texto em blocos menores e semanticamente coerentes (chunks) armazenados em banco de dados de vetores. Sua coerência semântica permite que os sistemas recuperem respostas mais completas e de maior qualidade às consultas.

Agentes de roteamento: os agentes de roteamento determinam quais fontes de conhecimento e ferramentas externas seriam mais adequadas para responder a uma consulta do usuário.

Agentes de planejamento de consultas: os agentes de planejamento de consultas dividem as consultas complexas do usuário em processos passo a passo e enviam as subconsultas resultantes aos outros agentes no sistema de RAG. Assim que esses agentes fornecem suas respectivas respostas, os agentes de planejamento de consultas as combinam para gerar uma resposta coesiva.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Acessar o episódio

Casos de uso da recuperação de dados

Técnicas e soluções de recuperação de dados podem melhorar o acesso a dados e o gerenciamento de dados em inúmeros setores e áreas.

Setor de saúde

Um provedor de serviços para instalações da área da saúde usou o processamento de linguagem natural e a geração aumentada de recuperação para acelerar a recuperação de dados críticos para os negócios em 90%.

Serviços financeiros

Uma empresa fintech implementou um chatbot para atendimento ao cliente com tecnologia RAG que recuperou informações em tempo real, reduzindo o tempo médio de interação em 80% em comparação com a central de atendimento tradicional.

E-commerce

As empresas de comércio eletrônico estão permitindo que os compradores carreguem fotos do que pretendem comprar, e as soluções de pesquisa com visão computacional recuperam informações sobre produtos semelhantes aos da imagem.

Desafios da recuperação de dados

À medida que as empresas exploram soluções de recuperação de dados, é importante levar em consideração os possíveis desafios.

Qualidade dos dados

À medida que as empresas se tornam mais bem-sucedidas na recuperação de dados, podem descobrir que alguns deles estão repletos de lacunas e erros. As práticas de gerenciamento da qualidade dos dados, como perfil de dados e limpeza de dados, podem ajudar as organizações a otimizar os conjuntos de dados quanto à precisão, integridade, consistência e outras dimensões de qualidade.

Segurança

A implementação de recursos aprimorados de recuperação de dados pode ser arriscada sem as medidas de segurança adequadas para garantir que os dados confidenciais não sejam acessados pelas pessoas não autorizadas. As plataformas de dados governados podem incluir segurança integrada, identidade e controles de acesso para evitar acessos não autorizados e dar suporte à conformidade regulatória.

Lock-in com fornecedor

As soluções de dados proprietárias geralmente agrupam a recuperação de dados, a orquestração e os modelos de IA em sistemas fechados, limitando as organizações a conjuntos de tecnologia controlados pelo fornecedor. As soluções de dados de código aberto com RAG agêntica e outras tecnologias oferecem uma alternativa, permitindo que as empresas tenham mais controle sobre suas pilhas de tecnologia e funções de gerenciamento de dados.

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor