O que é geração aumentada de recuperação (RAG)?

O que é geração aumentada de recuperação (RAG)?

Geração aumentada de recuperação, ou RAG, é uma arquitetura para otimizar o desempenho de um modelo de inteligência artificial (IA), conectando-o a bases de conhecimento externas. A RAG ajuda os grandes modelos de linguagem (LLMs) a fornecer respostas mais relevantes com maior qualidade.

Os modelos de IA generativa (IA gen) são treinados em grandes conjuntos de dados e se referem a essas informações para gerar saídas. No entanto, os conjuntos de dados de treinamento são finitos e limitados às informações que o desenvolvedor de IA pode acessar: obras de domínio público, artigos da internet, conteúdo de redes sociais e outros dados acessíveis publicamente.

A RAG permite que os modelos de IA generativa acessem bases de conhecimento externas adicionais, como dados organizacionais internos, periódicos acadêmicos e conjuntos de dados especializados. Ao integrar informações relevantes ao processo de geração, os chatbots e outras ferramentas de processamento de linguagem natural (NLP) podem criar conteúdos específicos de domínio mais precisos sem a necessidade de treinamento adicional.

Quais são os benefícios da RAG?

A RAG capacita as organizações a evitar altos custos de requalificação ao adaptar modelos de IA generativa a casos de uso específicos do domínio. As empresas podem usar a RAG para preencher as lacunas na base de conhecimento de um modelo de aprendizado de máquina, para que ele possa fornecer respostas melhores.

Os principais benefícios da RAG incluem:

  • Acesso a dados atuais específicos do domínio
  • Aumento da confiança do usuário
  • Expansão de casos de uso
  • Melhoria do controle de desenvolvedores e manutenção de modelos
  • Maior segurança de dados

Implementação econômica da IA e escalabilidade da IA

Ao implementar a IA, a maioria das organizações primeiro seleciona um modelo de base: os modelos de deep learning que servem de base para o desenvolvimento de versões mais avançadas. Os modelos de base normalmente têm bases de conhecimento generalizadas preenchidas com dados de treinamento disponíveis publicamente, como conteúdo da internet disponível no momento do treinamento.

Retreinar um modelo de base ou realizar seu ajuste fino (onde um modelo de base é treinado ainda mais com novos dados em um conjunto de dados menor e específico do domínio) é computacionalmente caro e consome muitos recursos. O modelo ajusta alguns ou todos os seus parâmetros para ajustar seu desempenho aos novos dados especializados.

Com a RAG, as empresas podem usar fontes de dados internas confiáveis e obter aumentos semelhantes no desempenho de modelos sem retreinamento. As empresas podem escalar a implementação de aplicações de IA conforme a necessidade, mitigando os aumentos nos custos e requisitos de recursos.

Acesso a dados atuais e específicos do domínio

Os modelos de IA generativa têm um limite de conhecimento, o ponto em que os dados de treinamento foram atualizados pela última vez. À medida que um modelo envelhece além de seu limite de conhecimento, ele perde relevância ao longo do tempo. Os sistemas de RAG conectam modelos a dados externos complementares em tempo real e incorporam informações atualizadas nas respostas geradas.

As empresas usam a RAG para equipar modelos com informações específicas, como dados proprietários de clientes, pesquisas confiáveis e outros documentos relevantes.

Os modelos de RAG também podem se conectar à internet com interfaces de programação de aplicativos (APIs) e ter acesso a feeds de redes sociais em tempo real e avaliações de consumidores para uma melhor compreensão da opinião do mercado. Enquanto isso, o acesso a notícias de última hora e mecanismos de busca pode levar a respostas mais precisas à medida que os modelos incorporam as informações recuperadas no processo de geração de texto.

Menor risco de alucinações de IA

Modelos de IA generativa, como o GPT da OpenAI, funcionam detectando padrões nos dados e, em seguida, usando esses padrões para prever os resultados mais prováveis das entradas dos usuários. Às vezes, os modelos detectam padrões que não existem. Uma alucinação ou confabulação acontece quando modelos apresentam informações incorretas ou inventadas como se fossem fatos.

A RAG ancora os LLMs em um conhecimento específico apoiado por dados factuais, confiáveis e atuais. Em comparação com um modelo generativo que opera apenas em seus dados de treinamento, os modelos de RAG tendem a apresentar respostas mais precisas dentro dos contextos de seus dados externos. Embora a RAG possa reduzir o risco de alucinações, ela não pode tornar um modelo à prova de erros.

Aumento da confiança do usuário

Os chatbots, uma implementação comum de IA generativa, respondem a perguntas feitas por usuários humanos. Para que um chatbot como o ChatGPT seja bem-sucedido, os usuários precisam ver sua saída como confiável. Os modelos de RAG podem incluir citações às fontes de conhecimento em seus dados externos como parte de suas respostas.

Quando os modelos de RAG citam suas fontes, os usuários humanos podem verificar essas saídas para confirmar a precisão enquanto consultam os trabalhos citados para esclarecimentos de acompanhamento e informações adicionais. O armazenamento de dados corporativos costuma ser um labirinto complexo e isolado. As respostas da RAG com citações direcionam os usuários diretamente para os materiais de que precisam.

Expansão de casos de uso

O acesso a mais dados significa que um modelo pode lidar com uma gama mais ampla de prompts. As empresas podem otimizar modelos e obter mais valor deles ao ampliar suas bases de conhecimento, o que, por sua vez, expande os contextos nos quais esses modelos geram resultados confiáveis.

Ao combinar a IA generativa com sistemas de recuperação, os modelos de RAG podem recuperar e integrar informações de várias fontes de dados em resposta a consultas complexas.

Melhoria do controle de desenvolvedores e manutenção de modelos

As organizações modernas processam constantemente grandes quantidades de dados, desde entradas de pedidos até projeções de mercado, rotatividade de funcionários e muito mais. A construção e o armazenamento de dados eficazes do pipeline de dados são fundamentais para uma implementação sólida da RAG.

Ao mesmo tempo, desenvolvedores e cientistas de dados podem ajustar as fontes de dados às quais os modelos têm acesso a qualquer momento. Reposicionar um modelo de uma tarefa em outra se torna uma tarefa de ajustar suas fontes externas de conhecimento em vez de ajustes finos ou retreinamento. Se for necessário um ajuste fino, os desenvolvedores podem priorizar esse trabalho em vez de gerenciar as fontes de dados do modelo.

Maior segurança de dados

Como a RAG conecta um modelo a fontes de conhecimento externas em vez de incorporar esse conhecimento aos dados de treinamento do modelo, ela mantém uma divisão entre o modelo e esse conhecimento externo. As empresas podem usar a RAG para preservar os dados primários e, ao mesmo tempo, conceder aos modelos acesso a eles — acesso que pode ser revogado a qualquer momento.

No entanto, as empresas devem estar atentas para manter a segurança dos próprios bancos de dados externos. A RAG usa bancos de dados de vetores, que usam embeddings para converter pontos de dados em representações numéricas. Se esses bancos de dados forem violados, os invasores poderão reverter o processo de embedding e acessar os dados originais, especialmente se o banco de dados de vetores não estiver criptografado.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Casos de uso da RAG

Os sistemas de RAG basicamente permitem que os usuários consultem bancos de dados com linguagem conversacional. A capacidade de responder perguntas baseadas em dados dos sistemas RAG foi aplicada em uma variedade de casos de uso, incluindo:

  • Chatbots e assistentes virtuais especializados
     

  • Pesquisa
     

  • Geração de conteúdo
     

  • Análise de mercado e desenvolvimento de produtos
     

  • Mecanismos de conhecimento
     

  • Serviços de recomendação

Chatbots e assistentes virtuais especializados

As empresas que desejam automatizar o suporte ao cliente podem descobrir que seus modelos de IA não têm o conhecimento especializado necessário para atender adequadamente aos clientes. Os sistemas de IA de RAG conectam modelos a dados internos para equipar os chatbots de suporte ao cliente com os conhecimentos mais recentes sobre produtos, serviços e políticas de uma empresa.

O mesmo princípio se aplica a avatares de IA e assistentes pessoais. Conectar o modelo subjacente aos dados pessoais do usuário e consultar as interações anteriores proporciona uma experiência de usuário mais personalizada.

Pesquisa

Capazes de ler documentos internos e interagir com mecanismos de pesquisa, os modelos de RAG se destacam em pesquisas. Os analistas financeiros podem gerar relatórios específicos de clientes com informações de mercado atualizadas e atividades de investimento anteriores, enquanto os profissionais médicos podem lidar com registros de pacientes e institucionais.

Geração de conteúdo

A capacidade dos modelos de RAG de citar fontes confiáveis pode levar a uma geração de conteúdo mais confiável. Embora todos os modelos de IA generativa possam alucinar, a RAG facilita para os usuários a verificação da precisão das saídas.

Análise de mercado e desenvolvimento de produtos

Os líderes de negócios podem consultar tendências de redes sociais, atividade de concorrentes, notícias de última hora relevantes para o setor e outras fontes online para melhor informar suas decisões de negócios. Enquanto isso, os gerentes de produtos podem consultar o feedback dos clientes e os comportamentos dos usuários ao considerar as escolhas de desenvolvimento futuras.

Mecanismos de conhecimento

Os sistemas de RAG podem capacitar os funcionários com informações internas da empresa. Processos de integração simplificados, suporte de RH mais rápido e orientação sob demanda para funcionários em campo são apenas algumas maneiras pelas quais as empresas podem usar a RAG para melhorar o desempenho no trabalho.

Serviços de recomendação

Ao analisar o comportamento anterior do usuário e compará-lo com as ofertas atuais, os sistemas de RAG possibilitam serviços de recomendação mais precisos. Uma plataforma de comércio eletrônico e um serviço de entrega de conteúdo podem usar a RAG para manter os clientes engajados e gastando.

AI Academy

A ascensão da IA generativa para negócios

Saiba mais sobre a ascensão histórica da IA generativa e o que isso significa para os negócios.

Como a RAG funciona?

A RAG funciona combinando modelos de recuperação de informações com modelos de IA generativa para produzir conteúdo mais confiável. Os sistemas de RAG consultam uma base de conhecimento e adicionam mais contexto a um prompt do usuário antes de gerar uma resposta.

LLMs padrão obtêm informações de seus conjuntos de dados de treinamento. A RAG adiciona um componente ao fluxo de trabalho de IA, reunindo informações relevantes e alimentando o modelo de IA generativa para melhorar a qualidade e a utilidade das respostas.

Os sistemas de RAG seguem um processo de cinco estágios:

Um diagrama mostrando um processo de RAG (geração aumentada de recuperação)
  1. O usuário envia um prompt.
     

  2. O modelo de recuperação de informações consulta a base de conhecimento em busca de dados relevantes.
     

  3. As informações relevantes são retornadas da base de conhecimento para a camada de integração.
     

  4. O sistema de RAG cria um prompt aumentado para o LLM com contexto aprimorado a partir dos dados recuperados.
     

  5. O LLM gera uma saída e retorna uma saída para o usuário.

Esse processo mostra como a RAG recebe seu nome. O sistema de RAG recupera dados da base de conhecimento, aumenta o prompt com contexto adicional e gera uma resposta.

Componentes de um sistema de RAG

Os sistemas de RAG contêm quatro componentes principais:

  • A base de conhecimento: o repositório de dados externo do sistema.
  • O recuperador: um modelo de IA que procura dados relevantes na base de conhecimento.
  • A camada de integração: a parte da arquitetura de RAG que coordena seu funcionamento geral.
  • O gerador: um modelo de IA generativa que cria uma saída com base na consulta do usuário e nos dados recuperados.

Outros componentes podem incluir um classificador, que classifica os dados recuperados com base na relevância e um manipulador de saída, que formata a resposta gerada para o usuário.

A base de conhecimento

O primeiro estágio na criação de um sistema de RAG é criar uma base de conhecimento consultável. O repositório de dados externo pode conter dados de inúmeras fontes: PDFs, documentos, guias, sites, arquivos de áudio e muito mais. Muito disso serão dados não estruturados, o que significa que ainda não foram rotulados.

Os sistemas de RAG usam um processo chamado embedding para transformar dados em representações numéricas chamadas vetores. O modelo de embedding vetoriza os dados em um espaço matemático multidimensional, organizando os pontos de dados por similaridade. Os pontos de dados considerados mais próximos em termos de relevância são colocados próximos uns dos outros.

As bases de conhecimento devem ser continuamente atualizadas para manter a qualidade e relevância do sistema de RAG.

As entradas de LLMs são limitadas à janela de contexto do modelo: a quantidade de dados que ele pode processar sem perder o contexto. Fragmentar um documento em tamanhos menores ajuda a garantir que as embeddings resultantes não sobrecarreguem a janela de contexto do LLM no sistema de RAG.

O tamanho do fragmento é um hiperparâmetro importante para o sistema de RAG. Quando os fragmentos são muito grandes, os pontos de dados podem se tornar muito gerais e não corresponderem diretamente às possíveis consultas do usuário. Mas se os fragmentos forem muito pequenos, os pontos de dados podem perder coerência semântica.

O recuperador

A vetorização dos dados prepara a base de conhecimento para a pesquisa de vetores semântica, uma técnica que identifica pontos no banco de dados que são semelhantes à consulta do usuário. Algoritmos de aprendizado de máquina de pesquisa semântica podem consultar bancos de dados imensos e identificar rapidamente informações relevantes, reduzindo a latência em comparação com pesquisas de palavras-chave tradicionais.

O modelo de recuperação de informações transforma a consulta do usuário em um embedding e, em seguida, pesquisa a base de conhecimento em busca de embeddings semelhantes. Em seguida, suas descobertas são retornadas da base de conhecimento.

A camada de integração

A camada de integração é o centro da arquitetura de RAG, coordenando os processos e transmitindo dados pela rede. Com os dados adicionados da base de conhecimento, o sistema de RAG cria um novo prompt para o componente do LLM. Esse prompt consiste na consulta original do usuário mais o contexto aprimorado retornado pelo modelo de recuperação.

Os sistemas de RAG empregam várias técnicas de engenharia de prompts para automatizar a criação eficaz de prompts e ajudar o LLM a retornar a melhor resposta possível. Enquanto isso, frameworks de orquestração de LLMs, como o LangChain e o LlamaIndex, de código aberto, ou o IBM® watsonx Orchestrate, governam o funcionamento geral de um sistema de IA.

O gerador

O gerador cria uma saída com base no prompt aumentado alimentado a ele pela camada de integração. O prompt sintetiza a entrada do usuário com os dados recuperados e instrui o gerador a considerar esses dados em sua resposta. Os geradores normalmente são modelos de linguagem pré-treinados, como o GPT, Claude ou Llama.

Qual é a diferença entre RAG e ajuste fino?

A diferença entre RAG e ajuste fino é que a RAG permite que um LLM consulte uma fonte de dados externa, enquanto o ajuste fino treina um LLM em dados específicos do domínio. Ambos têm o mesmo objetivo geral: fazer com que um LLM tenha um desempenho melhor em um domínio específico.

A RAG e o ajuste fino são frequentemente contrastados, mas podem ser usados em conjunto. O ajuste fino aumenta a familiaridade de um modelo com o domínio pretendido e os requisitos de saída, enquanto a RAG auxilia o modelo na geração de saídas relevantes e de alta qualidade.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Serviços de IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real