O que é RAG agêntico?

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

A RAG agêntica é o uso de agentes de IA para facilitar a geração aumentada de recuperação (RAG). Os sistemas de RAG agêntica adicionam agentes de IA ao pipeline da RAG para aumentar a adaptabilidade e a precisão. Comparada aos sistemas de RAG tradicionais, a RAG agêntica permite que grandes modelos de linguagem (LLMs) realizem a recuperação de informações de várias fontes e lidem com fluxos de trabalho mais complexos.

O que é RAG?

A geração aumentada de recuperação é uma aplicação de inteligência artificial (IA) que conecta um modelo de IA generativa a uma base de conhecimento externa. Os dados na base de conhecimento aumentam as consultas dos usuários com mais contexto para que o LLM possa gerar respostas mais precisas. A RAG permite que os LLMs sejam mais precisos em contextos específicos de domínio sem a necessidade de um ajuste fino.

Em vez de depender apenas de dados de treinamento, os modelos de IA habilitados por RAG podem acessar dados atuais em tempo real por meio de APIs e outras conexões com fontes de dados. Um pipeline de RAG padrão abrange dois modelos de IA: 

Em resposta às consultas de linguagem natural do usuário, o modelo de embedding converte a consulta em um embedding de vetores e, em seguida, recupera dados semelhantes da base de conhecimento. O sistema de IA combina os dados recuperados com a consulta do usuário para geração de respostas com base no contexto.

O que é IA agêntica?

A IA agêntica é um tipo de IA que pode determinar e executar um curso de ação por si só. A maioria dos agentes disponíveis no momento da publicação são LLMs com recursos de chamada de função, o que significa que eles podem chamar ferramentas para realizar tarefas. Em teoria, os agentes de IA são LLMs com três características significativas:

  • Eles têm memória, tanto de curto quanto de longo prazo, o que lhes permite planejar e executar tarefas complexas. A memória também permite que os agentes consultem tarefas anteriores e usem esses dados para dar informações a fluxos de trabalho futuros. Os sistemas RAG agênticos utilizam cache semântico para armazenar e consultar conjuntos anteriores de consultas, contexto e resultados.

  • Eles são capazes de rotear consultas, planejamento passo a passo e tomada de decisões. Os agentes usam seus recursos de memória para reter informações e planejar um curso de ação adequado em resposta a consultas e prompts complexos.

  • Eles podem executar chamadas de ferramentas por meio de APIs. Agentes mais capazes podem escolher quais ferramentas usar para o fluxo de trabalho que geram em resposta às interações do usuário.

Os fluxos de trabalho agênticos podem consistir em um agente de IA ou em sistemas multiagentes que combinam vários agentes.

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes (e intrigantes) do setor em IA, automação, dados e muito mais com o boletim informativo Think. Consulte a Declaração de privacidade da IBM.

Agradecemos sua inscrição!

Sua assinatura será entregue em inglês. Você pode encontrar um link para cancelar a assinatura em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

RAG agêntica versus sistemas de RAG tradicionais

A RAG agêntica traz várias melhorias significativas em relação à implementação tradicional da RAG:

  • Flexibilidade: as aplicações de RAG agêntica extraem dados de diversas bases de conhecimento externas e permitem o uso de ferramentas externas. Os pipelines de RAG padrão conectam um LLM a um único conjunto de dados externo. Por exemplo, muitos sistemas de RAG empresariais combinam um chatbot com uma base de conhecimento que contém dados proprietários da organização.

  • Adaptabilidade: os sistemas de RAG tradicionais são ferramentas reativas de recuperação de dados que encontram informações relevantes em resposta a consultas específicas. O sistema de RAG não tem capacidade de se adaptar a contextos mutáveis ou de acessar outros dados. Os resultados ideais muitas vezes requerem engenharia de prompts.

    Enquanto isso, a RAG agêntica é uma transição da consulta estática baseada em regras para a resolução de problemas adaptativa e inteligente. Os sistemas multiagentes incentivam vários modelos de IA a colaborar e verificar o trabalho uns dos outros.

  • Precisão: os sistemas de RAG tradicionais não validam nem otimizam seus próprios resultados. As pessoas devem discernir se o sistema está funcionando em um padrão aceitável. O sistema por si não tem como saber se está encontrando os dados certos ou os incorporando com sucesso para facilitar a geração consciente do contexto. Os agentes de IA podem iterar sobre processos anteriores para otimizar os resultados ao longo do tempo.

  • Escalabilidade: com redes de agentes RAG trabalhando em conjunto, explorando várias fontes de dados externas e usando recursos de chamada de ferramentas e planejamento, o RAG agêntico tem maior escalabilidade. Os desenvolvedores podem criar sistemas RAG flexíveis e escaláveis que podem lidar com uma ampla gama de consultas de usuários.

  • Multimodalidade: os sistemas de RAG agêntica se beneficiam dos recentes avanços em LLMs multimodais para trabalhar com uma gama maior de tipos de dados, como imagens e arquivos de áudio. Os modelos multimodais processam vários tipos de dados estruturados, semiestruturados e não estruturados. Por exemplo, vários modelos recentes do GPT podem gerar conteúdo visual e de áudio, além da geração de texto padrão.

Considere vários funcionários trabalhando em um escritório. Um sistema de RAG tradicional é o funcionário que tem um bom desempenho quando recebe tarefas específicas e é informado sobre como realizá-las. Ele é relutante em tomar iniciativas e se sente desconfortáveis ao sair de instruções explícitas.

Por outro lado, um sistema RAG agêntico é uma equipe proativa e criativa. Eles também são bons em seguir instruções, mas adoram tomar a iniciativa e resolver desafios por conta própria. Eles não têm medo de encontrar suas próprias soluções para tarefas complexas que possam confundir ou intimidar seus colegas de trabalho.

A RAG agêntica é melhor que a RAG tradicional?

Embora a RAG agêntica otimize os resultados com chamada de função, raciocínio em várias etapas e sistemas multiagente, ele nem sempre é a melhor escolha. Mais agentes no trabalho significam maiores despesas, e um sistema de RAG agêntica geralmente requer o pagamento de mais tokens. Embora a RAG agêntica aumente a velocidade em relação à RAG tradicional, os LLMs também introduzem latência porque podem levar mais tempo para o modelo gerar suas saídas.

Por último, os agentes nem sempre são confiáveis. Eles podem ter dificuldades e até mesmo não conseguir concluir tarefas, dependendo da complexidade e dos agentes usados. Os agentes nem sempre colaboram de forma harmoniosa e podem competir pelos recursos. Quanto mais agentes houver em um sistema, mais complexa se tornará a colaboração, com maior chance de complicações. E mesmo o sistema de RAG mais robusto não consegue eliminar completamente o potencial de alucinações.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Como a RAG agêntica funciona?

A RAG agêntica funciona incorporando um ou mais tipos de agentes de IA aos sistemas de RAG. Por exemplo, um sistema de RAG agêntica pode combinar múltiplos agentes de recuperação de informações, cada um especializado em um determinado domínio ou tipo de fonte de dados. Um agente consulta bancos de dados externos, enquanto outro analisa e-mails e resultados da web.

Frameworks de IA agêntica, como o LangChain e LlamaIndex, e o framework de orquestração LangGraph podem ser encontrados no GitHub. Com eles, é possível experimentar arquiteturas agênticas para RAG a custos mínimos. Se usarem modelos de código aberto, como o Graniteou o Llama-3, os projetistas do sistemas RAG também poderão reduzir as taxas exigidas por outros provedores, como a OpenAI, e, ao mesmo tempo, desfrutar de maior observabilidade.

Os sistemas de RAG agêntica podem conter um ou mais tipos de agentes de IA, como:

  • Agente de roteamento

  • Agentes de planejamento de consultas

  • Agentes ReAct

  • Agentes de planejamento e execução

Agentes de roteamento

Os agentes de roteamento determinam quais fontes e ferramentas externas de conhecimento são usadas para lidar com uma consulta do usuário. Eles processam os prompts do usuário e identificam o pipeline de RAG com maior probabilidade de resultar na geração de respostas ideais. Em um sistema RAG de agente único, um agente de roteamento escolhe qual fonte de dados consultar.

Agentes de planejamento de consultas

Os agentes de planejamento de consultas são os gerentes de tarefas do pipeline de RAG. Eles processam consultas complexas de usuários para dividi-las em processos passo a passo. Eles enviam as subconsultas resultantes aos outros agentes no sistema de RAG e, em seguida, combinam as respostas para criar uma resposta geral coesa. O processo de utilizar um agente para gerenciar outros modelos de IA é um tipo de orquestração de IA.

Agentes de ReAct

ReACT (raciocínio e ação) é um framework de agentes que cria sistemas multiagentes que podem criar e agir em soluções passo a passo. Eles também podem identificar ferramentas apropriadas que podem ajudar. Com base nos resultados de cada etapa, os agentes de ReAcT podem ajustar dinamicamente os estágios subsequentes do fluxo de trabalho gerado.

Agentes de planejamento e execução

Os frameworks de planejar e executar os agentes são uma progressão dos agentes ReAct. Eles podem executar fluxos de trabalho em várias etapas sem precisar chamar o agente principal, reduzindo os custos e aumentando a eficiência. E como o agente de planejamento precisa pensar em todas as etapas necessárias para uma tarefa, as taxas de conclusão e qualidade tendem a ser maiores.

Casos de uso da RAG agêntico

Embora a RAG agêntica possa se adequar a qualquer aplicação de RAG tradicional, as maiores demandas computacionais a tornam mais apropriada para situações que exigem a consulta de várias fontes de dados. As aplicações de RAG agêntica incluem:

  • Resposta a preguntas em tempo real: as empresas podem utilizar chatbots e FAQs com tecnologia de RAG para fornecer a seus funcionários e clientes informações precisas e atualizadas.

  • Suporte automatizado: as empresas que desejam otimizar os serviços de suporte ao cliente podem usar sistemas de RAG automatizados para lidar com consultas mais simples de clientes. O sistema de RAG agêntica pode encaminhar as solicitações de suporte mais exigentes para o pessoal humano.

  • Gerenciamento de dados: os sistemas RAG facilitam a localização de informações nos armazenamentos de dados proprietários. Os funcionários podem obter rapidamente os dados de que precisam sem precisar classificar os bancos de dados por conta própria.

Soluções relacionadas
Agentes de IA para empresas

Crie, implemente e gerencie assistentes e agentes de IA potentes que automatizam fluxos de trabalho e processos com a IA generativa.

    Explore o watsonx Orchestrate
    Soluções de agentes de IA da IBM

    Construa o futuro do seu negócio com soluções de IA em que você pode confiar.

    Explore soluções de agentes de IA
    Serviços de IA do IBM® Consulting

    Os serviços de IA da IBM Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformação.

    Explore os serviços de inteligência artificial
    Dê o próximo passo

    Se você optar por personalizar aplicativos e habilidades criados previamente ou criar e implementar serviços agênticos personalizados usando um estúdio de IA, a plataforma IBM watsonx tem aquilo de que você precisa.

    Explore o watsonx Orchestrate Explore o watsonx.ai