Autores

Dave Bergmann

Staff Writer, AI Models

IBM Think

O que é um agente ReAct?

Um agente do ReAct é um agente de IA que utiliza o framework de "raciocínio e ação" (ReAct) para combinar o raciocínio em cadeia de pensamento (CoT) com o uso de ferramentas externas. O framework ReAct aprimora a capacidade de um grande modelo de linguagem (LLM) de lidar com tarefas complexas e tomada de decisão em fluxos de trabalho agênticos.

Lançado pela primeira vez por Yao e outros no artigo de 2023, “ReACT: Synergizing Reasoning and Acting in Language Models,” o ReAct pode ser entendido de maneira geral como um paradigma de aprendizado de máquina (ML) para integrar os recursos de raciocínio e execução de ações de LLMs.

Mais especificamente, o ReAct é um framework conceitual para a criação de agentes de IA que podem interagir com seu ambiente de forma estruturada, mas adaptável, utilizando um LLM como o "cérebro" do agente para coordenar qualquer coisa, desde uma simples geração aumentada de recuperação (RAG) até fluxos de trabalho multiagentes complexos.

Ao contrário dos sistemas tradicionais de inteligência artificial (IA), os agentes do ReAct não separam a tomada de decisão da execução das tarefas. Portanto, o desenvolvimento do paradigma ReAct foi um passo importante na evolução da IA generativa (IA gen) para além dos meros chatbots conversacionais e em direção à resolução de problemas complexos.

Agentes do ReAct e abordagens derivadas continuam a impulsionar aplicações de IA que conseguem planejar, executar e se adaptar de forma autônoma a circunstâncias imprevistas.

Como funcionam os agentes ReAct?

O framework ReAct é inspirado na maneira como os seres humanos conseguem, de forma intuitiva, usar a linguagem natural — muitas vezes por meio de nosso próprio monólogo interior — no planejamento passo a passo e na execução de tarefas complexas.

Em vez de implementar fluxos de trabalho baseados em regras ou previamente definidos, agentes do ReAct dependem dos recursos de raciocínio de seus LLMs para ajustar dinamicamente sua abordagem com base em novas informações ou nos resultados das etapas anteriores.

Imagine fazer as malas para uma breve viagem. Você pode começar identificando as considerações principais (" Como estará o tempo enquanto eu estiver lá?") e, em seguida, consultar ativamente fontes externas ("Vou verificar a previsão meteorológica local").

Usando essa nova informação (“Vai fazer frio”), você determina sua próxima consideração (“Quais roupas de frio eu tenho?”) e ação (“Vou verificar meu armário”). Ao realizar essa ação, você pode encontrar um obstáculo inesperado (“Todas as minhas roupas de calor estão no depósito”) e ajustar devidamente sua próxima etapa (“Quais roupas posso colocar juntas?”).

De maneira semelhante, o framework ReAct utiliza engenharia de prompts para estruturar a atividade de um agente de IA em um padrão formal de alternância entre pensamentos, ações e observações:

  • As etapas de raciocínio CoT verbalizadas (pensamentos) ajudam o modelo a decompor a tarefa maior em subtarefas mais gerenciáveis.

  • Ações predefinidas permitem que o modelo use ferramentas, faça chamadas da interface de programação de aplicativos (APIs) e colete mais informações de fontes externas (como mecanismos de busca) ou bases de conhecimento (como um armazenamento interno de documentos).

  • Depois de executar uma ação, o modelo reavalia o progresso e usa essa observação para fornecer uma resposta final ou informar o próximo pensamento. A observação pode, idealmente, também considerar informações anteriores, seja da janela de contexto padrão do modelo ou de um componente de memória externa.

Como o desempenho de um agente de ReAct depende fortemente da capacidade de seu LLM central “pensar verbalmente” enquanto resolve tarefas complexas, agentes de ReAct se beneficiam enormemente de modelos altamente capazes com habilidades avançadas de raciocínio e de seguimento de instruções.

Para minimizar custos e latência, um framework ReAct multiagentes pode contar principalmente com um modelo maior e mais eficiente atuando como agente central, cujo raciocínio ou ações podem envolver a delegação de subtarefas a mais agentes criados usando modelos menores e mais eficientes.

Loops de agentes ReAct

Esse framework cria, de forma inerente, um ciclo de feedback no qual o modelo resolve problemas repetindo iterativamente esse processo intercalado de pensamento-ação-observação.

Cada vez que esse ciclo se completa (isto é, cada vez que o agente realiza uma ação e faz uma observação com base nos resultados), o agente deve decidir se repete ou encerra o ciclo.

Quando e como encerrar o ciclo de raciocínio é uma consideração importante no design de um agente de ReAct. Estabelecer um número máximo de iterações de ciclo é uma maneira simples de limitar a latência, os custos e o uso de tokens, e evitar a possibilidade de um ciclo infinito.

Por outro lado, ciclo loop pode ser configurado para terminar quando uma condição específica for atendida, como quando o modelo tiver identificado uma resposta final potencial que ultrapasse um determinado limiar de confiança.

Para implementar esse tipo de ciclo de raciocínio e ação, agentes de ReAct normalmente usam alguma variação dos prompts de ReAct, seja no prompt do sistema fornecido ao LLM ou no contexto da própria consulta do usuário.

ReAct prompting

O prompt de ReAct é uma técnica de engenharia de prompts específica projetada para orientar um LLM a seguir o paradigma do ReAct de ciclos de pensamento,ação e observação. Embora o uso explícito dos métodos tradicionais de prompts de ReAct não seja estritamente necessário para construir um agente de ReAct, a maioria dos agentes baseados nesse framework implementa ou ao menos se inspira diretamente nele.

Descrito inicialmente no artigo original sobre o ReAct, a principal função dos prompts de ReAct é instruir o LLM a seguir o ciclo de ReAct e estabelecer quais ferramentas podem ser usadas (ou seja, quais ações podem ser adotadas) ao lidar com consultas de usuários.

Seja por meio de instruções explícitas ou da inclusão de exemplos few-shot, os prompts de ReAct devem:

  • Orientar o modelo a usar o raciocínio de cadeia de pensamentos: incentive-o a raciocinar seu caminho pelas tarefas pensando passo a passo, intercalando pensamentos com ações.

  • Definir ações: estabeleça as ações específicas disponíveis para o modelo. Uma ação pode implicar a geração de um tipo específico de próximo pensamento ou subprompt, mas geralmente envolve o uso de ferramentas externas ou a criação de APIs.

  • Instruir o modelo a fazer observações: instrua o modelo a reavaliar seu contexto após cada etapa de ação e usar esse contexto atualizado para informar o próximo passo do raciocínio.

  • Ciclo: instrua o modelo a repetir as etapas anteriores, se necessário. Você pode fornecer condições específicas para encerrar esse ciclo, como um número máximo de repetições, ou instruir o agente a encerrar seu processo de raciocínio sempre que sentir que chegou à saída final correta.

  • Resposta final da saída: sempre que essas condições finais forem atendidas, forneça ao usuário a saída final em resposta à consulta inicial dele. Como acontece com muitos usos de LLMs, como modelos de raciocínio que empregam um raciocínio em cadeia de pensamento antes de determinar uma saída final, os agentes de ReAct são frequentemente solicitados a conduzir seu processo de raciocínio dentro de um “scratchpad”.

Uma demonstração clássica dos prompts de ReAct é o prompt de sistema para o criado previamenteZERO_SHOT_REACT-DESCRIPTION criado previamente no LangGraph do LangChain. É chamado de "zero-shot" porque, com esse prompt de sistema predefinido, o LLM usado com o módulo não precisa de exemplos adicionais para se comportar como um agente de ReAct.

Answer the following questions as best you can. You have access to the following tools: 

Wikipedia: A wrapper around Wikipedia. Useful for when you need to answer general questions about people, places, companies, facts, historical events, or other subjects. Input should be a search query.
duckduckgo_search: A wrapper around DuckDuckGo Search. Useful for when you need to answer questions about current events. Input should be a search query.
Calculator: Useful for when you need to answer questions about math.

Use the following format:

Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [Wikipedia, duckduckgo_search, Calculator]
Action Input: the input to the action
Observation: the result of the action
... (this Thought/Action/Action Input/Observation can repeat N times)
Thought: I now know the final answer
Final Answer: the final answer to the original input question

Begin!

Question: {input}
Thought:{agent_scratchpad}
