Um guia da IBM para sistemas de IA agêntica

Visão geral

Os sistemas de IA agêntica reúnem a versatilidade e a flexibilidade dos grandes modelos de linguagem (LLMs) e a precisão dos modelos de programação tradicionais. Os sistemas de IA agêntica são capazes de planejar e executar tarefas de forma autônoma em nome de um usuário ou outro sistema. Os sistemas de IA agêntica resolvem problemas complexos dividindo-os em séries de tarefas menores e usando as ferramentas disponíveis para interagir com sistemas externos ou executar tarefas computacionais.

Esses recursos tornam os sistemas de IA agêntica capazes de lidar com uma gama muito maior de tarefas e tarefas muito mais complexas do que apenas os LLMs. Por exemplo, se você fosse dar um prompt para um LLM recomendar qual carro comprar, o modelo geraria devidamente uma lista de recomendações com base nos dados disponíveis no momento em que o modelo foi treinado. Por outro lado, uma solução de IA agêntica pode solicitar de você detalhes adicionais sobre como você pretende usar o veículo (lazer, deslocamento de/para o trabalho, transporte de cargas pesadas) e informar que há um desconto do fabricante disponível até o final do mês.

Padrões de arquitetura de IA generativa

Arquitetura conceitual

Fluxograma ilustrando o processo de uma solicitação de usuário sendo atendida por uma aplicação de IA

Um sistema de IA agêntica é composto pelos seguintes componentes:

Um componente de orquestração de agentes gerencia e coordena as ações de um conjunto de agentes. O componente de orquestração de agentes pode usar um LLM para dividir e gerar dinamicamente fluxos de trabalho para resolver tarefas complexas, ou pode usar apenas fluxos de trabalho estaticamente definidos com tecnologias como Business Process Modeling Notation (BPMN), Business Process Execution Language (BPEL), ou outras tecnologias de fluxos de trabalho.
Um ou mais agentes, softwares que podem se autodeterminar e executar ações para atender a metas específicas. Os agentes normalmente usam um LLM para gerar planos dinamicamente para concluir tarefas. Os agentes também podem usar ferramentas para interagir com sistemas externos, como uma API de aplicações corporativas, pesquisar armazenamentos de conhecimento, como por exemplo, consultar a Wikipedia ou realizar cálculos, como por exemplo, operações matemáticas, que não podem ser feitas de forma precisa ou eficaz usando apenas um LLM.
Por fim, as ferramentas interagem com fontes e sistemas corporativos e externos para recuperar informações e atualizar sistemas de registro.

Os agentes têm sua própria arquitetura conceitual, ilustrada na figura abaixo.

Fluxograma ilustrando o processo de um agente interagindo com seu ambiente

Os agentes são compostos pelos seguintes componentes principais:

O componente de entrada são uma ou mais fontes de entrada que acionam o agente para agir. Normalmente, essa é uma consulta de linguagem natural ou tarefa de um usuário, mas também pode ser um evento do sistema, como a criação de um arquivo, uma mensagem em uma fila do Kafka ou uma chamada de API estruturada.
O componente de Execução coordena as atividades do agente para realizar a tarefa necessária. Normalmente, a primeira tarefa executada pelo componente de Execução é (i) mobilizar uma lista das ferramentas e recursos disponíveis para o agente, e (ii) invocar o componente de Planejamento e Reflexão para gerar um plano de atividades para realizar a tarefa. O componente de Execução, então, executa o plano gerado, invocando ferramentas e recursos conforme a necessidade, para coletar informações ou alterar o ambiente externo do agente; e pode reinvocar periodicamente o componente de Planejamento e Reflexão para adaptar o plano de atividades dependendo das respostas/falhas da ferramenta.
O componente de Planejamento e Reflexão, geralmente um LLM, permite que o agente crie planos de ação passo a passo para realizar uma tarefa em resposta às entradas, reflita sobre os resultados das ações e adapte seus planos em resposta.
O componente de Integração de ferramentas permite que o agente use “ferramentas” para chamar APIs e acessar recursos para concluir ações e reunir informações para contribuir para a conclusão da tarefa geral.
O componente de Memória gerencia o contexto da tarefa, o contexto e o conhecimento de longo prazo, que permitem ao agente manter o contexto em todas as invocações de tarefas (por exemplo, "reverter o último pedido de compra") e fornecer uma base para a análise de ações passadas e a otimização de ações futuras.

Outros componentes, não mostrados na figura, podem ser adicionados para fornecer gerenciamento de agentes operacionais, monitoramento de desempenho e controles de segurança, como propagação de identidade e prevenção de vazamento de dados.

Passo a passo conceitual

O diagrama abaixo ilustra o fluxo de controle e informações por meio da arquitetura conceitual.

Fluxograma ilustrando o processo de uso de um grande modelo de linguagem para gerar texto

Um usuário envia uma consulta a uma aplicação de IA generativa (por exemplo, um chatbot ou uma interface de consulta dentro de uma aplicação empresarial)
A aplicação de IA generativa passa a consulta do usuário para o orquestrador de agentes na forma de consulta bruta; por exemplo, a aplicação de IA é a interface de bate-papo ou o acionamento de um fluxo de trabalho predefinido, como por exemplo, o início de uma requisição de compra. Uma consulta bruta será assumida para o passo a passo.
O roteador utiliza um LLM ajustado para dividir a consulta do usuário em uma série de ações, ou etapas, necessárias para chegar a uma resposta. Por exemplo, para responder à consulta "Qual é a temperatura atual em Winnipeg, Manitoba, Canadá? Como ela se compara à média histórica para esta época do ano?", o LLM pode responder com a seguinte lista conceitual de ações:
- Procure a temperatura atual de Winnipeg usando o agente Weather
- Procure a data atual usando o agente o Calendar
- Procure a temperatura média em Winnipeg nesta data usando o agente Search
- Encontre a diferença entre a temperatura atual e a média histórica usando o agente Calculator
- Formule uma resposta em linguagem natural usando o agente Language
Em seguida, o orquestrador invoca o agente apropriado para cada ação da lista. Continuando com o exemplo da Etapa 3:
- O Orchestrator invoca o agente Weather para recuperar a temperatura atual de Winnipeg, -1°C.
- O orquestrador invoca o agente Calendar para obter a data atual, 9 de novembro de 2023.
- O orquestrador usa o agente Search para encontrar a temperatura normal em Winnipeg em 9 de novembro, 1,4 °C.
- O orquestrador invoca o agente Calculator para encontrar a diferença entre as duas temperaturas, -1 - 1,4 = -2,4
- O orquestrador usa o agente Language para formular uma resposta à consulta inicial usando os dados reunidos
Quando um agente é invocado, ele pode, assim como o orquestrador, usar um LLM para planejar suas ações. Continuando com o exemplo, o agente Weather receberia a solicitação "Qual é a temperatura atual em Winnipeg?", para a qual geraria o seguinte plano:
- Procure em qual país Winnipeg está localizada
- Procure o serviço meteorológico nacional confiável do país de Winnipeg
- Use a API de clima para consultar o serviço meteorológico para a temperatura atual em Winnipeg.
- Em seguida, o agente procuraria o país em que Winnipeg está localizada (Canadá) usando um LLM ou um serviço externo, usaria esse valor para procurar o serviço meteorológico nacional para o Canadá (Environment Canada) e usaria a API Weather para obter a temperatura atual para Winnipeg.
A resposta resultante é, então, passada de volta para a aplicação de IA generativa; no nosso exemplo "A temperatura atual em Winnipeg é de -1°C. Isso é 2,4°C mais frio do que a norma histórica de 1,4°C".
A resposta formulada é passada de volta ao usuário.

Arquitetura de produtos da IBM

Fluxograma ilustrando o processo de solicitação e resposta de uma aplicação

O diagrama acima ilustra o mapeamento dos produtos da IBM para a arquitetura de IA agêntica.

O watsonx Orchestrate é uma solução de IA agêntica "completa", que combina:

publicação e gerenciamento de ferramentas (chamadas de habilidades no watsonx Orchestrate);
composição de habilidades em processos complexos multietapas usando fluxos de trabalho declarativos; e
agentes específicos de domínio criados previamente para áreas de negócios horizontais, como RH e Compras.

O watsonx.ai Agent Builder é uma ferramenta de pouco código/no-code que permite aos desenvolvedores criar agentes e definir e gerenciar ferramentas usando fluxos criados previamente.

Decisões e considerações sobre arquitetura

Estratégia de orquestração

A orquestração de agentes pode ser implementada usando uma variedade de abordagens. Uma abordagem de orquestração centralizada usa um único componente de orquestração mestre para gerenciar as ações de todos os outros agentes no sistema. Ter um único ponto de configuração e gerenciamento torna o sistema geral simples de gerenciar e controlar, fácil de solucionar problemas. A desvantagem é que um único ponto de controle pode se tornar um gargalo e levar a desafios de escalabilidade à medida que os volumes de solicitações e/ou o número de agentes aumentam.

Uma abordagem de orquestração descentralizada implementa uma fila de tarefas na qual os agentes extraem tarefas e publicam os resultados, e roteia tarefas de várias partes entre si; semelhante a um sistema de quadro negro. As soluções de orquestração descentralizada são altamente robustas e tolerantes a falhas, mas são difíceis de projetar e solucionar problemas à medida que os sistemas se tornam maiores e com mais recursos.

Finalmente, uma abordagem de orquestração hierárquica combina elementos das abordagens centralizada e descentralizada. Na orquestração hierárquica, um orquestrador mestre é usado para coordenar as ações de agentes de alto nível que, por sua vez, podem invocar outros agentes para concluir tarefas complexas. Isso mantém grande parte da facilidade de gerenciamento e controle de uma abordagem centralizada, mas reduz o potencial de o componente de controle central se tornar um gargalo em altos volumes de solicitações e/ou grande número de agentes.

Granularidade do agente

A granularidade de um agente de IA refere-se à complexidade das tarefas que o agente pode executar. Um agente de alta granularidade pode ser capaz de executar muitas tarefas ou um pequeno número de tarefas com grande detalhamento, enquanto um agente de baixa granularidade pode ser capaz apenas de realizar um pequeno número ou até mesmo apenas uma única tarefa com um baixo nível de detalhamento. Para tornar isso mais claro, considere um agente de atendimento ao cliente. Um agente de baixa granularidade pode conseguir responder apenas a perguntas simples sobre um produto (por exemplo, "Ele vem em preto?"), enquanto um agente de alta granularidade pode verificar inventários locais e organizar a entrega do produto na casa do cliente.

Os projetistas de soluções agênticas devem decidir o quão granulares tornarão os agentes individuais dentro do sistema, como por exemplo, ter um pequeno número de agentes de alta granularidade ou um número maior de agentes de baixa granularidade. Os amplos recursos do agente de alta granularidade têm o custo de maiores recursos de computação e tempos mais longos de conclusão de tarefas. Embora menos capazes, o foco restrito dos agentes de baixa granularidade significa que eles exigem menos recursos computacionais e geralmente concluirão as tarefas muito mais rápido.

Embora o nível "certo" de granularidade ainda seja desconhecido, experiências iniciais sugerem que a criação de agentes de baixa granularidade alinhados a processos de negócios focados, como por exemplo, Purchase_Order_Processing_Agent, produz um bom equilíbrio entre requisitos de recursos, velocidade de processamento e complexidade da solução. Os agentes de baixa granularidade podem, então, ser incorporados a fluxos de trabalho estáticos ou invocados por agentes de alta granularidade como parte de um processo maior.

Fluxos de trabalho estáticos versus dinâmicos

Os projetistas de soluções de IA agêntica devem encontrar um equilíbrio entre agentes que seguem processos e fluxos de trabalho estáticos e predefinidos e ter fluxos de trabalho gerados dinamicamente em resposta aos prompts do usuário. Embora não haja uma resposta certa ou errada, os arquitetos são aconselhados a levar em conta as seguintes recomendações e considerações:

Os fluxos de trabalho estáticos devem ser usados para processos de negócios compostos por várias etapas complexas que cruzam domínios de conhecimento (por exemplo, jurídico e contábil) ou que estão sujeitas à supervisão regulatória. O uso de fluxos de trabalho estáticos nessas instâncias oferece vários benefícios aos arquitetos:
- Os fluxos de trabalho estáticos são (relativamente) simples de instrumentar, monitorar e auditar, e os próprios fluxos de trabalho podem ser usados como evidência de conformidade regulatória. Os fluxos de trabalho gerados dinamicamente são mais difíceis de monitorar, pois são executados, e as execuções de processos individuais devem ser reconstruídas a partir de logs de agentes individuais. Os fluxos de trabalho dinâmicos também têm o potencial de variar a sequência de tarefas, o que complica ainda mais o monitoramento de auditoria e conformidade.
- Ter "transferências" bem definidas entre áreas de especialização fornece dissociação clara de responsabilidade e facilita a garantia de que as informações passadas sejam completas e corretas. Embora o mesmo possa ser feito com um fluxo de trabalho gerado dinamicamente, ele requer mais atenção no projeto e na implementação para que seja realizado
Os fluxos de trabalho dinâmicos devem ser usados para atividades ou funções de "etapa única", que são executadas próximas no tempo e não cruzam domínios de conhecimento, e cuja execução não está sujeita à supervisão ou controles regulatórios.