A evolução dos grandes modelos de linguagem (LLMs) para a integração de agentes de inteligência artificial (agentes de IA) mudou o cenário da inteligência artificial (IA). Agora, os sistemas multiagentes (MAS) estão inaugurando uma nova onda de produtos e serviços de desenvolvimento de software nativos de IA.
As aplicações tradicionais de LLM impulsionadas por IA generativa (IA gen) concentravam-se principalmente em aumentar a produtividade, responder a perguntas ou resumir informações. Porém, com a introdução de agentes e a capacidade de comunicação de agentes de IA, ganhamos o poder de criar fluxos de trabalho autônomos, que reduziram significativamente o trabalho manual envolvido em pesquisa, suporte, análise e operaçōes. Agora, ossistemas multiagentes lidam com tarefas complexas do mundo real, como triagem de atendimento ao cliente, análise financeira, solução de problemas técnicos e monitoramento de conformidade, e se tornaram escaláveis, autônomos e continuamente melhoráveis.
As ações coordenadas de vários agentes independentes em um sistema distribuído, cada um com conhecimento local e capacidades de tomada de decisão, são chamadas de colaboração multiagentes.
Na colaboração multiagentes, os agentes cooperam usando protocolos de comunicação estabelecidos para trocar informações de estado, atribuir responsabilidades e coordenar ações. A cooperação geralmente inclui métodos para decomposição de trabalho, distribuição de recursos, resolução de conflitos e planejamento cooperativo. Ela pode ser explícita por meio da passagem de mensagens ou implícita por meio de modificações no ambiente compartilhado. Esses sistemas priorizam a escalabilidade, a tolerância a falhas e o comportamento cooperativo emergente em seu projeto para operar sem controle centralizado. Vamos considerar uma analogia: suponha que uma frota de drones esteja vasculhando um local de desastre em busca de sobreviventes ou informações. Cada drone segue seu próprio caminho, evita outros drones, relata o que encontra e muda de direção no caso de um evento inesperado. Pense neste cenário como uma colaboração entre vários agentes: cada drone opera de forma independente e coletiva, como um assistente. Sem um único líder para gerenciá-los, eles trabalham juntos, coordenam uns com os outros e compartilham o que veem. Essa abordagem é como uma frota autônoma de agentes trabalha de forma colaborativa, inteligente e rápida para resolver problemas complexos.
Essa arquitetura colaborativa está redefinindo a arquitetura de produtos, dando origem a vários casos de uso que são executados quase a qualquer momento, se adaptam às crescentes demandas e aprendem e otimizam continuamente sem intervenção manual. O processo de automação agêntica é habilitado por agentes especializados com recursos adaptativos projetados para lidar com tarefas específicas com precisão e autonomia. Agentes de IA especializados trabalham juntos em tempo real para fornecer serviços inteligentes, personalizados e de ponta a ponta em chatbots (usando o framework rag), um novo tipo de aplicação multiagentes.1
A cooperação entre vários agentes é um requisito importante ao projetar e implementar um sistema inteligente, especialmente em ambientes altamente complexos, distribuídos e com restrições de privacidade. A colaboração multiagentes oferece inúmeros benefícios arquitetônicos, computacionais e operacionais, ao contrário de outros tipos de arquitetura agêntica, especificamente um sistema de um único agente. Isso é particularmente verdadeiro em sistemas complexos, distribuídos e em tempo real, onde vários níveis distintos de privacidade são inerentes. Os sistemas multiagentes (MAS) permitem que agentes autônomos e descentralizados trabalhem juntos para alcançar objetivos coletivos ou interdependentes, ajudando a superar algumas das limitações estruturais de sistemas restritos de um único agente. Por exemplo, sistemas monolíticos de um único agente, que só crescem até um grau limitado ou têm limites de latência e generalidade funcional. Cada agente mantém um nível de autonomia, concluindo cálculos locais, cooperando com outros agentes usando protocolos de comunicação para compartilhar conhecimento parcial sobre seu ambiente, colaborar na tomada de decisão e coordenar uma estratégia de controle distribuído. A capacidade de manter a escalabilidade modular permite a integração perfeita de novos agentes ou subsistemas, ao mesmo tempo em que fornece comportamento adaptativo em ambientes dinâmicos em tempo real. Por exemplo, em um sistema de saúde inteligente, um subconjunto ou todos os agentes podem ter atribuições específicas do domínio; como monitoramento de sinais clínicos, identificação de anomalias, recomendação de terapia e gerenciamento de dados identificáveis do paciente de acordo com a política. A cooperação deles também permite continuidade, precisão e tolerância a falhas durante todo o processo. A capacidade de normalizar cálculos entre agentes aumenta a eficiência computacional ao compartilhar a parametrização entre agentes e eliminar a dependência de cálculos centralizados.2
Para compreender como os sistemas multiagentes funcionam, vamos dissecar o processo cooperativo em uma sequência de etapas bem coordenadas, cada uma delas enfatizando como os indivíduos independentes interagem, atribuem e trabalham juntos para realizar tarefas desafiadoras.
Os agentes colaboram e coordenam por meio de canais estruturados, onde cada agente é um componente inteligente com cinco elementos-chave.
a. O modelo de base (𝑚): esse elemento é o principal mecanismo de raciocínio do agente, permitindo a geração e compreensão da linguagem natural.
b. Objetivo (o): a meta ou tarefa do agente que ele está focado em fazer é definida pelo objetivo (𝑜).
c. Ambiente (𝑒): esse elemento indica a situação em que o agente funciona. Isso pode envolver outros agentes, ferramentas, memória compartilhada ou interfaces de programação de aplicativos (APIs).
d. As informações que um agente recebe de seu ambiente ou de outros agentes é conhecida como percepção de entrada (𝑥).
e. Saída ou ação (𝑦): a conduta ou resposta do agente à luz de seu objetivo atual e linha de raciocínio.
A colaboração ocorre quando vários agentes de IA cooperam em equipe para realizar uma tarefa. Durante a fase de colaboração, o sistema recebe uma tarefa do usuário ou ambiente. O sistema decide quais agentes são necessários e quais funções eles desempenharão.
O sistema divide os problemas complexos em partes gerenciáveis. Isso é alcançado por um planejador ou pelo modelo de linguagem com recursos de raciocínio. A comunicação acontece por meio de memória compartilhada ou saídas intermediárias. As tarefas atribuídas são realizadas pelos agentes de forma simultânea, sequencial ou dinâmica.
Os resultados de vários agentes são compilados para criar uma resposta significativa. O orquestrador ou agente final inicia uma ação ou fornece ao usuário a resposta completa.3
Os agentes colaboram com outros agentes utilizando diversas estratégias que determinam como irão interagir, coordenar e contribuir para objetivos compartilhados. Várias estratégias de colaboração incluem:
- Colaboração baseada em regras:
Nesse tipo de colaboração, as interações dos agentes entre si são rigorosamente controladas por um conjunto específico de regras ou diretrizes. Essas regras ditam como os agentes agem, se comunicam e fazem escolhas de maneira previsível. O escopo de aprendizado ou adaptação é limitado, pois os agentes seguem uma política definida com base em determinadas condições ou entradas. Esse método geralmente é realizado usando declarações if-then, máquinas de estado ou frameworks baseados em lógica. Essa colaboração funciona melhor para tarefas altamente estruturadas ou previsíveis, onde manter a consistência é fundamental.
Prós e contras: essa abordagem proporciona grande eficiência e justiça, mas tem dificuldades com adaptabilidade e escalabilidade, especialmente em situações complexas ou em rápida mudança.
- Colaboração baseada em funções:
Nessa abordagem, os agentes recebem funções ou responsabilidades específicas que se alinham a um framework claro. Cada função vem com seu próprio conjunto de funções, permissões e objetivos, que geralmente estão vinculados a várias partes do objetivo geral do sistema. Embora os agentes trabalhem de forma semiindependente dentro de suas funções designadas, eles também desempenham um papel no panorama geral, coordenando e compartilhando informações uns com os outros. Este conceito é inspirado na dinâmica das equipes humanas, em que os indivíduos assumem diferentes papéis, como líder, observador ou executor. É particularmente benéfico para dividir tarefas, projetar sistemas modulares e permitir que agentes com conhecimentos especializados diversos colaborem de forma eficaz.
Prós e contras: permite uma colaboração modular e orientada por especialistas, mas pode enfrentar desafios com sua flexibilidade e sua dependência da integração de agentes.
- Colaboração baseada em modelos:
Nesse tipo de colaboração, os agentes criam modelos internos para entender seu próprio estado, o ambiente ao seu redor, outros agentes e o objetivo comum para o qual todos estão trabalhando. Esses modelos geralmente são probabilísticos ou aprendidos, o que ajuda os agentes a planejar suas ações mesmo quando as coisas são incertas. Suas interações dependem de atualizar crenças, fazer inferências e prever resultados, o que permite que suas estratégias sejam flexíveis e conscientes do contexto. Alguns métodos comuns que eles usam incluem o raciocínio bayesiano, processos de decisão de Markov (MDPs) e vários modelos de aprendizado de máquina. Essa abordagem é particularmente útil em situações em que os agentes precisam pensar sobre fatores desconhecidos, adaptar-se a mudanças ou trabalhar em conjunto sem ter visibilidade completa.
Prós e contras: essa abordagem oferece grande flexibilidade e recursos sólidos de tomada de decisão, mas possui um nível significativo de complexidade e um custo computacional significativo.4
Vários frameworks conhecidos estão sendo desenvolvidos, cada um usando seus próprios métodos distintos para ajudar os agentes a trabalhar juntos de forma eficaz em aplicações do mundo real. Vamos explorar os frameworks comumente usados:
1. Framework IBM Bee Agent: é uma aplicação de código aberto que facilita o desenvolvimento e a administração de processos escaláveis multiagentes. Ele estabelece a base para aplicações nas quais vários agentes de IA colaboram para realizar tarefas desafiadoras usando LLMs maciços, como o IBM Granite, PT-4 e Llama 3. Com componentes prontos para uso para agentes, ferramentas, gerenciamento e monitoramento de memória, o framework possui um design modular. A serialização dos estados dos agentes é uma de suas características mais notáveis. Essa capacidade permite que procedimentos complexos sejam interrompidos e retomados sem apagar nenhum dado. Sua ênfase no controle de nível de produção, extensibilidade e modularidade permite a criação de sistemas multiagentes sofisticados para uma ampla gama de aplicações, com planos para avanços adicionais na orquestração multiagentes.
2. Agentes do LangChain: o LangChain é um framework robusto para a criação de aplicações baseadas em modelos de linguagem que enfatizam uma arquitetura forte baseada em agentes. Essa opção significa que os agentes podem perceber o ambiente e usar as diversas ferramentas disponíveis para coletar informações, interpretar e agir. No próprio LangChain, os desenvolvedores têm acesso a muitas ferramentas e integrações para facilitar a tarefa dos agentes de engenharia de realizar raciocínios complexos, tomada de decisão dinâmica e a realização de tarefas. O LangChain permite que o desenvolvedor aproveite os mais elevados recursos de grandes modelos de linguagem (LLMs) no desenvolvimento de sistemas inteligentes para realizar tarefas sofisticadas, como resposta a perguntas contextuais,fluxos de trabalho multietapas e geração de linguagem natural.
3. Framework OpenAI Swarm: essa estrutura apresenta uma nova maneira de coordenar vários agentes em termos de rotinas e transferências. Em vez de um agente agir de forma independente, cada agente pode ser visto como uma unidade especializada que trabalha com ferramentas e direções personalizadas. A transferência de uma tarefa ou conversa existente de um agente para outro permite uma experiência de usuário tranquila, em que cada agente é especializado para uma função específica. Essa abordagem, em última análise, aumenta a eficiência geral, a modularidade e a capacidade de resposta do sistema como um todo. O termo Swarm enfatiza a coordenação leve e a realização eficaz de uma tarefa, o que permite que ele seja implementado em uma escala maior em tarefas do mundo real.5
O watsonx Orchestrate facilita a colaboração multiagentes, utilizando uma coleção de componentes interconectados que trabalham juntos para orquestrar fluxos de trabalho habilitados para IA. As habilidades são agentes independentes que executam tarefas específicas, como enviar e-mails ou consultar dados. Eles são descritos e registrados em um Registro de Habilidades, que descreve seus recursos e metadados. Quando um usuário envia uma solicitação, um Analisador de Intenção usa o processamento de linguagem natural (NLP) para ler a entrada do usuário e relacioná-la às habilidades.
O orquestrador de fluxo fornece a lógica e o fluxo de execução, incluindo sequenciamento de tarefas, ramificações, erros e novas tentativas, para ajudar a garantir que os agentes sejam executados na ordem necessária e que as etapas com falha possam ser repetidas com tentativas novamente. O orquestrador de fluxo permite que os agentes sejam executados simultaneamente quando necessário. O contexto compartilhado e o armazenamento da memória fornecem um espaço comum para armazenar dados, saídas intermediárias e decisões em um único espaço, possibilitando que os agentes conheçam uns aos outros e mantenham a continuidade durante o fluxo de trabalho. O assistente de LLM usa grandes modelos de linguagem para ajudar no raciocínio, na navegação de um contexto em mudança e no preenchimento de lacunas de conhecimento durante a colaboração.
A interface humana permite que o usuário veja o fluxo e gerencie o fluxo de trabalho agêntico, caso queira se envolver. Os componentes podem ser compatíveis com a colaboração multiagentes para ajudar a garantir que o watsonx Orchestrate possa gerenciar de forma independente fluxos de trabalho multiagentes complexos e, ao mesmo tempo, permitir um ser humano no processo.6
Inteligência coletiva emergente: à medida que os agentes autônomos trabalham juntos por meio de um framework de colaboração bem definido com proteções para ajudar a garantir o alinhamento, a segurança e a relevância da tarefa, os comportamentos inteligentes começam a surgir, excedendo os recursos individuais de qualquer agente único. Precisão, relevância, eficiência, explicabilidade e coerência geral do sistema são algumas das métricas multifacetadas que podem ser usadas para avaliar e melhorar continuamente a eficácia desses sistemas.
A inteligência coletiva dá a esses sistemas a capacidade de resolver problemas complexos e multidimensionais usando raciocínio distribuído e decomposição de tarefas, resultando em automação, tomada de decisão e orquestração de fluxos de trabalho multietapas.
Permita que desenvolvedores criem, implementem e monitorem agentes de IA com o IBM watsonx.ai studio.
Atinja uma produtividade revolucionária com um dos conjuntos de recursos mais abrangentes do setor para ajudar as empresas a criar, personalizar e gerenciar agentes e assistentes de IA.
Tenha mais de 90% de economia de custos com os modelos menores e abertos do Granite, projetados para a eficiência do desenvolvedor. Esses modelos prontos para uso corporativo oferecem desempenho excepcional em relação aos benchmarks de segurança e em uma ampla variedade de tarefas corporativas, da cibersegurança a RAG.
1 Tran, K.-T., Dao, D., Nguyen, M.-D et.al (10 de janeiro de 2025). Multi-Agent Collaboration Mechanisms: A Survey of LLMs. arXiv. https://arxiv.org/abs/2501.06322
2 Han, S., Zhang, Q., Yao, Y., Jin, W. e Xu, Z. (2024). LLM Multi-Agent Systems: Challenges and Open Problems. arXiv. https://arxiv.org/abs/2402.03578
3 Jennings, N. R., e Wooldridge, M. (1996). Intelligent agents: Theory and practice. The Knowledge Engineering Review, 10(2), 115–152. https://www.cambridge.org/core/journals/knowledge-engineering-review/article/abs/intelligent-agents-theory-and-practice/CF2A6AAEEA1DBD486EF019F6217F1597
4 Wang, Jialin e Zhihua Duan, “Agent AI with LangGraph: A Modular Framework for Enhancing Machine Translation Using Large Language Models.” CoRR, abs/2412.03801, 5 de dezembro de 2024. arXiv:2412.03801
5 Framework for evaluating LLM-based agents, https://github.com/vladfeigin/llm-agents-evaluation
6 Gomez-Sanz, J. J. r Pavón, J. (2004). Methodologies for developing multi-agent systems. Journal of Universal Computer Science, 10(4), 404–426.