Avanços em grandes modelos de linguagem (LLMs), como o GPT da OpenAI, e técnicas relacionadas envolvendo algoritmos de aprendizado de máquina, resultaram no boom da IA generativa (IA gen) dos últimos anos, e outros avanços levaram ao campo emergente de agentes autônomos.
Ao integrar ferramentas, APIs, interfaces de hardware e outros recursos externos, os sistemas de IA agêntica tornam-se cada vez mais autônomos, capazes de tomar decisões em tempo real e resolver problemas em diversos casos de uso.
Agentes complexos não podem agir sem antes tomar uma decisão, e não podem tomar boas decisões sem primeiro elaborar um plano. O planejamento agêntico é composto por vários componentes fundamentais que trabalham em conjunto para incentivar a tomada de decisão ideal.
Definição do objetivo
O primeiro e mais crítico passo no planejamento da IA é definir um objetivo claro. O objetivo serve como princípio orientador para o processo de tomada de decisão do agente, determinando o estado final que ele busca alcançar. Os objetivos podem ser estáticos, permanecendo inalterados durante todo o processo de planejamento, ou dinâmicos, ajustando-se com base nas condições ambientais ou nas interações do usuário.
Por exemplo, um carro autônomo pode ter como objetivo chegar a um destino específico de forma eficiente, respeitando as normas de segurança Sem um objetivo bem definido, um agente ficaria sem direção, levando a comportamentos erráticos ou ineficientes.
Se o objetivo for complexo, os modelos de IA agêntica irão dividi-lo em subobjetivos menores e mais gerenciáveis, em um processo chamado decomposição de tarefas. Isso permite que o sistema se concentre em tarefas complexas de maneira hierárquica.
Grandes modelos de linguagem (LLMs) desempenham um papel vital na decomposição de tarefas, dividindo um objetivo de alto nível em subtarefas menores e, em seguida, executando essas subtarefas por meio de várias etapas. Por exemplo, um usuário pode pedir a um chatbot por meio de um prompt em linguagem natural para planejar uma viagem.
O agente primeiro decompõe a tarefa em componentes, como reservar voos, encontrar hotéis e planejar um itinerário. Depois da decomposição, o agente pode utilizar interfaces de programação de aplicativos (APIs) para buscar dados em tempo real, verificar preços e até sugerir destinos.
Representação de estado
Para planejar de forma eficaz, um agente deve ter uma compreensão estruturada de seu ambiente. Esse entendimento é alcançado por meio da representação de estado, que modela as condições atuais, as restrições e os fatores contextuais que influenciam a tomada de decisão.
Agentes possuem algum conhecimento embutido derivado de seus dados de treinamento ou de conjuntos de dados representando interações anteriores, mas a percepção em tempo real é necessária para que os agentes compreendam de fato seu ambiente. Os agentes coletam dados por meio de entradas sensoriais, permitindo que modelem seu ambiente, além de considerar entradas de usuários e dados que descrevem seu próprio estado interno.
A complexidade da representação do estado varia de acordo com a tarefa. Por exemplo, em um jogo de xadrez, o estado inclui a posição de todas as peças no tabuleiro, enquanto em um sistema de navegação robótica, o estado pode envolver coordenadas espaciais, obstáculos e condições do terreno.
A precisão da representação de estado influencia diretamente a capacidade do agente de tomar decisões informadas, pois determina quão bem o agente pode prever os resultados de suas ações.
Sequenciamento de ações
Uma vez que o agente tenha estabelecido seu objetivo e avaliado seu ambiente, ele precisa determinar uma sequência de ações que o levará do estado atual ao estado-alvo desejado. Esse processo, conhecido como sequenciamento de ações, envolve a estruturação de um conjunto lógico e eficiente de etapas que o agente deve seguir.
O agente precisa identificar ações potenciais, reduzir essa lista às ações ideais, priorizá-las e identificar dependências entre ações, além de etapas condicionais baseadas em possíveis mudanças no ambiente. O agente pode alocar recursos a cada etapa na sequência ou agendar ações com base em restrições ambientais.
Por exemplo, um aspirador robótico precisa decidir o caminho mais eficaz para limpar um cômodo, garantindo que todas as áreas necessárias sejam cobertas sem repetições desnecessárias. Se a sequência de ações não for bem planejada, o agente de IA poderá realizar etapas ineficientes ou redundantes, levando ao desperdício de recursos e ao aumento do tempo de execução.
O framework ReAct é uma metodologia usada em IA para lidar com a tomada de decisão dinâmica. No framework ReAct, o raciocínio se refere ao processo cognitivo em que o agente determina quais ações ou estratégias são necessárias para atingir um objetivo específico.
Essa fase é semelhante à fase de planejamento na IA agêntica, em que o agente gera uma sequência de etapas para resolver um problema ou cumprir uma tarefa. Outros frameworks emergentes incluem o ReWOO, RAISE e Reflexion, cada um com seus próprios pontos fortes e fracos.
Otimização e avaliação
O planejamento de IA geralmente envolve a seleção do caminho mais ideal para atingir um objetivo, especialmente quando várias opções estão disponíveis. A otimização ajuda a garantir que a sequência de ações escolhida por um agente seja a mais eficiente, econômica ou benéfica, dadas as circunstâncias. Esse processo geralmente exige a avaliação de diferentes fatores, como tempo, consumo de recursos, riscos e possíveis recompensas.
Por exemplo, um robô de armazém encarregado de buscar itens precisa determinar a rota mais curta e segura para evitar colisões e reduzir o tempo operacional. Sem uma otimização adequada, agentes de IA podem executar planos que, embora funcionais, estão abaixo do ideal, levando a ineficiências. Vários métodos podem ser usados para otimizar a tomada de decisão, incluindo:
Pesquisa heurística
Algoritmos de pesquisa heurística ajudam agentes a encontrar soluções ideais ao estimar o melhor caminho para alcançar um objetivo. Esses algoritmos se baseiam em funções heurísticas — estimativas matemáticas de quão próximo um determinado estado está da meta desejada. As pesquisas heurísticas são particularmente eficazes em ambientes estruturados, nos quais os agentes precisam encontrar caminhos ideais ótimos rapidamente.
Aprendizado de reforço
O aprendizado por reforço permite que agentes otimizem o planejamento por meio de tentativa e erro, aprendendo quais sequências de ações levam aos melhores resultados ao longo do tempo. Um agente interage com o ambiente, recebe feedback em forma de recompensas ou penalidades e ajusta devidamente suas estratégias.
Planejamento probabilístico
Em cenários do mundo real, agentes de IA frequentemente operam em ambientes incertos, onde os resultados não são determinísticos. Métodos de planejamento probabilístico levam em conta a incerteza ao avaliar múltiplos resultados possíveis e selecionar ações com a maior utilidade esperada.
Colaboração
O planejamento de um único agente é uma coisa, mas em um sistema multiagentes, os agentes de IA precisam trabalhar de forma autônoma enquanto interagem entre si para atingir objetivos individuais ou coletivos.
O processo de planejamento para agentes de IA em um sistema multiagente é mais complexo do que para um único agente, pois os agentes precisam não apenas planejar suas próprias ações, mas também considerar as ações dos outros agentes e como suas decisões interagem com as decisões deles.
Dependendo da arquitetura agêntica, cada agente no sistema normalmente tem seus próprios objetivos individuais, que podem envolver a realização de tarefas específicas ou a maximização de uma função de recompensa. Em muitos sistemas multiagentes, os agentes precisam trabalhar juntos para alcançar metas compartilhadas.
Esses objetivos podem ser definidos por um sistema abrangente ou emergir das interações entre os agentes. Os agentes precisam de mecanismos para se comunicar e alinhar seus objetivos, especialmente em cenários cooperativos. Isso pode ser feito por meio de mensagens explícitas, definições de tarefas compartilhadas ou coordenação implícita.
O planejamento em sistemas multiagentes pode ser centralizado, onde uma única entidade ou controlador (provavelmente um agente de LLM) gera o plano para todo o sistema.
Cada agente recebe instruções ou planos de uma autoridade central. Também pode ser descentralizado, em que os agentes geram seus próprios planos, mas trabalham de forma colaborativa para garantir que estejam alinhados entre si e contribuam para objetivos globais, frequentemente exigindo comunicação e negociação.
Esse processo de tomada de decisão colaborativa aumenta a eficiência, reduz vieses na execução de tarefas, ajuda a evitar alucinações por meio de validação cruzada e construção de consenso, e incentiva os agentes a trabalhar em direção a um objetivo comum.