Um agente de IA refere-se a um sistema de software capaz de executar tarefas de forma autônoma em nome de um usuário ou outro sistema, criando seu próprio fluxo de trabalho e utilizando ferramentas externas conforme a necessidade.
Os agentes vão muito além do simples processamento e compreensão da linguagem. Elas são capazes de tomar decisões, resolver problemas, interagir com o ambiente e atuar em busca de metas.
Os agentes de IA agora estão sendo incorporados a uma variedade de soluções empresariais, desde automação de TI e engenharia de software, até interfaces de conversação e implementação de geração de código. Impulsionados por grandes modelos de linguagem (LLMs), eles podem compreender direções complexas, decompô-las em etapas, interagir com recursos de fontes externas e ter a capacidade cognitiva de saber quando implementar determinadas ferramentas ou serviços para ajudar a realizar tarefas.
A avaliação de agentes é um procedimento importante na criação e implementação de sistemas autônomos de IA, pois mede a eficiência com que um agente executa as tarefas atribuídas, toma decisões e interage com os usuários ou ambientes. Dessa forma, podemos garantir que os agentes operem de forma confiável, eficiente e ética nos casos de uso pretendidos.
Os principais motivos para a avaliação de agentes incluem:
A avaliação do desempenho de um agente de IA usa métricas organizadas em várias classes formais de desempenho: precisão, tempo de resposta (velocidade) e custo dos recursos utilizados. A precisão descreve o quão bem o agente dá as respostas corretas e relevantes, bem como a capacidade do agente de concluir suas funções pretendidas. O tempo de resposta mede a velocidade que o agente leva para processar a entrada e produzir a saída. Minimizar a latência é especialmente importante em programas interativos e em tempo real, e o custo mede os recursos computacionais que o agente consome, como uso de tokens, chamada para uma interface de programação de aplicativos (API) ou tempo do sistema. Essas métricas fornecem diretrizes para melhorar o desempenho do sistema e limitar os custos operacionais.
Enquanto métricas principais, como exatidão, utilidade e coerência, se enquadram em precisão, o tempo de resposta (latência)mede métricas incluindo rendimento ,latência média e atraso de tempo limite. As métricas de custo incluem uso de tokens, tempo de computação , contagem de chamadas de API e consumo de memória.
Neste tutorial, vamos explorar as principais métricas de correção, utilidade e coerência que se enquadram na precisão.
Você desenvolverá um agente de viagens e avaliará seu desempenho usando um "LLM como juiz".
Você precisa de uma conta do IBM® Cloud para criar um projeto do watsonx.ai .
Você também precisa do Python versão 3.12.7
Embora você possa escolher entre várias ferramentas, este tutorial explica como configurar uma conta da IBM para usar um Jupyter Notebook.
Faça login no watsonx.ai usando sua conta do IBM Cloud.
Crie um projeto do watsonx.ai. Você pode obter o ID do projeto a partir do seu projeto. Clique na guia Gerenciar. Em seguida,copie o ID doprojeto da seção Detalhes da página Geral. Você precisa desse ID para este tutorial.
Crie um Jupyter Notebook. Esta etapa abre um ambiente do Jupyter Notebook onde você pode copiar o código deste tutorial. Ou você pode fazer download desse notebook em seu sistema local e carregá-lo como um ativo em seu projeto do watsonx.ai. Para ver mais tutoriais do IBM Granite, confira a Comunidade IBM Granite.
Crie uma instância do serviço watsonx.ai Runtime (selecione a região apropriada e escolha o plano Lite, que é uma instância gratuita).
Gere uma chave de interface de programação de aplicativos (API) .
Associe a instância do serviço do watsonx.ai Runtime ao projeto que você criou no watsonx.ai.
Precisamos de algumas bibliotecas e módulos para este tutorial. Certifique-se de importar os seguintes e, se não estiverem instalados, uma instalação rápida de pip resolve o problema.
Observe que este tutorial foi criado usando o Python 3.12.7.
Para definir nossas credenciais, precisamos do WATSONX_APIKEY e do WATSONX_PROJECT_ID que você gerou na etapa 1. Também definiremos a URL como o endpoint da API. Seu endpoint da API pode variar dependendo de sua localização geográfica.
Usaremos o modelo Granite 3 -8B Instruct para este tutorial. Para inicializar o LLM, precisamos definir os parâmetros do modelo. Para saber mais sobre esses parâmetros do modelo, como os limites mínimo e máximo de tokens, consulte a documentação.
Vamos criar um amigo de exploração de viagens que ajude os usuários no planejamento e na pesquisa de viagens.
Criaremos uma aplicação simples de assistente de viagens que possa recuperar informações de companhias aéreas e hotéis em resposta às consultas dos usuários, conectando-se a uma API de viagens externa. Para integração com agentes de IA para planejamento dinâmico de viagens, teremos uma função simples que faz consultas de API e as envolve em uma ferramenta.
Por fim, executamos uma avaliação e exibimos a pontuação final da avaliação. Para avaliar o planejador de viagens usando três critérios distintos (correção, utilidade e coerência), um prompt de avaliação estruturado é desenvolvido para um LLM avaliador.
A saída mostra a avaliação qualitativa e quantitativa do planejador de viagens gerada pelo uso de três critérios: exatidão, utilidade e coerência.
Vamos detalhar o que cada pontuação e métrica significa no contexto da saída do agente:
Ao avaliar a capacidade de um agente de realmente atender às necessidades do usuário, critérios como coerência, utilidade e precisão desempenham um papel central. Independentemente de você estar trabalhando com o OpenAI, IBM Granite ou outros modelos de LLM como serviço, é crucial confiar em métodos de avaliação estruturados, como conjuntos de dados, benchmarks, anotações e verdade absoluta, para testar minuciosamente os resultados finais. Em casos de uso prático, como chatbots ou suporte ao cliente baseado em RAG, frameworks de código aberto como LangGraph são inestimáveis. Eles são compatíveis com a automação escalável, roteamento confiável e permitem ciclos de iteração rápidos. Essas tecnologias também facilitam a potencialização de sistemas de IA generativa, a depuração de comportamentos e a otimização e configuração de fluxos de trabalho complexos. Ao definir cuidadosamente os casos de teste e ficar de olho nas métricas de observabilidade, como custo de computação, preço e latência, as equipes podem melhorar consistentemente o desempenho do sistema. Em última análise, aplicar uma abordagem de avaliação confiável e repetível traz rigor aos sistemas de aprendizado de máquina e fortalece sua confiabilidade ao longo do tempo.
Crie, implemente e gerencie assistentes e agentes de IA potentes que automatizam fluxos de trabalho e processos com a IA generativa.
Construa o futuro do seu negócio com soluções de IA em que você pode confiar.
Os serviços de IA da IBM Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformação.