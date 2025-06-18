Liberando o poder da IA agêntica com novos recursos do watsonx.governance

18 de junho de 2025

Siddhi Shreekar Gowaikar

Andrea Colmenares

Sahiba Pahwa

A IA agêntica é uma força transformadora, com a Gartner prevendo que um terço das interações de IA generativa usarão modelos de ação e agentes autônomos até 2028.

Porém, os agentes de IA não supervisionados podem operar com autonomia e poder significativos, expondo as organizações a inúmeros riscos imprevisíveis que podem resultar em impactos prejudiciais e irreversíveis para as organizações e clientes. Seus processos complexos de tomada de decisão, influenciados por dados, podem criar vieses, complicar a rastreabilidade e introduzir preocupações de segurança. Alucinações e escolhas incorretas agravam ainda mais esses desafios.

Para combater esses desafios, em março, anunciamos a prévia técnica dos nossos recursos de governança de IA agêntica. Com base nesse impulso, estamos lançando novas funcionalidades como parte do watsonx.governance.

Inventário simplificado de ferramentas para agentes

O Governed Agentic Catalog é um recurso abrangente para gerenciar e selecionar ferramentas, agentes e fluxos de trabalho de IA, projetado para simplificar a seleção de ferramentas/agentes e promover a reutilização entre usuários e casos de uso. Esse repositório centralizado ajuda as equipes a manter a consistência e a eficiência, consolidando uma ampla gama de ferramentas, cada uma realizando tarefas específicas essenciais para projetar e criar sistemas agênticos. Essas ferramentas agênticas abrangem várias funcionalidades, como recuperação de dados e conexões externas.

As características principais do catálogo incluem:

  1. Habilitar o mapeamento da linhagem de ferramentas: permite que os usuários rastreiem as ferramentas até seus respectivos casos de uso. Essa funcionalidade estará disponível em versões posteriores. Também oferece funcionalidade de pesquisa por uso de tipo de caso ou domínio, permitindo que os usuários localizem rapidamente ferramentas relevantes e agilizem o início do projeto. 
  2. Facilitar a comparação de ferramentas em uma visão unificada: os usuários podem filtrar ferramentas com base em seu tipo, e cada cartão de ferramenta fornece uma descrição clara junto com métricas de qualidade. O catálogo facilita comparações lado a lado fáceis de diferentes ferramentas, capacitando os usuários a tomar decisões informadas.
  3. Garantir a eficácia e a confiabilidade das ferramentas: como parte de um lançamento posterior, os usuários podem visualizar classificações de outros membros da comunidade para avaliar a eficácia e a confiabilidade das ferramentas.

Utilizando o Governed Agentic Catalog, as equipes podem gerenciar a expansão das ferramentas, garantir a utilização adequada das ferramentas e manter a consistência entre os departamentos. Essa abordagem abrangente ao gerenciamento de ferramentas acelera o progresso e promove um ambiente colaborativo para o desenvolvimento de sistemas agênticos.

Acelere a avaliação de desempenho da IA agêntica

A crescente prevalência de agentes de IA apresenta complexidades significativas, como o desafio de avaliar o desempenho, a confiabilidade, a segurança e o comportamento ético desses agentes de IA autônomos.

As melhores práticas de avaliação da IA agêntica podem reduzir a exposição a vários riscos previsíveis e desconhecidos. No entanto, o rastreamento de desempenho eficaz pode ser um desafio para organizações e desenvolvedores, pois os agentes exigem a observação não apenas das saídas, mas também de comportamentos, decisões e intenções. Com o watsonx.governance, as organizações podem avaliar o desempenho dos agentes usando:

  • Métricas de avaliação com benchmarks: ajudam a avaliar a competência geral dos agentes e em várias tarefas.
  • Análise da causa raiz: identifica as razões subjacentes do baixo desempenho nas cadeias de decisões de rastreamento, não apenas a saída final para informar melhorias para, por exemplo, falta de dados sem viés.
  • Feedback humano ou red teaming: permite que os SMEs observem e verifiquem as ações dos agentes (human in the loop) e testem os agentes em busca de suscetibilidades.

A partir de março, o watsonx.governance lançou esses novos recursos para compatibilidade com métricas especializadas adicionais. As novas métricas de avaliação de IA agêntica da RAG já estão disponíveis. O conjunto abrangente de métricas para avaliar o desempenho inclui HAP, PII, injeção de prompts, relevância de contexto, fidelidade, semelhança de resposta, relevância de resposta, taxa de acerto, precisão média, classificação recíproca e solicitações mal-sucedidas, entre outras, para garantir uma avaliação completa da eficácia de nosso sistema. Isso ajuda a confirmar se os agentes agem adequadamente e a detectar sinais de alerta ao adicionar as proteções necessárias para regular o comportamento dos agentes em relação ao resultado desejado.

Essas métricas estarão disponíveis adicionando um simples decorador em Python ao nó da ferramenta em uma aplicação LangGraph.  A adição desse decorador resultará na computação da métrica como um subproduto da execução do nó na aplicação agêntica. A métrica calculada pode, então, ser usada na aplicação para tomar decisões de fluxo. Por exemplo, se o contexto buscado no banco de dados de vetores não for relevante para a consulta do usuário, não gere uma resposta, mas tente uma pesquisa na web para buscar o contexto correto. Esses avaliadores não são apenas fáceis de usar, mas também são eficientes e incluem métricas de código aberto e métricas avançadas da IBM. Assim, fornecem uma ampla gama de recursos para avaliação e são adequados para vários casos de uso e tipos de tarefas.

Acelere sua experimentação agêntica 

O rastreamento de experimentação é crucial na governança de um agente de IA, pois fornece um registro abrangente de todas as alterações, iterações e melhorias feitas durante o processo de desenvolvimento. Isso inclui modificações em algoritmos, entradas de dados, hiperparâmetros e outros aspectos críticos.

O desenvolvimento de aplicativos agênticos é um processo iterativo. Os desenvolvedores criam um aplicativo de IA agêntica, testam-no, fazem ajustes finos quando necessário e criam uma nova versão para melhorar a produção, e o processo continua para otimização adicional. O watsonx.governance será compatível automaticamente com o rastreamento de vários experimentos e comparações usando o Evaluation Studio:

  • Desenvolvimento agêntico mais rápido: avalie vários agentes em uma única instância, economizando tempo do desenvolvedor na avaliação de vários agentes criados em qualquer plataforma de terceiros, oferecendo versatilidade.
  • Processos aprimorados de tomada de decisão e seleção: visualize e compare agentes simultaneamente para melhorar a eficiência operacional, eliminando a necessidade de avaliações manuais, simplificando os fluxos de trabalho e reduzindo o potencial de erro humano.
  • Aumento da eficiência operacional: elimina a necessidade de avaliações manuais, simplificando os fluxos de trabalho e reduz o potencial de erro humano.

O watsonx.governance acelera o processo de iteração e desenvolvimento, permitindo comparações rápidas de aplicações de IA agêntica. Essa funcionalidade não se limita a aplicativos de IA desenvolvidos em nossa plataforma watsonx; também estende a compatibilidade a plataformas de terceiros, oferecendo versatilidade.

Monitore aplicações de IA agêntica em produção em tempo real 

O monitoramento de métricas pode ajudar a rastrear o desempenho dos agentes, detectar problemas como degradação de desempenho, desvio de dados e viés do modelo em produção e orientar melhorias. Sem uma avaliação adequada, fica difícil confiar, controlar ou calibrar/realizar o ajuste fino dos agentes de IA para aumentar a precisão, aumentando o risco de resultados não intencionais.

Em cenários em que a IA agêntica é implementada em produção, a vigilância contínua torna-se imperativa para lidar com questões como alucinação, tempo de resposta, desvio e viés. Implementar aplicações de IA agêntica com monitoramento contínuo da produção é crítico para manter a confiabilidade e a confiança do sistema. A vigilância em tempo real permite que as equipes de MLOps e AgentOps rastreiem o comportamento do modelo e do agente, o desvio de desempenho e saídas inesperadas, permitindo uma intervenção imediata quando ocorrem desvios. Essa prontidão operacional garante que os sistemas autônomos permaneçam alinhados com as metas pretendidas e as restrições de segurança.

Nos próximos lançamentos, o watsonx.governance da IBM estará equipado para oferecer supervisão contínua de aplicações agênticas, iniciando alertas quando qualquer uma das métricas exceder seus limites predefinidos. Essa funcionalidade garante gerenciamento proativo e intervenção oportuna para manter o desempenho ideal da IA.

Avalie os riscos de forma proativa 

Assim como outras tecnologias em rápida evolução, os agentes de IA introduzem possíveis riscos, obstáculos e consequências sociais. Alguns novos riscos introduzidos por agentes de IA incluem viés de dados, ações redundantes, alucinações de chamada de função, compartilhamento de informações confidenciais e ataques aos recursos externos de um agente de IA. Além disso, a IA agêntica intensifica os riscos, desafios e efeitos na sociedade existentes.

O IBM Risk Atlas traz uma lista de riscos inerentes aos dados e à IA e está sendo atualizado para refletir os riscos e ameaças dos agentes. 

Governança de IA em todo o ciclo de vida

A governança de IA é necessária em todo o ciclo de vida da IA, desde a criação de casos de uso, desenvolvimento e validação até o monitoramento em produção. Em cada etapa, há riscos e armadilhas que, se não forem gerenciados adequadamente, podem causar problemas presentes ou futuros. Por exemplo, ao criar um novo caso de uso, o watsonx.governance faz uma avaliação de riscos, que ajuda a identificar os riscos a que seu caso de uso está sujeito, para que você possa incorporar as técnicas necessárias de gerenciamento de riscos. Da mesma forma, durante o desenvolvimento de uma aplicação agêntica, é preciso medir e avaliar o desempenho de cada ferramenta ou nó da aplicação para fazer melhorias nas iterações futuras.

O watsonx.governance oferece uma biblioteca com mais de 50 métricas que podem ser adicionadas como decoradores à sua aplicação e medir o desempenho dela. Sem governança, não é possível escalar nem criar confiança em sua IA.

Experimente o watsonx.governance hoje mesmo

A governança e a segurança eficazes são indispensáveis, mas à medida que as empresas crescem e adotam a IA em escala, a implementação de uma estrutura robusta de governança de IA torna-se essencial para garantir a experimentação segura e gerenciar de forma eficiente as complexidades da adoção generalizada da IA.

Experimente o watsonx.governance para explorar esses novos lançamentos de funcionalidades e vários outros aprimoramentos construídos para ajudar as empresas a liberar o verdadeiro potencial da IA e transformar sua experiência de governança de IA hoje mesmo.

