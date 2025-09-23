Inteligência artificial

IBM nomeada líder no 2025 IDC Marketscape Worldwide GenAI Evaluation Technology Products 2025 Vendor Assessment

Autores

Maryam Ashoori

VP of Product and Engineering, watsonx.governance

IBM

Manish Bhide

Distinguished Engineer and CTO, watsonx.governance

IBM

Sahiba Pahwa

Product Marketing, watsonx.governance

IBM

A IBM foi nomeada líder no IDC MarketScape: Worldwide GenAI Evaluation Technology Products 2025 Vendor Assessment.

Acreditamos que esse reconhecimento reflete o impacto crescente e a inovação contínua do IBM watsonx.governance e o compromisso da IBM de atender às demandas modernas por IA responsável, escalável e confiável.

"As empresas que possuem um ambiente de tecnologia diversificado podem descobrir que a IBM representa um fornecedor neutro, que não está vinculado a um determinado serviço de nuvem, por exemplo. Além disso, as empresas que valorizam o conjunto mais amplo de ofertas adjacentes da IBM, incluindo a documentação automatizada, as proteções e as ofertas de segurança, devem considerar a IBM", diz o relatório do IDC MarketScape.

O modelo de análise de fornecedores do IDC MarketScape foi criado para dar uma visão geral da adequação competitiva da tecnologia e dos fornecedores em um determinado mercado. A metodologia de pesquisa utiliza uma rigorosa metodologia de pontuação baseada em critérios qualitativos e quantitativos, que resultam em uma única ilustração gráfica da posição de cada fornecedor em um determinado mercado. A pontuação de recursos mede o produto do fornecedor, a entrada no mercado e a execução de negócios a curto prazo. A pontuação da estratégia mede o alinhamento das estratégias dos fornecedores com as exigências dos clientes em um período de três a cinco anos. A participação de mercado do fornecedor é representada pelo tamanho dos ícones

As cinco categorias da metodologia do IDC MarketScape 

A rigorosa estrutura de avaliação do IDC MarketScape oferece uma avaliação objetiva e de terceiros na qual as organizações podem confiar quando tomam decisões sobre tecnologia de avaliação de modelos de IA generativa.

O framework considera as cinco categorias a seguir:

  1. Satisfação do cliente: entrevistas diretas com clientes forneceram insights reais sobre o sucesso da implementação, ROI e suporte contínuo, não apenas sobre as ofertas atuais, mas sobre sua visão e roteiro para lidar com desafios de risco emergentes.
  2. Funcionalidade ou oferta: o relatório avalia a neutralidade, como facilidade de uso, independentemente das ferramentas usadas para criá-las ou onde são executadas, ou a personalização em termos de dashboard e métricas.
  3. Inovação tecnológica: os fornecedores foram avaliados com base em recursos ou ofertas diferenciados que agregam valor notável ao cliente.
  4. Gama de serviços: o relatório considerou a amplitude de recursos da avaliação da RAG, com atenção especial à capacidade de avaliar os agentes.
  5. Portfólio: foi dada atenção especial ao número de ofertas adjacentes ao ajuste do modelo, como monitoramento de produção, governança de modelo e segurança do modelo, e se as ferramentas de avaliação foram perfeitamente integradas em todo o ciclo de vida, do desenvolvimento à produção.

Pontos fortes do IBM watsonx.governance 

O que acreditamos ser os pontos fortes da IBM:

1. Desenvolvimento e governança de modelos simplificados

O IBM watsonx.governance oferece uma abordagem unificada para gerenciar todo o ciclo de vida da IA, do desenvolvimento à implementação. Com um questionário orientado, os usuários podem definir problemas de negócios, ajudar a descobrir e identificar os riscos potenciais e expor estratégias de mitigação.

Essas dimensões de risco são mapeadas em métricas que podem ser usadas durante o processo de avaliação. Além disso, esse processo integrado extrai automaticamente os metadados durante o processo de avaliação, armazenando-os em uma ficha técnica centralizada e oferecendo um registro transparente do processo de desenvolvimento de aplicações, incluindo informações sobre o modelo, modelos de prompts e muito mais. Ao incorporar a tecnologia de avaliação a esse ciclo de vida totalmente integrado, que inclui documentação, nos diferenciamos como uma solução ideal para usuários empresariais.

2. Identificação automática de risco no tempo de execução com dashboards dinâmicos

Ao integrar dados de risco, avaliações de risco e controle, eventos de perda internos e externos e indicadores ou métricas de risco fundamentais, as equipes podem obter uma visão abrangente de sua postura de risco em toda a empresa. Isso pode ajudar as empresas a identificar automaticamente os riscos à medida que eles surgem, em tempo real. Além disso, o IBM watsonx.governance fornece uma classificação de risco automática, dando às equipes de risco uma avaliação clara e objetiva do nível de risco. Dashboards e gráficos dinâmicos facilitam a identificação, medição, monitoramento e análise rápidos, enquanto alertas automatizados permitem a remediação de prompts quando os limites de risco são violados.

3. Métricas prontas para uso

Com o IBM watsonx.governance, os usuários têm acesso a uma ampla gama de métricas criadas previamente para avaliar o desempenho e a eficácia do sistema de IA. Isso inclui métricas para identificação de desvios, desempenho do modelo e outras áreas importantes:

  • HAP
  • pii
  • Injeção de prompt
  • Relevância de contexto
  • Fidelidade
  • Similaridade da resposta
  • Relevância da resposta
  • Taxa de ocorrência
  • Precisão média
  • Classificação recíproca
  • Solicitações malsucedidasem êxito
  • E muito mais

Essas métricas, entre outras, fornecem um framework abrangente para avaliar o desempenho e a eficácia do sistema de IA. Além disso, os usuários podem criar métricas personalizadas para adaptar as avaliações aos requisitos de negócios e perfis de risco específicos, gerando um framework de avaliação abrangente.

4. Otimização e experimentação de agentes eficientes e ágeis

Outra inovação da equipe da IBM é o "Evaluation Studio". Essa funcionalidade oferece dois recursos principais:

  1. Otimização de prompts comparando diferentes versões dos prompts lado a lado e
  2. Rastreamento de experimentações para agentes

O Evaluation Studio ajuda os desenvolvedores a avaliar diferentes versões do prompt em um conjunto de dados e comparar os resultados em uma interface de usuário intuitiva.  Ele também é compatível com uma classificação personalizada exclusiva, na qual os usuários podem criar um esquema de classificação personalizado, selecionando métricas e atribuindo a elas pesos com base na importância.  Isso ajuda os usuários a otimizar facilmente um prompt que será usado em uma ferramenta ou agente. 

O Evaluation Studio do watsonx.governance também é compatível com o rastreamento de experimentos, que é uma ferramenta poderosa para a criação de sistemas de IA agêntica melhores. Você pode configurar experimentos rapidamente, testar variantes diferentes (do agente) e marcá-los com detalhes como o modelo, recuperação ou prompt que você usou. Comparações lado a lado baseadas em latência, custo e qualidade (como fidelidade) facilitam ver o que funciona melhor. É importante ressaltar que a plataforma ajuda você a salvar o código exato para cada execução, liberando o tempo dos desenvolvedores de armazenar cada versão e permitindo que eles se concentrem na criação e no aprimoramento do agente.

5. Avaliadores in-the-loop: um importante diferencial de mercado

A solução IBM watsonx.governance é compatível com avaliadores in-the-loop em sistema prontos para uso, baseados em decorador, o que define um novo padrão para governança de agentes, proporcionando aos clientes a capacidade de avaliar métricas e usá-las para decidir o fluxo de execução dos agentes. IBM watsonx.governance também é compatível com a avaliação offline de agentes por meio de avaliadores de agentes, que ajudam a avaliar os agentes de IA com base em dados de testes à medida que são criados. As características principais são:

  • Avaliadores in-the-loop: os avaliadores in-the-loop podem ser usados para calcular uma métrica sempre que uma ferramenta ou nó em um LangGraph Agent é executado. Isso pode ser usado para calcular diversas métricas, como relevância do contexto, fidelidade, alucinação de chamada de ferramentas e muito mais. O fluxo de execução de agentes pode ser ajustado com base no valor das métricas calculadas. Por exemplo, se em uma aplicação de RAG agêntica, a relevância do contexto é baixa, não faz sentido gerar uma resposta usando o contexto buscado.  Portanto, o fluxo de agentes pode ser alterado com base no valor de relevância do contexto calculado para não ir para o nó de geração de resposta, mas para responder diretamente de volta ao usuário.
  • Facilidade de uso: a maneira típica de usar avaliadores in-the-loop é adicionar código personalizado como um nó na aplicação LangGraph. As avaliações in-the-loop do watsonx.governance estão disponíveis como decoradores do Python, o que facilita muito o uso na criação de uma aplicação de IA agêntica.

Essa ferramenta inovadora oferece visibilidade e controle incomparáveis sobre o desempenho dos agentes, permitindo que os clientes otimizem seus fluxos de trabalho e gerem melhores resultados.

Apoio às necessidades em constante evolução das equipes de operações de IA/ML: o roteiro do futuro

Para capacitar ainda mais as equipes de operações de IA/ML, a IBM está comprometida em impulsionar a inovação com um pipeline de novas funcionalidades. Nos próximos lançamentos, você terá a experiência de funcionalidades adicionais de governança de agentes, tais como:

  1. Monitoramento avançado da produção para IA agêntica: o watsonx.governance da IBM estará equipado para oferecer supervisão contínua de aplicações agênticas, iniciando alertas quando qualquer uma das métricas exceder seus limites predefinidos. Essa funcionalidade garante gerenciamento proativo e intervenção oportuna para manter o desempenho de IA ideal e confiável.
  2. Catálogo agêntico governado: permitirá que os usuários adicionem governança ao processo de adicionar ferramentas e agentes a um catálogo central. Isso ajudará as empresas a garantir que apenas ferramentas e agentes confiáveis sejam disponibilizados a seus desenvolvedores.

A governança não é mais uma barreira definida pela conformidade e pela auditoria. Agora é um facilitador de escala, capacitando as equipes a criar sistemas de IA generativa robustos, transparentes e prontos para implementação empresarial. Governança consiste em construir agentes, aplicações e modelos de IA eficientes, seguros e confiáveis desde o início.

À medida que a IA generativa continua a evoluir, o watsonx.governance permite que as equipes migrem rapidamente com confiança, transparência e controle. Nossa abordagem de avaliação se concentra no gerenciamento de riscos em tempo real, no gerenciamento automatizado de experimentos e no rastreamento e transparência em cada estágio. Criado pensando na complexidade do mundo real, o watsonx.governance ajuda as equipes a escalar de forma responsável, reduzir os riscos e liberar todo o potencial da IA generativa sem atrasar você.

Baixe o trecho

Saiba mais sobre o IBM watsonx.governance

Experimente o produto gratuitamente

