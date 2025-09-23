Inteligencia artificial

IBM fue nombrada líder en la evaluación de proveedores de productos de tecnología de evaluación de 2025 de IDC Marketscape Worldwide GenAI Evaluation 2025

Autores

Maryam Ashoori

VP of Product and Engineering, watsonx.governance

IBM

Manish Bhide

Distinguished Engineer and CTO, watsonx.governance

IBM

Sahiba Pahwa

Product Marketing, watsonx.governance

IBM

IBM ha sido nombrada líder en IDC MarketScape: Worldwide GenAI Evaluation Technology Products 2025 Vendor Assessment.

Creemos que este reconocimiento refleja el impacto creciente y la innovación continua de IBM watsonx.governance, y el compromiso de IBM de satisfacer las demandas modernas de IA responsable, escalable y confiable.

“Las empresas que tienen un entorno tecnológico diverso pueden encontrar que IBM representa un proveedor neutral; por ejemplo, no está vinculado a un servicio en la nube en particular. Además, las empresas que valoran el conjunto más amplio de ofertas adyacentes de IBM, incluida la documentación automatizada, las medidas de seguridad y las ofertas de seguridad, deben considerar a IBM”, dice el informe de IDC MarketScape.

El modelo de análisis de proveedores de IDC MarketScape está diseñado para proporcionar una visión general de la aptitud competitiva de la tecnología y los proveedores en un mercado determinado. La metodología de investigación utiliza una rigurosa metodología de puntuación basada en criterios tanto cualitativos como cuantitativos que da como resultado una única ilustración gráfica de la posición de cada proveedor dentro de un mercado determinado. La puntuación de las capacidades mide el producto del proveedor, la comercialización y la ejecución del negocio a corto plazo. La puntuación de la estrategia mide la alineación de las estrategias de los proveedores con los requisitos del cliente en un plazo de 3 a 5 años. La participación de mercado de los proveedores está representada por el tamaño de los íconos

Las 5 categorías de la metodología de IDC MarketScape 

El marco riguroso de evaluación de IDC MarketScape proporciona una evaluación objetiva de terceros que las organizaciones pueden confiar al tomar decisiones de tecnología de evaluación de modelos de IA.

El marco considera las siguientes 5 categorías:

  1. Satisfacción del cliente: las entrevistas directas con los clientes proporcionaron insights reales sobre el éxito de la implementación, el retorno de la inversión (ROI) y el soporte continuo, no solo sobre las ofertas actuales, sino también sobre su visión y hoja de ruta para abordar los desafíos de riesgos emergentes.
  2. Funcionalidad u oferta: el informe evalúa la neutralidad, como la facilidad de uso, independientemente de las herramientas utilizadas para crearlas o dónde se ejecutan, o la personalización en términos de panel y métricas.
  3. Innovación tecnológica: los proveedores se evaluaron en función de la capacidad u oferta diferenciada que ofrece un valor notable al cliente.
  4. Gama de servicios: el informe consideró las capacidades de la evaluación RAG, con especial atención a la capacidad de evaluar agentes.
  5. Cartera: se prestó especial atención a la cantidad de ofertas adyacentes para el ajuste de modelos, como el monitoreo de producción, la gobernanza de modelos y la seguridad de modelos, y si las herramientas de evaluación se integraron perfectamente en todo el ciclo de vida, desde el desarrollo hasta la producción.

Fortalezas de IBM watsonx.governance 

Lo que creemos que son las fortalezas de IBM:

1. Desarrollo y gobernanza de modelos optimizados

IBM watsonx.governance ofrece un enfoque unificado para gestionar todo el ciclo de vida de la IA, desde el desarrollo hasta el despliegue. Con un cuestionario guiado, los usuarios pueden definir problemas de negocio, ayudar a descubrir e identificar los riesgos potenciales y descubrir estrategias de mitigación.

Estas dimensiones de riesgo se asignan a métricas que se pueden utilizar durante el proceso de evaluación. Además, este proceso integrado extrae automáticamente metadatos durante el proceso de evaluación, almacenándolos en una hoja de datos centralizada y proporciona un registro transparente del proceso de desarrollo de aplicaciones, que incluye información sobre el modelo, plantillas de instrucciones y más. Al incorporar tecnología de evaluación en este ciclo de vida estrechamente integrado, que incluye documentación, nos diferenciamos como una solución ideal para usuarios empresariales.

2. Identificación automática de riesgos en tiempo de ejecución con paneles dinámicos

Al integrar datos de riesgo, evaluaciones de riesgo y control, eventos de pérdida internos y externos e indicadores o métricas clave de riesgo, los equipos pueden obtener una visión integral de su postura de riesgo en toda la empresa. Esto puede ayudar a las empresas a identificar automáticamente los riesgos a medida que surgen, en tiempo real. Además, IBM watsonx.governance proporciona una calificación de riesgo automática, lo que brinda a los equipos de riesgo una evaluación clara y objetiva del nivel de riesgo. Los paneles dinámicos y gráficos facilitan la identificación, medición, monitoreo y análisis rápidos, mientras que las alertas automatizadas permiten la corrección de instrucciones cuando se superan los umbrales de riesgo.

3. Métricas listas para usar

Con IBM watsonx.governance, los usuarios tienen acceso a una amplia gama de métricas predefinidas para evaluar el rendimiento y la eficacia del sistema de IA. Estos incluyen métricas para la identificación de desviaciones, el rendimiento del modelo y otras áreas clave:

  • HAP
  • pii
  • Inyección de instrucciones
  • Relevancia del contexto
  • Fidelidad
  • Similitud de respuesta
  • Relevancia de la respuesta
  • Tasa de acierto
  • Precisión promedio
  • Rango recíproco
  • Solicitudes fallidas
  • Y muchos más

Estas métricas, entre otras, proporcionan un marco integral para evaluar el rendimiento y la eficacia del sistema de IA. Además, los usuarios pueden crear métricas personalizadas para adaptar sus evaluaciones a los requisitos comerciales y perfiles de riesgo específicos, proporcionando una infraestructura integral de evaluación.

4. Optimización y experimentación de agentes eficientes y ágiles

Otra innovación del equipo de IBM es el “E Evaluation Studio”. Esta característica proporciona dos capacidades clave:

  1. Optimización de instrucciones comparando diferentes versiones de las instrucciones en paralelo y
  2. Seguimiento de la experimentación para agentes

Evaluation Studio ayuda a los desarrolladores a evaluar diferentes versiones de la instrucción en un conjunto de datos y comparar los resultados en una interfaz de usuario intuitiva.  También proporciona soporte para una clasificación personalizada única en la que los usuarios pueden crear un esquema de clasificación personalizado seleccionando métricas y asignándoles ponderaciones en función de la importancia.  Esto ayuda a los usuarios a optimizar fácilmente una instrucción que se utilizará en una herramienta o agente. 

watsonx.governance, Evaluation Studio también admite el seguimiento de experimentos, que es una herramienta poderosa para crear mejores sistemas de IA agéntica. Puede configurar rápidamente experimentos, probar diferentes variantes (del agente) y etiquetarlas con detalles como el modelo, el recuperador o la instrucción que utilizó. Las comparaciones en paralelo basadas en la latencia, el costo y la calidad (como la fidelidad) facilitan ver qué funciona mejor. Es importante destacar que la plataforma le ayuda a almacenar el código exacto para cada ejecución, lo que libera a los desarrolladores de guardar cada versión y les permite centrarse en crear y mejorar el agente.

5. Evaluadores en el circuito: un diferenciador clave del mercado

La solución IBM watsonx.governance admite evaluadores en el bucle listos para usar, basados en decoradores, lo que establece un nuevo estándar para la gobernanza de agentes, proporcionando a los clientes la capacidad de evaluar métricas y utilizarlas para decidir el flujo de ejecución del agente. IBM watsonx.governance también admite la evaluación de agentes fuera de línea a través de evaluadores de agentes que ayudan a evaluar los agentes de IA en datos de prueba a medida que se crean. Entre sus principales características se incluyen:

  • Evaluadores en el bucle: los evaluadores en el bucle se pueden utilizar para calcular una métrica cada vez que se ejecuta una herramienta o nodo en un agente LangGraph. Esto se puede utilizar para calcular diversas métricas, como la relevancia del contexto, la fidelidad, la alucinación de llamadas a herramientas y más. El flujo de ejecución del agente se puede ajustar en función del valor de las métricas calculadas. Por ejemplo, si en una aplicación de RAG agéntica, la relevancia del contexto es baja, no tiene sentido generar una respuesta utilizando el contexto obtenido.  Por lo tanto, el flujo de agentes se puede modificar en función del valor de relevancia del contexto calculado para no ir al nodo de generación de respuestas, sino para responder directamente al usuario.
  • Facilidad de uso: la forma típica de utilizar evaluadores en el bucle es agregar código personalizado como un nodo en la aplicación LangGraph. Las evaluaciones en el bucle de watsonx.governance están disponibles como decoradores de python, lo que facilita su uso al crear una aplicación de IA agéntica.

Esta innovadora herramienta ofrece una visibilidad y un control incomparables sobre el rendimiento de los agentes, lo que permite a los clientes optimizar sus flujos de trabajo e impulsar mejores resultados.

Apoyar las necesidades cambiantes de los equipos de operaciones de IA/machine learning (ML): la hoja de ruta futura

Para potenciar aún más a los equipos de operaciones de IA/machine learning (ML), IBM se compromete a impulsar la innovación con una cartera de nuevas características. En las próximas versiones, experimentará las características adicionales de gobernanza agéntica, como:

  1. Monitoreo avanzado de producción para IA agéntica: watsonx.governance de IBM estará equipado para ofrecer una supervisión continua de las aplicaciones, iniciando alertas cuando cualquiera de las métricas especificadas exceda sus límites predefinidos. Esta característica garantiza una gestión proactiva y una intervención oportuna para mantener un rendimiento de IA óptimo y confiable.
  2. Catálogo de agentes gobernado: esto permitirá a los usuarios aportar gobernanza al proceso de agregar herramientas y agentes a un catálogo central. Esto ayudará a las empresas a garantizar que solo las herramientas y agentes confiables estén disponibles para sus desarrolladores.

La gobernanza ya no es una barrera definida por el cumplimiento y la auditoría. Ahora es un habilitador de escala, que permite a los equipos crear sistemas de IA generativa que sean robustos y transparentes, y estén listos para el despliegue empresarial. La gobernanza se trata de crear agentes de IA, aplicaciones y modelos que son eficientes, seguros y confiables desde el principio.

A medida que la IA generativa continúa evolucionando, watsonx.governance permite a los equipos moverse rápidamente con confianza, transparencia y control. Nuestro enfoque de evaluación se centra en la gestión de riesgos en tiempo real, la gestión y el seguimiento automatizados de los experimentos y la transparencia en cada etapa. Creado teniendo en cuenta la complejidad del mundo real, watsonx.governance ayuda a los equipos a escalar de manera responsable, reducir el riesgo y desbloquear todo el potencial de la IA generativa sin disminuir su ritmo.

Descargar el extracto

Aprenda más sobre IBM watsonx.governance

Pruebe el producto gratis

Aprenda más Descargar el extracto Aprenda más sobre IBM watsonx.governance Pruebe el producto gratis