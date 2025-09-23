Inteligencia artificial

IBM ha sido nombrada líder en el informe IDC MarketScape 2025 de evaluación mundial de proveedores de productos tecnológicos para evaluación de modelos de IA generativa

Autores

Maryam Ashoori

VP of Product and Engineering, watsonx.governance

IBM

Manish Bhide

Distinguished Engineer and CTO, watsonx.governance

IBM

Sahiba Pahwa

Product Marketing, watsonx.governance

IBM

IBM ha sido nombrada líder en el informe IDC MarketScape 2025 de evaluación mundial de productos tecnológicos para IA generativa.

Creemos que este reconocimiento refleja el impacto creciente y la innovación continua de IBM® watsonx.governance, y el compromiso de IBM de satisfacer las demandas modernas de una IA fiable, escalable y responsable.

"Las empresas que tienen un entorno tecnológico diverso pueden encontrar que IBM representa un proveedor neutral (no está vinculado a un servicio cloud en particular, por ejemplo). Además, las empresas que valoran el conjunto más amplio de ofertas adyacentes de IBM, incluida la documentación automatizada, las barreras de seguridad y las ofertas de seguridad, deberían considerar IBM", dice el informe de IDC MarketScape.

El modelo de análisis de proveedores de IDC MarketScape está diseñado para proporcionar una visión general de la aptitud competitiva de la tecnología y los proveedores en un mercado determinado. La metodología de investigación utiliza una sistema de puntuación riguroso basado en criterios tanto cualitativos como cuantitativos que da como resultado una única ilustración gráfica de la posición de cada proveedor dentro de un mercado determinado. La puntuación de capacidades mide el producto del proveedor, la comercialización y la ejecución empresarial a corto plazo. La puntuación de estrategia mide la alineación de las estrategias de los proveedores con los requisitos de los clientes en un plazo de 3 a 5 años. La cuota de mercado de los proveedores está representada por el tamaño de los iconos

Las 5 categorías de la metodología de IDC MarketScape 

El riguroso marco de evaluación de IDC MarketScape proporciona una evaluación objetiva y de terceros en la que las organizaciones pueden confiar a la hora de tomar decisiones tecnológicas de evaluación de modelos de IA generativa.

El marco considera las siguientes 5 categorías:

  1. Satisfacción del cliente: entrevistas directas con los clientes proporcionaron conocimiento sobre el éxito de la implementación, ROI y soporte continuo, no solo sobre las ofertas actuales, sino también sobre su visión y hoja de ruta para abordar los desafíos de riesgo emergentes.
  2. Funcionalidad u oferta: el informe evalúa la neutralidad, como la facilidad de uso, independientemente de las herramientas utilizadas para crearlos o dónde se ejecuten, o la personalización en términos de panel de control y métricas.
  3. Innovación tecnológica: los proveedores se evaluaron en función de la capacidad u oferta diferenciada que ofrece un valor notable al cliente.
  4. Gama de servicios: el informe consideró el aliento de las capacidades de la evaluación RAG, con especial atención a la capacidad de evaluar agentes.
  5. Portfolio: se prestó especial atención al número de ofertas adyacentes al ajuste de modelos, como la monitorización de la producción, el gobierno de los modelos y la seguridad de los modelos, y a si las herramientas de evaluación se integraban perfectamente en todo el ciclo de vida, desde el desarrollo hasta la producción.

Puntos fuertes de IBM watsonx.governance 

Lo que creemos que son los puntos fuertes de IBM:

1. Desarrollo y gobierno de modelos optimizados

IBM watsonx.governance ofrece un enfoque unificado para gestionar todo el ciclo de vida de la IA, desde el desarrollo hasta la implementación. Con un cuestionario guiado, los usuarios pueden definir los problemas empresariales, ayudar a descubrir e identificar los riesgos potenciales y descubrir estrategias de mitigación.

Estas dimensiones de riesgo se asignan a métricas que pueden utilizarse durante el proceso de evaluación. Además, este proceso integrado extrae automáticamente los metadatos durante el proceso de evaluación, almacenándolos en una ficha técnica centralizada y proporciona un registro transparente del proceso de desarrollo de la aplicación, incluida información sobre el modelo, instrucciones y mucho más. Al incorporar la tecnología de evaluación en este ciclo de vida estrechamente integrado, que incluye la documentación, nos diferenciamos como una solución ideal para los usuarios empresariales.

2. Identificación automática de riesgos en tiempo de ejecución con paneles de control dinámicos

Al integrar datos de riesgo, evaluaciones de riesgo y control, eventos de pérdida internos y externos e indicadores o métricas clave de riesgo, los equipos pueden obtener una visión completa de su posición de riesgo en toda la empresa. Esto puede ayudar a las empresas a identificar automáticamente los riesgos a medida que surgen, en tiempo real. Además, IBM watsonx.governance proporciona una calificación de riesgo automática, lo que aporta a los equipos de riesgo una evaluación clara y objetiva del nivel de riesgo. Los paneles de control y los gráficos dinámicos facilitan la identificación, la medición, la monitorización y el análisis rápidos, mientras que las alertas automatizadas permiten una rápida corrección cuando se superan los umbrales de riesgo.

3. Métricas listas para usar

Con IBM watsonx.governance, los usuarios tienen acceso a una amplia gama de métricas prediseñadas para evaluar el rendimiento y la eficacia del sistema de IA. Estos incluyen métricas para la identificación de desviaciones, el rendimiento del modelo y otras áreas clave:

  • HAP
  • PII
  • Inyección de instrucciones
  • Relevancia del contexto
  • Fidelidad
  • Similitud de respuesta
  • Relevancia de la respuesta
  • Índice de coincidencias
  • Precisión media
  • Rango recíproco
  • Solicitudes fallidas
  • Y muchos más

Estas métricas, entre otras, proporcionan un marco integral para evaluar el rendimiento y la eficacia del sistema de IA. Además, los usuarios pueden crear métricas personalizadas para adaptar sus evaluaciones a requisitos empresariales y perfiles de riesgo específicos, proporcionando un marco de evaluación integral.

4. Optimización y experimentación de agentes eficientes y ágiles

Otra innovación del equipo de IBM es el "Evaluation Studio". Esta característica proporciona dos capacidades clave:

  1. Optimización de las instrucciones comparando diferentes versiones de las instrucciones una al lado de la otra y
  2. Seguimiento de la experimentación para agentes

Evaluation Studio ayuda a los desarrolladores a evaluar diferentes versiones de la instrucción en un conjunto de datos y comparar los resultados en una interfaz de usuario intuitiva.  También proporciona soporte para una clasificación personalizada única en la que los usuarios pueden crear un esquema de clasificación personalizado seleccionando métricas y asignándoles ponderaciones en función de la importancia.  Esto ayuda a los usuarios a optimizar fácilmente una instrucción que se utilizará en una herramienta o agente. 

watsonx.governance, evaluation studio, también admite el seguimiento de experimentos, que es una potente herramienta para crear mejores sistemas de IA agéntica. Puede configurar rápidamente experimentos, probar diferentes variantes (del agente) y etiquetarlos con detalles como el modelo, el recuperador o la instrucción que utilizó. Las comparaciones en paralelo basadas en la latencia, el coste y la calidad (como la fidelidad) facilitan ver qué funciona mejor. Importante, la plataforma le ayuda a almacenar el código exacto para cada ejecución, lo que libera a los desarrolladores del tiempo de guardar cada versión y les permite centrarse en crear y mejorar el agente.

5. Evaluadores in-the-loop: un diferenciador clave del mercado

La solución IBM watsonx.governance admite evaluadores In-the-loop listos para usar, basados en decoradores, lo que establece un nuevo estándar para el gobierno de agentes, proporcionando a los clientes la capacidad de evaluar métricas y utilizarlas para decidir el flujo de ejecución del agente. IBM watsonx.governance también admite la evaluación de agentes fuera de línea a través de evaluadores de agentes que ayudan a evaluar los agentes de IA en los datos de prueba a medida que se crean. Las características clave incluyen:

  • Evaluadores in-the-loop: los evaluadores in-the-loop se pueden utilizar para calcular una métrica cada vez que se ejecuta una herramienta o nodo en un LangGraph Agent. Esto se puede utilizar para calcular diversas métricas, como la relevancia del contexto, la fidelidad, la alucinación de llamadas a herramientas y más. El flujo de ejecución del agente se puede ajustar en función del valor de las métricas calculadas. Por ejemplo, si en una aplicación de RAG agéntico, la relevancia del contexto es baja, no tiene sentido generar una respuesta utilizando el contexto obtenido.  Por lo tanto, el flujo de agentes puede modificarse en función del valor de relevancia del contexto calculado para que no vaya al nodo de generación de respuestas, sino que responda directamente al usuario.
  • Facilidad de uso: la forma típica de utilizar evaluadores in-the-loop es añadir código personalizado como nodo en la aplicación LangGraph. Las evaluaciones in-the-loop de watsonx.governance están disponibles como decoradores de python que facilitan su uso al crear una aplicación de IA agéntica.

Esta innovadora herramienta ofrece una visibilidad y un control sin precedentes sobre el rendimiento de los agentes, lo que permite a los clientes optimizar sus flujos de trabajo e impulsar mejores resultados.

Respaldar las necesidades cambiantes de los equipos de operaciones de IA/ML: la hoja de ruta del futuro

Para empoderar aún más a los equipos de operaciones de IA/ML, IBM se compromete a impulsar la innovación con una cartera de nuevas características. En las próximas versiones, experimentará características adicionales de gobierno, como:

  1. Monitorización avanzada de la producción para la IA agéntica: watsonx.governance de IBM estará equipada para ofrecer una supervisión continua de las aplicaciones agénticas, iniciando alertas cuando cualquiera de las métricas especificadas supere sus límites predefinidos. Esta característica garantiza una gestión proactiva y una intervención oportuna para mantener un rendimiento de IA óptimo y fiable.
  2. Catálogo de agentes gobernado: esto permitirá a los usuarios agregar gobierno al proceso de agregar herramientas y agentes a un catálogo central. Esto ayudará a las empresas a garantizar que solo las herramientas y los agentes de confianza estén disponibles para sus desarrolladores.

El gobierno ya no es una barrera definida por el cumplimiento y la auditoría. Ahora es un facilitador de escala, que permite a los equipos crear sistemas de IA generativa que sean robustos, transparentes y listos para la implementación empresarial. El gobierno se trata de crear agentes de IA, aplicaciones y modelos que son eficientes, seguros y fiables desde cero.

A medida que la IA generativa sigue evolucionando, watsonx.governance permite a los equipos avanzar rápidamente con confianza, transparencia y control. Nuestro enfoque de evaluación se centra en la gestión de riesgos en tiempo real, la gestión automatizada de experimentos y el seguimiento y la transparencia en cada etapa. Creado teniendo en cuenta la complejidad del mundo real, watsonx.governance ayuda a los equipos a escalar de forma responsable, reducir el riesgo y desbloquear todo el potencial de la IA generativa sin ralentizarle.

Descargue el extracto

Más información sobre IBM watsonx.governance

Pruebe el producto sin coste

