18 de junio de 2025
La IA agéntica es una fuerza transformadora, y Gartner predice que un tercio de las interacciones de IA generativa utilizarán modelos de acción y agentes autónomos para 2028.
Pero los agentes de IA no supervisados pueden operar con una autonomía y un poder significativos, exponiendo a las organizaciones a numerosos riesgos impredecibles que pueden tener un resultados perjudicial e irreversible tanto para las empresas como para los clientes. Sus complejos procesos de toma de decisiones, influenciados por los datos, pueden crear sesgos, complicar la trazabilidad e introducir problemas de seguridad. Las alucinaciones y las elecciones incorrectas agravan aún más estos desafíos.
Para hacer frente a estos desafíos, en marzo anunciamos la vista previa tecnológica de nuestras capacidades de gobierno de la IA. Al aprovechar este impulso, estamos implementando nuevas características adicionales como parte de watsonx.governance.
El Governed Agentic Catalog es un recurso integral para gestionar y seleccionar herramientas, agentes y flujos de trabajo de IA, diseñado para agilizar la selección de herramientas/agentes y promover la reutilización entre usuarios y casos de uso. Este repositorio centralizado ayuda a los equipos a mantener la coherencia y la eficiencia mediante la consolidación de una amplia gama de herramientas, cada una de las cuales realiza tareas específicas esenciales para diseñar y crear sistemas de agencia. Estas herramientas de agencia abarcan diversas funcionalidades, como la recuperación de datos y las conexiones externas.
Las características clave del catálogo incluyen:
Al aprovechar Governed Agentic Catalog, los equipos pueden gestionar la proliferación de herramientas, garantizar su uso adecuado y mantener la coherencia entre departamentos. Este enfoque integral de la gestión de herramientas acelera en última instancia el progreso y fomenta un entorno colaborativo para el desarrollo de sistemas de agencia.
La creciente prevalencia de los agentes de IA introduce importantes complejidades, como el reto de evaluar el rendimiento, la fiabilidad, la seguridad y el comportamiento ético de estos agentes autónomos de IA.
Las buenas prácticas de evaluación de la IA agéntica pueden reducir la exposición a diversos riesgos predecibles y desconocidos. Sin embargo, un seguimiento eficaz del rendimiento puede suponer un reto para las organizaciones y los desarrolladores, ya que los agentes exigen observar no solo las salidas, sino también los comportamientos, las decisiones y las intenciones. Con watsonx.governance, las organizaciones pueden evaluar el rendimiento de los agentes utilizando:
A partir de marzo, watsonx.governance introdujo estas nuevas capacidades para admitir métricas especializadas adicionales. Las nuevas métricas de evaluación de la IA agéntica de RAG ya están disponibles. El conjunto completo de métricas para evaluar el rendimiento incluye HAP, PII, inyección de instrucciones, relevancia contextual, fidelidad, similitud de respuestas, tasa de aciertos, precisión media, clasificación recíproca y solicitudes fallidas, entre otras, para garantizar una evaluación exhaustiva de la eficacia de nuestro sistema. Esto ayuda a confirmar que los agentes actúan de manera adecuada y detectan señales de alerta, añadiendo las medidas de protección necesarias para regular el comportamiento de los agentes con el fin de alcanzar el resultado deseado.
Estas métricas estarán disponibles añadiendo un decorador de Python simple al nodo de la herramienta en una aplicación LangGraph. La adición de este decorador dará como resultado que la métrica se calcule como un subproducto de la ejecución del nodo en la aplicación agéntica. La métrica calculada se puede utilizar dentro de la aplicación para tomar decisiones de flujo. Por ejemplo, si el contexto obtenido de la base de datos vectorial no es relevante para la consulta del usuario, no genere una respuesta, pero intente una búsqueda web para obtener el contexto correcto. Estos evaluadores no solo son fáciles de usar, sino que también son eficientes e incluyen tanto métricas de código abierto como métricas avanzadas de IBM. Por lo tanto, proporcionan una amplia gama de capacidades de evaluación y son adecuados para diversos casos de uso y tipos de tareas.
El seguimiento de la experimentación es crucial para gobernar un agente de IA porque proporciona un registro completo de todos los cambios, iteraciones y mejoras realizadas durante el proceso de desarrollo. Esto incluye modificaciones de algoritmos, entradas de datos, hiperparámetros y otros aspectos críticos.
El desarrollo de aplicaciones agénticas es un proceso iterativo. Los desarrolladores crean una aplicación de IA agéntica, la prueban, la afinan cuando es necesario y crean una nueva versión para mejorar la salida, y el proceso continúa para una mayor optimización. Watsonx.governance admitirá automáticamente el seguimiento de varios experimentos y la comparación mediante Evaluation Studio:
Watsonx.governance acelera el proceso de iteración y desarrollo al permitir comparaciones rápidas de aplicaciones de IA agéntica. Esta funcionalidad no se limita a las aplicaciones de IA creadas en nuestra plataforma watsonx; también amplía el soporte a plataformas de terceros, ofreciendo versatilidad.
Las métricas de monitorización pueden ayudar a rastrear el rendimiento de los agentes, detectar problemas como la degradación del rendimiento, la desviación de datos y el sesgo del modelo en producción, y guiar las mejoras. Sin una evaluación adecuada, resulta difícil confiar, controlar o calibrar/afinar los agentes de IA para mejorar la precisión, lo que aumenta el riesgo de resultados no deseados.
En escenarios en los que la IA agéntica se implementa en producción, la vigilancia continua se vuelve imperativa para abordar problemas como la alucinación, el tiempo de respuesta, la desviación del modelo y el sesgo. Implementar aplicaciones de IA agéntica con monitorización continua de la producción es crítico para mantener la fiabilidad y la confianza del sistema. La vigilancia en tiempo real permite a los equipos de MLOps y AgentOps realizar un seguimiento del comportamiento del modelo y del agente, la desviación del rendimiento y las salidas inesperadas, lo que permite una intervención inmediata cuando se producen desviaciones. Esta preparación operativa garantiza que los sistemas autónomos permanezcan alineados con los objetivos previstos y las restricciones de seguridad.
En las próximas versiones, watsonx.governance de IBM estará equipado para ofrecer una supervisión continua de las aplicaciones, iniciando alertas cuando cualquiera de las métricas supere sus límites predefinidos. Esta característica garantiza una gestión proactiva y una intervención oportuna para mantener un rendimiento óptimo de la IA.
Al igual que otras tecnologías en rápida evolución, los agentes de IA introducen posibles riesgos, obstáculos y consecuencias sociales. Algunos de los nuevos riesgos introducidos por los agentes de IA incluyen el sesgo de datos, las acciones redundantes, las alucinaciones de llamadas a funciones, el intercambio de información confidencial y los ataques a los recursos externos de un agente de IA. Más allá de estos, la IA agéntica intensifica los riesgos, los desafíos y los efectos sociales existentes.
El IBM® Risk Atlas proporciona una lista de riesgos inherentes a los datos y la IA y se está actualizando para reflejar los riesgos y amenazas de los agentes.
El gobierno de la IA es necesario en todo el ciclo de vida de la IA, desde la creación, el desarrollo y la validación de casos de uso hasta la monitorización en producción. En cada etapa, existen riesgos y escollos que, si no se gestionan adecuadamente, pueden causar problemas presentes o futuros. Por ejemplo, al crear un nuevo caso de uso, watsonx.governance proporciona una evaluación de riesgos, que le ayuda a identificar a qué riesgos es propenso su caso de uso para que pueda incorporar las técnicas de gestión de riesgos necesarias. Del mismo modo, durante el desarrollo de una aplicación agéntica, debe medir y evaluar el rendimiento de cada herramienta o nodo de la aplicación para realizar mejoras en futuras iteraciones.
Watsonx.governance proporciona una biblioteca con más de 50 métricas que se pueden agregar como decoradores a su aplicación y medir su rendimiento. Sin gobierno, no puede escalar ni generar confianza en su IA.
Un gobierno y una seguridad eficaces son indispensables, pero a medida que las empresas crecen y adoptan la IA a escala, implementar una estructura sólida de gobierno de la IA se vuelve esencial para garantizar una experimentación segura y gestionar de manera eficiente las complejidades de la adopción generalizada de la IA.
Pruebe watsonx.governance para explorar estas nuevas características y otras mejoras creadas para ayudar a las empresas a desbloquear el verdadero potencial de la IA y transformar su experiencia de gobierno de la IA hoy mismo.
