18 de junio de 2025
La IA agéntica es una fuerza transformadora, y Gartner predice que un tercio de las interacciones de IA generativa utilizarán modelos de acción y agentes autónomos para 2028.
Pero los agentes de IA no supervisados pueden operar con una autonomía y un poder significativos, exponiendo a las organizaciones a numerosos riesgos impredecibles que pueden tener un impacto dañino e irreversible tanto para las empresas como para los clientes. Sus complejos procesos de toma de decisiones, influenciados por los datos, pueden crear sesgos, complicar la trazabilidad e introducir problemas de seguridad. Las alucinaciones y las elecciones incorrectas agravan aún más estos desafíos.
Para combatir estos desafíos, en marzo, anunciamos la vista previa tecnológica de nuestras capacidades de gobernanza de la IA. Aprovechando este impulso, estamos implementando nuevas características adicionales como parte de watsonx.governance.
El catálogo de agentes gobernados es un recurso integral para gestionar y seleccionar herramientas, agentes y flujos de trabajo de IA, diseñado para optimizar la selección de herramientas/agentes y promover la reutilización entre usuarios y casos de uso. Este repositorio centralizado ayuda a los equipos a mantener la coherencia y la eficiencia mediante la consolidación de una amplia gama de herramientas, cada una de las cuales realiza tareas específicas esenciales para diseñar y crear sistemas de agentes. Estas herramientas de agencia abarcan diversas funcionalidades, como la recuperación de datos y las conexiones externas.
Las características clave del catálogo incluyen:
Al aprovechar Governed Agentic Catalog, los equipos pueden gestionar la proliferación de herramientas, garantizar la utilización adecuada de las herramientas y mantener la coherencia entre departamentos. Este enfoque integral de la gestión de herramientas, en última instancia, acelera el progreso y fomenta un entorno colaborativo para el desarrollo de sistemas de agentes.
La creciente prevalencia de los agentes de IA introduce complejidades significativas, como el desafío de evaluar el rendimiento, la confiabilidad, la seguridad y el comportamiento ético de estos agentes autónomos de agente de IA.
Las mejores prácticas de evaluación de la IA agéntica pueden reducir la exposición a diversos riesgos predecibles y desconocidos. Sin embargo, el seguimiento eficaz del rendimiento puede ser un desafío para las organizaciones y los desarrolladores, ya que los agentes exigen observar no solo los resultados, sino también los comportamientos, las decisiones y las intenciones. Con watsonx.governance, las organizaciones pueden evaluar el rendimiento de los agentes mediante:
A partir de marzo, watsonx.governance introdujo estas nuevas capacidades para admitir métricas especializadas adicionales. Las nuevas métricas de evaluación de IA agéntica de RAG ya están disponibles. El conjunto integral de métricas para evaluar el rendimiento incluye HAP, PII, inyección de instrucciones, relevancia del contexto, fidelidad, similitud de respuestas, tasa de aciertos, precisión promedio, rango recíproco y solicitudes fallidas, entre otras, para garantizar una evaluación exhaustiva de la eficacia de nuestro sistema. Esto ayuda a confirmar que los agentes actúen de manera adecuada y a detectar señales de advertencia al agregar las medidas de seguridad necesarias para regular el comportamiento de los agentes hacia el resultado deseado.
Estas métricas estarán disponibles agregando un decorador de Python simple al nodo de la herramienta en una aplicación LangGraph. Agregar este decorador dará como resultado que la métrica se calcule como un subproducto de la ejecución del nodo en la aplicación agéntica. La métrica calculada se puede utilizar dentro de la aplicación para tomar decisiones de flujo. Por ejemplo, si el contexto obtenido de la base de datos vectorial no es relevante para la consulta del usuario, no genere una respuesta, pero intente una búsqueda web para obtener el contexto correcto. Estos evaluadores no solo son fáciles de usar, sino que también son eficientes e incluyen tanto métricas de código abierto como métricas avanzadas de IBM. Por lo tanto, proporcionan una amplia gama de capacidades para la evaluación y son adecuados para diversos casos de uso y tipos de tareas.
El seguimiento de la experimentación es crucial para controlar un agente de IA porque proporciona un registro completo de todos los cambios, iteraciones y mejoras realizadas durante el proceso de desarrollo. Esto incluye modificaciones a algoritmos, entradas de datos, hiperparámetros y otros aspectos críticos.
El desarrollo de aplicaciones agénticas es un proceso iterativo. Los desarrolladores crean una aplicación de IA agéntica, la prueban, la ajustan cuando es necesario y crean una nueva versión para mejorar los resultados, y el proceso continúa para una mayor optimización. Watsonx.governance admitirá automáticamente el seguimiento de varios experimentos y la comparación mediante Evaluation Studio:
Watsonx.governance acelera el proceso de iteración y desarrollo al permitir comparaciones rápidas de aplicaciones de IA agéntica. Esta funcionalidad no se limita a las aplicaciones de IA creadas en nuestra plataforma watsonx; también amplía el soporte a plataformas de terceros, ofreciendo versatilidad.
Las métricas de monitoreo pueden ayudar a rastrear el rendimiento de los agentes, detectar problemas como la degradación del rendimiento, la desviación de datos y el sesgo del modelo en producción, y guiar las mejoras. Sin una evaluación adecuada, se vuelve difícil controlar o calibrar/afinar los agentes de IA, o confiar en ellos, para mejorar la precisión, lo que aumenta el riesgo de resultados no deseados.
En escenarios donde la IA agéntica se despliega en producción, la vigilancia continua se vuelve imprescindible para abordar problemas como la alucinación, el tiempo de respuesta, la desviación del modelo y el sesgo. El despliegue de aplicaciones con monitoreo continuo de la producción es crítico para mantener la confiabilidad y confianza del sistema. La vigilancia en tiempo real permite a los equipos de MLOps y AgentOps realizar un seguimiento del comportamiento del modelo y del agente, la desviación del rendimiento y los resultados inesperados, lo que permite una intervención inmediata cuando se producen desviaciones. Esta preparación operativa garantiza que los sistemas autónomos permanezcan alineados con los objetivos previstos y las restricciones de seguridad.
En los próximos lanzamientos, watsonx.governance de IBM estará equipado para ofrecer una supervisión continua de las aplicaciones, iniciando alertas cuando cualquiera de las métricas especificadas exceda sus límites predefinidos. Esta característica garantiza una gestión proactiva y una intervención oportuna para mantener un rendimiento óptimo de la IA.
Al igual que otras tecnologías en rápida evolución, los agentes de IA introducen posibles riesgos, obstáculos y consecuencias sociales. Algunos de los nuevos riesgos introducidos por los agentes de IA incluyen el sesgo de datos, las acciones redundantes, las alucinaciones de llamadas a funciones, el intercambio de información confidencial y los ataques a los recursos externos de un agente de IA. Más allá de estos, la IA agéntica intensifica los riesgos, desafíos y efectos sociales existentes.
IBM Risk Atlas proporciona una lista de riesgos inherentes a los datos y la IA y se está actualizando para reflejar los riesgos y amenazas de los agentes.
La gobernanza de la IA es necesaria en todo el ciclo de vida de la IA, desde la creación, el desarrollo y la validación de casos de uso hasta el monitoreo en producción. En cada etapa, existen riesgos y dificultades que, si no se gestionan adecuadamente, pueden causar problemas presentes o futuros. Por ejemplo, al crear un nuevo caso de uso, watsonx.governance proporciona una evaluación de riesgos, que le ayuda a identificar a qué riesgos es propenso su caso de uso para que pueda incorporar las técnicas de gestión de riesgos necesarias. Del mismo modo, durante el desarrollo de una aplicación agéntica, debe medir y evaluar el rendimiento de cada herramienta o nodo de la aplicación para realizar mejoras en futuras iteraciones.
Watsonx.governance proporciona una biblioteca con más de 50 métricas que se pueden agregar como decoradores a su aplicación y medir su rendimiento. Sin gobernanza, no puede escalar ni generar confianza en su IA.
La gobernanza y la seguridad eficaces son indispensables, pero a medida que las empresas crecen y adoptan la IA a escala, implementar una estructura sólida de gobernanza de la IA se vuelve esencial para garantizar una experimentación segura y gestionar de manera eficiente las complejidades de la adopción generalizada de la IA.
Pruebe watsonx.governance para explorar estas nuevas características y varias otras mejoras diseñadas para ayudar a las empresas a desbloquear el verdadero potencial de la IA y transformar su experiencia de gobernanza de la IA hoy.
Pruebe watsonx.governance gratis hoy mismo
Aprenda a trabajar con las herramientas modernas de Gobernanza de la IA