Una guía de IBM para los sistemas de IA agéntica

Descripción general

Los sistemas de IA agéntica combinan la versatilidad y flexibilidad de los modelos de lenguaje grandes (LLM) con la precisión de los modelos de programación tradicionales. Los sistemas de IA agéntica pueden planificar y realizar tareas de forma autónoma en nombre de un usuario u otro sistema. Los sistemas de IA agéntica resuelven problemas complejos descomponiéndolos en una serie de tareas más pequeñas y utilizando las herramientas disponibles para interactuar con sistemas externos o realizar tareas computacionales.

Estas capacidades hacen posible que los sistemas de IA agéntica manejen una gama mucho mayor de tareas y tareas mucho más complejas que solo los LLM. Por ejemplo, si se le diera una instrucción a un LLM para que recomendara qué automóvil comprar, el modelo generaría debidamente una lista de recomendaciones basadas en los datos disponibles en el momento en que se entrenó el modelo. Por otro lado, una solución de IA agéntica podría dar una instrucción para que usted proporcione detalles adicionales sobre cómo pretende utilizar el vehículo (placer, desplazamientos al trabajo, transporte de cargas pesadas) e informarle que hay un reembolso del fabricante disponible hasta el final del mes.

Patrones de arquitectura de IA generativa

Arquitectura conceptual

Diagrama de flujo que ilustra el proceso de cumplimiento de una solicitud de usuario por parte de una aplicación de IA

Un sistema de IA agéntica está conformado por los siguientes componentes:

Un componente de orquestación de agentes gestiona y coordina las acciones de un conjunto de agentes. El componente de orquestación de agentes puede hacer uso de un LLM para desglosar y generar dinámicamente flujos de trabajo para resolver tareas complejas, o puede usar únicamente flujos de trabajo definidos estáticamente mediante tecnologías como Business Process Modeling Notation (BPMN), Business Process Execution Language (BPEL) u otras tecnologías de flujo de trabajo.
Uno o más agentes, piezas de software que pueden autodeterminarse y ejecutar acciones para alcanzar objetivos específicos. Los agentes suelen utilizar un LLM para generar dinámicamente planes para completar tareas. Los agentes también pueden hacer uso de herramientas para interactuar con sistemas externos; por ejemplo, una API de aplicación empresarial, almacenes de conocimiento de búsqueda; por ejemplo, consultar Wikipedia, o para realizar cálculos; por ejemplo, operaciones matemáticas, que no se pueden realizar con precisión o eficacia utilizando solo un LLM.
Por último, las herramientas interactúan con fuentes y sistemas empresariales y externos para recuperar información y actualizar los sistemas de registro.

Los agentes tienen su propia arquitectura conceptual, ilustrada en la siguiente figura.

Diagrama de flujo que ilustra el proceso de interacción de un agente con su entorno

Los agentes se componen de los siguientes componentes principales:

El componente de entrada es una o más fuentes de entrada que activan al agente para que tome medidas. Por lo general, se trata de una consulta en lenguaje natural o una tarea de un usuario, pero también podría ser un evento del sistema, como la creación de un archivo, un mensaje en una cola de Kafka o una llamada a API estructurada.
El componente de ejecución coordina las actividades del agente para llevar a cabo la tarea requerida. Por lo general, la primera tarea del componente de ejecución es (i) reunir una lista de las herramientas y recursos disponibles para el agente e (ii) invocar el componente de planificación y reflexión para generar un plan de actividades para llevar a cabo la tarea. Luego, el componente de ejecución realiza el plan generado, invocando herramientas y recursos según sea necesario para recopilar información o alterar el entorno externo del agente; y puede volver a invocar periódicamente el componente de planificación y reflexión para adaptar el plan de actividades en función de las respuestas/fallas de la herramienta.
El componente de planificación y reflexión, normalmente un LLM, permite al agente crear planes de acción paso a paso para realizar una tarea en respuesta a sus entradas, reflexionar sobre los resultados de las acciones y adaptar sus planes en consecuencia.
El componente de integración de herramientas permite al agente emplear "herramientas" para llamar a las API y acceder a recursos para completar acciones y recopilar información para contribuir a la finalización de la tarea general.
El componente de memoria gestiona el contexto a corto plazo, en la tarea, así como el conocimiento a largo plazo que permite al agente mantener el contexto en todas las invocaciones de tareas (por ejemplo, "Revertir la última orden de compra") y proporcionar una base para el análisis de acciones pasadas y optimización de acciones futuras.

Se pueden agregar componentes adicionales, que no se muestran en la figura, para proporcionar gestión operativa de agentes, monitoreo del rendimiento y controles de seguridad como la propagación de identidad y la prevención de fugas de datos.

Recorrido conceptual

El siguiente diagrama ilustra el flujo de control e información a través de la arquitectura conceptual.

Diagrama de flujo que ilustra el proceso de uso de un modelo de lenguaje grande para generar texto

Un usuario envía una consulta a una aplicación de IA generativa (por ejemplo, un chatbot o una interfaz de consulta dentro de una aplicación empresarial).
La aplicación de IA generativa pasa la consulta del usuario al orquestador de agentes en forma de consulta sin procesar; por ejemplo, la aplicación de IA es una interfaz de chat o la activación de un flujo de trabajo predefinido; por ejemplo, el inicio de una solicitud de compra. Se asumirá una consulta sin procesar para el recorrido.
El router utiliza un LLM sintonizado para dividir la consulta del usuario en una serie de acciones, o pasos, necesarios para llegar a una respuesta. Por ejemplo, para responder a la consulta "¿Cuál es la temperatura actual en Winnipeg, Manitoba, Canadá? ¿Cómo se compara eso con el promedio histórico para esta época del año?", el LLM puede responder con la siguiente lista conceptual de acciones:
- Buscar la temperatura actual de Winnipeg con el agente meteorológico
- Buscar la fecha actual con el agente de calendario
- Buscar la temperatura promedio en Winnipeg en esta fecha utilizando el agente de búsqueda
- Encontrar la diferencia entre la temperatura actual y el promedio histórico con el agente de calculadora
- Formular una respuesta en lenguaje natural con el agente de lenguaje
A continuación, el orquestador invoca al agente adecuado para cada acción de la lista. Continuando con el ejemplo del paso 3:
- El orquestador invoca al agente meteorológico para recuperar la temperatura actual de Winnipeg, -1 °C.
- El orquestador invoca al agente de calendario para obtener la fecha actual, 9 de noviembre de 2023.
- El orquestador utiliza el agente de búsqueda para encontrar la temperatura normal en Winnipeg el 9 de noviembre, 1.4 °C.
- El orquestador invoca al agente de calculadora para encontrar la diferencia entre las dos temperaturas, -1 - 1.4 = -2.4
- El orquestador utiliza el agente de lenguaje para formular una respuesta a la consulta inicial utilizando los datos recopilados
Cuando se invoca a un agente, este puede, al igual que el orquestador, utilizar un LLM para planificar sus acciones. Continuando con el ejemplo, el agente meteorológico recibiría la solicitud "¿Cuál es la temperatura actual en Winnipeg?", para lo cual generaría el siguiente plan:
- Buscar en qué país se encuentra Winnipeg
- Buscar el servicio meteorológico nacional autorizado para el país de Winnipeg
- Utilizar la API de Weather para consultar el servicio meteorológico y conocer la temperatura actual en Winnipeg.
- Luego, el agente buscaría el país en el que se encuentra Winnipeg (Canadá) utilizando un LLM o un servicio externo, usaría ese valor para buscar el servicio meteorológico nacional de Canadá (Environment Canada) y usaría la API de Weather para obtener la temperatura actual de Winnipeg.
La respuesta resultante se devuelve a la aplicación de IA generativa; en nuestro ejemplo "La temperatura actual en Winnipeg es de -1 °C. Eso es 2.4 °C más frío que la norma histórica de 1.4 °C".
La respuesta formulada se devuelve al usuario.

Arquitectura de productos de IBM

Diagrama de flujo que ilustra el proceso de solicitud y respuesta de una aplicación

El diagrama anterior ilustra la correspondencia entre los productos de IBM y la arquitectura de IA agéntica.

watsonx Orchestrate es una solución de IA agéntica integral que combina:

publicación y gestión de herramientas (llamadas habilidades en watsonx Orchestrate);
composición de habilidades en procesos complejos de varios pasos mediante flujos de trabajo declarativos; y
agentes específicos de dominio predefinidos para áreas de negocio horizontales como RR. HH. y compras.

watsonx.ai Agent Builder es una herramienta de código bajo/sin código que permite a los desarrolladores crear agentes y definir y gestionar herramientas mediante flujos predefinidos.

Decisiones y consideraciones arquitectónicas

Estrategia de orquestación

La orquestación de agentes se puede implementar mediante una variedad de enfoques. Un enfoque de orquestación centralizada utiliza un único componente maestro de orquestación para gestionar las acciones de todos los demás agentes del sistema. Tener un único punto de configuración y gestión hace que el sistema en su conjunto sea sencillo de gestionar y controlar, y fácil de diagnosticar. La desventaja es que un único punto de control puede convertirse en un cuello de botella y generar desafíos de escalabilidad a medida que aumentan los volúmenes de solicitudes o el número de agentes.

Un enfoque de orquestación descentralizado implementa una cola de tareas en la que los agentes extraen tareas y publican resultados, y distribuyen tareas de varias partes entre ellos, de forma similar a un sistema de pizarra. Las soluciones de orquestación descentralizada son muy robustas y tolerantes a fallas, pero son difíciles de diseñar y solucionar problemas a medida que los sistemas se hacen más grandes con mayores capacidades.

Finalmente, un enfoque de orquestación jerárquica combina elementos de los enfoques centralizados y descentralizados. En la orquestación jerárquica, se utiliza un orquestador maestro para coordinar las acciones de los agentes de alto nivel que, a su vez, pueden invocar a otros agentes para completar tareas complejas. Esto conserva gran parte de la facilidad de gestión y control de un enfoque centralizado, pero reduce la posibilidad de que el componente de control central se convierta en un cuello de botella con grandes volúmenes de solicitudes o un gran número de agentes.

Granularidad del agente

La granularidad de un agente de IA se refiere a la complejidad de las tareas que el agente puede realizar. Un agente de alta granularidad puede ser capaz de realizar muchas tareas o un pequeño número de tareas con gran detalle, mientras que un agente de baja granularidad solo puede ser capaz de realizar un pequeño número o incluso una sola tarea con un bajo nivel de detalle. Para aclarar esto, considere un agente de atención al cliente. Un agente de baja granularidad puede ser capaz de responder solo preguntas simples sobre un producto (por ejemplo, “¿Viene en negro?”), mientras que un agente de alta granularidad puede verificar los inventarios locales y organizar la entrega del producto en el domicilio del cliente.

Los diseñadores de soluciones agénticas deben decidir qué tan granulares deben ser los agentes individuales dentro del sistema; por ejemplo, tener una pequeña cantidad de agentes de alta granularidad o una mayor cantidad de agentes de baja granularidad. Las amplias capacidades de los agentes de alta granularidad tienen como contrapartida mayores requisitos de recursos informáticos y tiempos de finalización de las tareas más largos. Si bien son menos capaces, el enfoque limitado de los agentes de baja granularidad significa que requieren menos recursos informáticos y, en general, completarán las tareas mucho más rápido.

Si bien aún se desconoce el nivel “correcto” de granularidad, la experiencia inicial sugiere que la creación de agentes de baja granularidad alineados con procesos de negocios enfocados, por ejemplo, Purchase_Order_Processing_Agent, produce un buen equilibrio entre los requisitos de recursos, la velocidad de procesamiento y la complejidad de la solución. Los agentes de baja granularidad pueden incorporarse a flujos de trabajo estáticos o ser invocados por agentes de alta granularidad como parte de un proceso más grande.

Flujos de trabajo estáticos frente a dinámicos

Los diseñadores de soluciones de IA agéntica deben lograr un equilibrio entre los agentes que siguen procesos y flujos de trabajo predefinidos y estáticos, y que tienen flujos de trabajo generados dinámicamente en respuesta a las instrucciones del usuario. Si bien no hay una respuesta correcta o incorrecta, se recomienda a los arquitectos que tengan en cuenta las siguientes recomendaciones y consideraciones:

Los flujos de trabajo estáticos deben utilizarse para procesos de negocio compuestos por múltiples pasos complejos que cruzan dominios de conocimiento (por ejemplo, legal y contable), o que están sujetos a supervisión regulatoria. El uso de flujos de trabajo estáticos en estas instancias proporciona a los arquitectos varios beneficios:
- Los flujos de trabajo estáticos son (relativamente) sencillos de instrumentar, monitorear y auditar, y los propios flujos de trabajo pueden utilizarse como prueba del cumplimiento normativo. Los flujos de trabajo generados dinámicamente son más difíciles de monitorear a medida que se ejecutan y las ejecuciones de procesos individuales deben reconstruirse a partir de registros de agentes individuales. Los flujos de trabajo dinámicos también tienen el potencial de variar la secuencia de tareas, lo que complica aún más la auditoría y el control del cumplimiento.
- Tener “traspasos” bien definidos entre las áreas de especialización proporciona una clara desvinculación de responsabilidades y facilita garantizar que la información transmitida sea completa y correcta. Si bien se puede lograr lo mismo con un flujo de trabajo generado dinámicamente, requiere más atención en el diseño y la implementación para lograrlo
Los flujos de trabajo dinámicos deben utilizarse para actividades o funciones de “un solo paso” que se realizan muy cerca en el tiempo y que no cruzan dominios de conocimiento y cuya ejecución no está sujeta a supervisión o controles reglamentarios.