Los avances en los modelos de lenguaje de gran tamaño (LLM) como el GPT de OpenAI y las técnicas relacionadas que implican algoritmos de machine learning han dado lugar al auge de la IA generativa (IA gen) de los últimos años, y otros avances han llevado al campo emergente de los agentes autónomos.
Al integrar herramientas, API, interfaces de hardware y otros recursos externos, los sistemas de IA agéntica son cada vez más autónomos, capaces de la toma de decisiones en tiempo real y expertos en la resolución de problemas en diversos caso de uso.
Los agentes complejos no pueden actuar sin tomar una decisión, y no pueden tomar buenas decisiones sin hacer primero un plan. La planificación agéntica consta de varios componentes clave que trabajan juntos para fomentar una toma de decisiones óptima.
Definición de objetivo
El primer paso y el más crítico en la planificación de la IA es definir un objetivo claro. El objetivo sirve como principio rector para el proceso de toma de decisiones del agente, determinando el estado final que pretende alcanzar. Los objetivos pueden ser estáticos, permaneciendo sin cambios durante todo el proceso de planificación, o dinámicos, ajustándose en función de las condiciones ambientales o las interacciones de los usuarios.
Por ejemplo, un coche autónomo podría tener el objetivo de llegar a un destino específico de manera eficiente y respetando las normas de seguridad. Sin un objetivo bien definido, un agente carecería de dirección, lo que conduciría a un comportamiento errático o ineficiente.
Si el objetivo es complejo, los modelos de IA agéntica lo dividirán en subobjetivos más pequeños y manejables en un proceso llamado descomposición de tareas. Esto permite que el sistema se centre en tareas complejas de forma jerárquica.
Los LLM desempeñan un papel vital en la descomposición de tareas, dividiendo un objetivo de alto nivel en subtareas más pequeñas y luego ejecutando esas subtareas a través de varios pasos. Por ejemplo, un usuario podría pedirle a un chatbot con una instrucción en lenguaje natural que planifique un viaje.
El agente primero descompondría la tarea en componentes como reservar vuelos, encontrar hoteles y planificar un itinerario. Una vez descompuesto, el agente puede utilizar interfaces de programación de aplicaciones (API) para obtener datos en tiempo real, comprobar precios y hasta sugerir destinos.
Representación estatal
Para planificar eficazmente, un agente debe tener una comprensión estructurada de su entorno. Esta comprensión se logra a través de la representación estatal, que modela las condiciones actuales, las limitaciones y los factores contextuales que influyen en la toma de decisiones.
Los agentes tienen algunos conocimientos incorporados de sus datos de entrenamiento o conjuntos de datos que representan interacciones anteriores, pero la percepción es necesaria para que los agentes tengan una comprensión en tiempo real de su entorno. Los agentes recopilan datos a través de la entrada sensorial, lo que le permite modelar su entorno, junto con la entrada del usuario y los datos que describen su propio estado interno.
La complejidad de la representación estatal varía en función de la tarea. Por ejemplo, en un juego de ajedrez, el estado incluye la posición de todas las piezas en el tablero, mientras que en un sistema de navegación robótica, el estado puede incluir coordenadas espaciales, obstáculos y condiciones del terreno.
La precisión de la representación del estado influye directamente en la capacidad de un agente para tomar decisiones informadas, ya que determina hasta qué punto puede predecir los resultados de sus acciones.
Secuencia de acciones
Una vez que el agente ha establecido su objetivo y evaluado su entorno, debe determinar una secuencia de acciones que lo harán pasar de su estado actual al estado objetivo deseado. Este proceso, conocido como secuenciación de acciones, implica estructurar un conjunto lógico y eficiente de pasos que el agente debe seguir.
El agente debe identificar las acciones potenciales, reducir esa lista a las acciones óptimas, priorizarlas e identificar las dependencias entre las acciones y los pasos condicionales en función de los posibles cambios en el entorno. El agente puede asignar recursos a cada paso de la secuencia o programar acciones en función de las restricciones ambientales.
Por ejemplo, un robot aspirador debe decidir el camino más efectivo para limpiar una habitación, asegurándose de que cubra todas las áreas necesarias sin repeticiones innecesarias. Si la secuencia de acciones no está bien planificada, el agente de IA puede tomar medidas ineficientes o redundantes, lo que provoca un desperdicio de recursos y un aumento del tiempo de ejecución.
El marco ReAct es una metodología utilizada en la IA para gestionar la toma de decisiones dinámica. En el marco de ReAct, el razonamiento se refiere al proceso cognitivo en el que el agente determina qué acciones o estrategias se requieren para lograr un objetivo específico.
Esta fase es similar a la fase de planificación en la IA agéntica, en la que el agente genera una secuencia de pasos para resolver un problema o cumplir una tarea. Otros marcos emergentes son ReWOO, RAISE y Reflexion, cada uno de los cuales tiene sus propias fortalezas y debilidades.
Optimización y evaluación
La planificación de la IA a menudo implica seleccionar la ruta más óptima para lograr un objetivo, especialmente cuando hay varias opciones disponibles. La optimización ayuda a garantizar que la secuencia de acciones elegida por un agente sea la más eficiente, rentable o beneficiosa dadas las circunstancias. Este proceso a menudo requiere evaluar diferentes factores, como el tiempo, el consumo de recursos, los riesgos y las posibles recompensas.
Por ejemplo, un robot de almacén encargado de recuperar artículos debe determinar la ruta más corta y segura para evitar colisiones y reducir el tiempo operativo. Sin una optimización adecuada, los agentes de IA podrían ejecutar planes que son funcionales pero subóptimos, lo que genera ineficiencias. Se pueden utilizar varios métodos para optimizar la toma de decisiones, entre ellos:
Búsqueda heurística
Los algoritmos de búsqueda heurística ayudan a los agentes a encontrar soluciones óptimas al estimar la mejor ruta hacia un objetivo. Estos algoritmos se basan en funciones heurísticas: estimaciones matemáticas de la proximidad de un estado dado al objetivo deseado. Las búsquedas heurísticas son especialmente eficaces en entornos estructurados donde los agentes necesitan encontrar rutas óptimas rápidamente.
Aprendizaje de refuerzo
El aprendizaje por refuerzo permite a los agentes optimizar la planificación mediante ensayo y error, aprendiendo qué secuencias de acciones conducen a los mejores resultados a lo largo del tiempo. Un agente interactúa con un entorno, recibe feedback en forma de recompensas o penalizaciones y refina sus estrategias en consecuencia.
Planificación probabilística
En escenarios del mundo real, los agentes de IA operan a menudo en entornos inciertos en los que los resultados no son deterministas. Los métodos de planificación probabilística tienen en cuenta la incertidumbre evaluando múltiples resultados posibles y seleccionando las acciones con la mayor utilidad esperada.
Colaboración
La planificación de un solo agente es una cosa, pero en un sistema multiagente, los agentes de IA deben trabajar de forma autónoma mientras interactúan entre sí para lograr objetivos individuales o colectivos.
El proceso de planificación de los agentes de IA en un sistema multiagente es más complejo que el de un solo agente, porque los agentes no solo deben planificar sus propias acciones, sino también tener en cuenta las acciones de otros agentes y cómo interactúan sus decisiones con las de los demás.
En función de la arquitectura agéntica, cada agente del sistema suele tener sus propios objetivos individuales, que pueden implicar la realización de tareas específicas o la maximización de una función de recompensa. En muchos sistemas multiagente, los agentes necesitan trabajar juntos para lograr objetivos compartidos.
Estos objetivos podrían definirse mediante un sistema global o surgir de las interacciones de los agentes. Los agentes necesitan mecanismos para comunicar y alinear sus objetivos, especialmente en escenarios cooperativos. Esto podría hacerse a través de mensajes explícitos, definiciones de tareas compartidas o coordinación implícita.
La planificación en sistemas multiagente puede ser centralizada, donde una sola entidad o controlador, probablemente un agente LLM, genera el plan para todo el sistema.
Cada agente recibe instrucciones o planes de esta autoridad central. También puede ser descentralizado, en el que los agentes generan sus propios planes, pero trabajan en colaboración para ayudar a garantizar que se alinean entre sí y contribuyen a los objetivos globales, lo que a menudo requiere comunicación y negociación.
Este proceso colaborativo de toma de decisiones mejora la eficiencia, reduce los sesgos en la ejecución de tareas, ayuda a evitar alucinaciones mediante la validación cruzada y la creación de consenso, y anima a los agentes a trabajar hacia un objetivo común.