Los avances en los grandes modelos lingüísticos (LLM), como el GPT de OpenAI, y las técnicas afines que incluyen algoritmos de machine learning dieron lugar al auge de la IA generativa (IA gen) de los últimos años, y otros avances manejaron al campo emergente de los agentes autónomos.
Al integrar herramientas, API, interfaces de hardware y otros recursos externos, los sistemas de IA agéntica son cada vez más autónomos, capaces de tomar decisiones en tiempo real y hábiles en la resolución de problemas en diversos casos de uso.
Los agentes complejos no pueden actuar sin tomar una decisión, y no pueden tomar buenas decisiones sin hacer primero un plan. La planificación agéntica consta de varios componentes clave que trabajan juntos para fomentar una toma de decisiones óptima.
Definición de objetivos
El primer paso y el más crítico en la planificación de la IA es definir un objetivo claro. El objetivo sirve como principio rector para el proceso de toma de decisiones del agente, determinando el estado final que busca lograr. Los objetivos pueden ser estáticos, permaneciendo sin cambios durante todo el proceso de planificación, o dinámicos, ajustándose en función de las condiciones ambientales o las interacciones del usuario.
Por ejemplo, un automóvil autónomo podría tener el objetivo de llegar a un destino específico de manera eficiente mientras se adhiere a las normas de seguridad. Sin un objetivo bien definido, un agente carecería de dirección, lo que lo llevaría a un comportamiento errático o ineficiente.
Si el objetivo es complejo, los modelos de IA agéntica lo dividirán en subobjetivos más pequeños y manejables en un proceso llamado descomposición de tareas. Esto permite que el sistema se centre en tareas complejas de manera jerárquica.
Los LLM desempeñan un papel vital en la descomposición de tareas, desglosando un objetivo de alto nivel en subtareas más pequeñas y luego ejecutando esas subtareas a través de varios pasos. Por ejemplo, un usuario podría pedirle a un chatbot con una instrucción en lenguaje natural que planifique un viaje.
El agente primero descompondría la tarea en componentes, como reservar vuelos, encontrar hoteles y planificar un itinerario. Una vez descompuestos, el agente puede utilizar interfaces de programación de aplicaciones (API) para obtener datos en tiempo real, verificar precios e incluso sugerir destinos.
Representación estatal
Para planificar de manera efectiva, un agente debe tener una comprensión estructurada de su entorno. Esta comprensión se logra a través de la representación estatal, que modela las condiciones actuales, las limitaciones y los factores contextuales que influyen en la toma de decisiones.
Los agentes tienen algunos conocimientos incorporados de sus datos de entrenamiento o conjuntos de datos que representan interacciones anteriores, pero la percepción es necesaria para que los agentes tengan una comprensión en tiempo real de su entorno. Los agentes recopilan datos a través de entradas sensoriales, lo que le permite modelar su entorno, junto con la entrada del usuario y los datos que describen su propio estado interno.
La complejidad de la representación estatal varía según la tarea. Por ejemplo, en un juego de ajedrez, el estado incluye la posición de todas las piezas en el tablero, mientras que en un sistema de navegación robótica, el estado puede incluir coordenadas espaciales, obstáculos y condiciones del terreno.
La precisión de la representación del estado afecta directamente la capacidad de un agente para tomar decisiones informadas, ya que determina qué tan bien el agente puede predecir los resultados de sus acciones.
Secuenciación de acciones
Una vez que el agente ha establecido su objetivo y evaluado su entorno, debe determinar una secuencia de acciones que lo harán pasar de su estado actual al estado objetivo deseado. Este proceso, conocido como secuenciación de acciones, implica estructurar un conjunto lógico y eficiente de pasos que el agente debe seguir.
El agente debe identificar acciones potenciales, reducir esa lista a acciones óptimas, priorizarlas e identificar dependencias entre acciones y pasos condicionales basados en posibles cambios en el entorno. El agente puede asignar recursos a cada paso de la secuencia o programar acciones en función de las restricciones ambientales.
Por ejemplo, un robot aspirador debe decidir el camino más efectivo para limpiar una habitación, cerciorándose de cubrir todas las áreas necesarias sin repeticiones innecesarias. Si la secuencia de acciones no está bien planeada, el agente de IA puede tomar medidas ineficientes o redundantes, lo que provoca un desperdicio de recursos y un aumento del tiempo de ejecución.
El marco ReAct es una metodología utilizada en IA para manejar la toma de decisiones dinámica.
En el marco de ReAct, el razonamiento se refiere al proceso cognitivo en el que el agente determina qué acciones o estrategias se requieren para lograr un objetivo específico.
Esta fase es similar a la fase de planeación en IA agéntica, en la que el agente genera una secuencia de pasos para resolver un problema o cumplir una tarea. Otros marcos emergentes incluyen ReWOO, RAISE y Reflexion, cada uno de los cuales tiene sus propias fortalezas y debilidades.
Optimización y evaluación
La planificación de la IA a menudo implica seleccionar la ruta óptima para lograr un objetivo, especialmente cuando hay múltiples opciones disponibles. La optimización ayuda a garantizar que la secuencia de acciones elegida por un agente sea la más eficiente, rentable o beneficiosa dadas las circunstancias. Este proceso a menudo requiere evaluar diferentes factores, como el tiempo, el consumo de recursos, los riesgos y las posibles recompensas.
Por ejemplo, un robot de almacén encargado de recuperar artículos debe determinar la ruta más corta y segura para evitar colisiones y reducir el tiempo operativo. Sin la optimización adecuada, los agentes de IA podrían ejecutar planes que son funcionales pero subóptimos, lo que genera ineficiencias. Se pueden utilizar varios métodos para optimizar la toma de decisiones, entre ellos:
Búsqueda heurística
Los algoritmos de búsqueda heurística ayudan a los agentes a encontrar soluciones óptimas al estimar la mejor ruta hacia un objetivo. Estos algoritmos se basan en funciones heurísticas: estimaciones matemáticas de la proximidad de un estado dado al objetivo deseado. Las búsquedas heurísticas son especialmente eficaces en entornos estructurados donde los agentes necesitan encontrar rutas óptimas rápidamente.
Aprendizaje por refuerzo
El aprendizaje por refuerzo permite a los agentes optimizar la planeación mediante ensayo y error, aprendiendo qué secuencias de acciones generan los mejores resultados a lo largo del tiempo. Un agente interactúa con un entorno, recibe retroalimentación en forma de recompensas o penalizaciones y perfecciona sus estrategias en consecuencia.
Planeación probabilística
En escenarios del mundo real, los agentes de IA por lo general operan en entornos inciertos donde los resultados no son deterministas. Los métodos de planificación probabilística tienen en cuenta la incertidumbre evaluando múltiples resultados posibles y seleccionando acciones con la mayor utilidad esperada.
Colaboración
La planificación de un solo agente es una cosa, pero en un sistema multiagente, los agentes de IA deben trabajar de forma autónoma mientras interactúan entre sí para lograr objetivos individuales o colectivos.
El proceso de planificación para agentes de IA en un sistema multiagente es más complejo que en el caso de un solo agente, ya que los agentes deben no solo planificar sus propias acciones, sino también tener en cuenta las acciones de otros agentes e interactuar con sus decisiones.
Dependiendo de la arquitectura agéntica, cada agente del sistema tiene sus propios objetivos individuales, que pueden implicar realizar tareas específicas o maximizar una función de recompensa. En muchos sistemas multiagente, los agentes deben trabajar juntos para lograr objetivos compartidos.
Estos objetivos podrían definirse mediante un sistema general o surgir de las interacciones de los agentes. Los agentes necesitan mecanismos para comunicarse y alinear sus objetivos, especialmente en escenarios cooperativos. Esto podría hacerse a través de mensajes explícitos, definiciones de tareas compartidas o coordinación implícita.
La planificación en sistemas multiagente se puede centralizar; en ese caso una sola entidad o controlador, probablemente un agente LLM, genera el plan para todo el sistema.
Cada agente recibe instrucciones o planes de esta autoridad central. También puede ser descentralizado, en cuyo caso los agentes generan sus propios planes pero trabajan en colaboración para ayudar a garantizar que se alinean entre sí y contribuyen a los objetivos globales, lo que a menudo requiere comunicación y negociación.
Este proceso de toma de decisiones colaborativa mejora la eficiencia, reduce los sesgos en la ejecución de tareas, ayuda a evitar alucinaciones mediante la validación cruzada y la creación de consenso y alienta a los agentes a trabajar hacia un objetivo común.