¿Qué es la planificación de los agentes de IA?

Autores

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es la planeación del agente de IA?

La planificación de agentes de IA se refiere al proceso mediante el cual un agente de IA determina una secuencia de acciones para lograr un objetivo específico. Implica la toma de decisiones, la priorización de objetivos y la secuenciación de acciones, a menudo utilizando varios algoritmos y infraestructura de planificación.

La planificación de gentes de IA es un módulo común a muchos tipos de agentes que existe junto con otros módulos, como percepción, razonamiento, toma de decisiones, acción, memoria, comunicación y aprendizaje. La planificación funciona en conjunto con estos otros módulos para ayudar a garantizar que los agentes logren los resultados deseados por sus diseñadores.

No todos los agentes pueden planificar. A diferencia de los simples agentes reactivos que responden de inmediato a las entradas, los agentes de planificación anticipan estados futuros y generan un plan de acción estructurado antes de la ejecución. Esto hace que la planificación de la IA sea esencial para las tareas de automatización que requieren toma de decisiones, optimización y adaptabilidad de varios pasos.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funciona la planificación de agentes de IA

Los avances en los grandes modelos lingüísticos (LLM), como el GPT de OpenAI, y las técnicas afines que incluyen algoritmos de machine learning dieron lugar al auge de la IA generativa (IA gen) de los últimos años, y otros avances manejaron al campo emergente de los agentes autónomos.

Al integrar herramientas, API, interfaces de hardware y otros recursos externos, los sistemas de IA agéntica son cada vez más autónomos, capaces de tomar decisiones en tiempo real y hábiles en la resolución de problemas en diversos casos de uso.

Los agentes complejos no pueden actuar sin tomar una decisión, y no pueden tomar buenas decisiones sin hacer primero un plan. La planificación agéntica consta de varios componentes clave que trabajan juntos para fomentar una toma de decisiones óptima.

Definición de objetivos

El primer paso y el más crítico en la planificación de la IA es definir un objetivo claro. El objetivo sirve como principio rector para el proceso de toma de decisiones del agente, determinando el estado final que busca lograr. Los objetivos pueden ser estáticos, permaneciendo sin cambios durante todo el proceso de planificación, o dinámicos, ajustándose en función de las condiciones ambientales o las interacciones del usuario.

Por ejemplo, un automóvil autónomo podría tener el objetivo de llegar a un destino específico de manera eficiente mientras se adhiere a las normas de seguridad. Sin un objetivo bien definido, un agente carecería de dirección, lo que lo llevaría a un comportamiento errático o ineficiente.

Si el objetivo es complejo, los modelos de IA agéntica lo dividirán en subobjetivos más pequeños y manejables en un proceso llamado descomposición de tareas. Esto permite que el sistema se centre en tareas complejas de manera jerárquica.

Los LLM desempeñan un papel vital en la descomposición de tareas, desglosando un objetivo de alto nivel en subtareas más pequeñas y luego ejecutando esas subtareas a través de varios pasos. Por ejemplo, un usuario podría pedirle a un chatbot con una instrucción en lenguaje natural que planifique un viaje.

El agente primero descompondría la tarea en componentes, como reservar vuelos, encontrar hoteles y planificar un itinerario. Una vez descompuestos, el agente puede utilizar interfaces de programación de aplicaciones (API) para obtener datos en tiempo real, verificar precios e incluso sugerir destinos.

Representación estatal

Para planificar de manera efectiva, un agente debe tener una comprensión estructurada de su entorno. Esta comprensión se logra a través de la representación estatal, que modela las condiciones actuales, las limitaciones y los factores contextuales que influyen en la toma de decisiones.

Los agentes tienen algunos conocimientos incorporados de sus datos de entrenamiento o conjuntos de datos que representan interacciones anteriores, pero la percepción es necesaria para que los agentes tengan una comprensión en tiempo real de su entorno. Los agentes recopilan datos a través de entradas sensoriales, lo que le permite modelar su entorno, junto con la entrada del usuario y los datos que describen su propio estado interno.

La complejidad de la representación estatal varía según la tarea. Por ejemplo, en un juego de ajedrez, el estado incluye la posición de todas las piezas en el tablero, mientras que en un sistema de navegación robótica, el estado puede incluir coordenadas espaciales, obstáculos y condiciones del terreno.

La precisión de la representación del estado afecta directamente la capacidad de un agente para tomar decisiones informadas, ya que determina qué tan bien el agente puede predecir los resultados de sus acciones.

Secuenciación de acciones

Una vez que el agente ha establecido su objetivo y evaluado su entorno, debe determinar una secuencia de acciones que lo harán pasar de su estado actual al estado objetivo deseado. Este proceso, conocido como secuenciación de acciones, implica estructurar un conjunto lógico y eficiente de pasos que el agente debe seguir.

El agente debe identificar acciones potenciales, reducir esa lista a acciones óptimas, priorizarlas e identificar dependencias entre acciones y pasos condicionales basados en posibles cambios en el entorno. El agente puede asignar recursos a cada paso de la secuencia o programar acciones en función de las restricciones ambientales.

Por ejemplo, un robot aspirador debe decidir el camino más efectivo para limpiar una habitación, cerciorándose de cubrir todas las áreas necesarias sin repeticiones innecesarias. Si la secuencia de acciones no está bien planeada, el agente de IA puede tomar medidas ineficientes o redundantes, lo que provoca un desperdicio de recursos y un aumento del tiempo de ejecución.

El marco ReAct es una metodología utilizada en IA para manejar la toma de decisiones dinámica.

En el marco de ReAct, el razonamiento se refiere al proceso cognitivo en el que el agente determina qué acciones o estrategias se requieren para lograr un objetivo específico. Esta fase es similar a la fase de planeación en IA agéntica, en la que el agente genera una secuencia de pasos para resolver un problema o cumplir una tarea. Otros marcos emergentes incluyen ReWOO, RAISE y Reflexion, cada uno de los cuales tiene sus propias fortalezas y debilidades.

Optimización y evaluación

La planificación de la IA a menudo implica seleccionar la ruta óptima para lograr un objetivo, especialmente cuando hay múltiples opciones disponibles. La optimización ayuda a garantizar que la secuencia de acciones elegida por un agente sea la más eficiente, rentable o beneficiosa dadas las circunstancias. Este proceso a menudo requiere evaluar diferentes factores, como el tiempo, el consumo de recursos, los riesgos y las posibles recompensas.

Por ejemplo, un robot de almacén encargado de recuperar artículos debe determinar la ruta más corta y segura para evitar colisiones y reducir el tiempo operativo. Sin la optimización adecuada, los agentes de IA podrían ejecutar planes que son funcionales pero subóptimos, lo que genera ineficiencias. Se pueden utilizar varios métodos para optimizar la toma de decisiones, entre ellos:

Búsqueda heurística

Los algoritmos de búsqueda heurística ayudan a los agentes a encontrar soluciones óptimas al estimar la mejor ruta hacia un objetivo. Estos algoritmos se basan en funciones heurísticas: estimaciones matemáticas de la proximidad de un estado dado al objetivo deseado. Las búsquedas heurísticas son especialmente eficaces en entornos estructurados donde los agentes necesitan encontrar rutas óptimas rápidamente.

Aprendizaje por refuerzo

El aprendizaje por refuerzo permite a los agentes optimizar la planeación mediante ensayo y error, aprendiendo qué secuencias de acciones generan los mejores resultados a lo largo del tiempo. Un agente interactúa con un entorno, recibe retroalimentación en forma de recompensas o penalizaciones y perfecciona sus estrategias en consecuencia.

Planeación probabilística

En escenarios del mundo real, los agentes de IA por lo general operan en entornos inciertos donde los resultados no son deterministas. Los métodos de planificación probabilística tienen en cuenta la incertidumbre evaluando múltiples resultados posibles y seleccionando acciones con la mayor utilidad esperada.

Colaboración

La planificación de un solo agente es una cosa, pero en un sistema multiagente, los agentes de IA deben trabajar de forma autónoma mientras interactúan entre sí para lograr objetivos individuales o colectivos.

El proceso de planificación para agentes de IA en un sistema multiagente es más complejo que en el caso de un solo agente, ya que los agentes deben no solo planificar sus propias acciones, sino también tener en cuenta las acciones de otros agentes e interactuar con sus decisiones.

Dependiendo de la arquitectura agéntica, cada agente del sistema tiene sus propios objetivos individuales, que pueden implicar realizar tareas específicas o maximizar una función de recompensa. En muchos sistemas multiagente, los agentes deben trabajar juntos para lograr objetivos compartidos.

Estos objetivos podrían definirse mediante un sistema general o surgir de las interacciones de los agentes. Los agentes necesitan mecanismos para comunicarse y alinear sus objetivos, especialmente en escenarios cooperativos. Esto podría hacerse a través de mensajes explícitos, definiciones de tareas compartidas o coordinación implícita.

La planificación en sistemas multiagente se puede centralizar; en ese caso una sola entidad o controlador, probablemente un agente LLM, genera el plan para todo el sistema.

Cada agente recibe instrucciones o planes de esta autoridad central. También puede ser descentralizado, en cuyo caso los agentes generan sus propios planes pero trabajan en colaboración para ayudar a garantizar que se alinean entre sí y contribuyen a los objetivos globales, lo que a menudo requiere comunicación y negociación.

Este proceso de toma de decisiones colaborativa mejora la eficiencia, reduce los sesgos en la ejecución de tareas, ayuda a evitar alucinaciones mediante la validación cruzada y la creación de consenso y alienta a los agentes a trabajar hacia un objetivo común.

Agentes de IA

Cinco tipos de agentes de IA: funciones autónomas y aplicaciones reales

Descubra cómo la IA orientada a objetivos y basada en utilidades se adapta a los flujos de trabajo y entornos complejos.

Después de la planificación

Las fases en los flujos de trabajo de IA agéntica no siempre ocurren de manera estrictamente lineal paso a paso. Si bien estas fases por lo general son distintivas en la conceptualización, en la práctica comúnmente están intercaladas o son iterativas, según la naturaleza de la tarea y la complejidad del entorno en el que opera el agente.

Las soluciones de IA pueden diferir según su diseño, pero en un flujo de trabajo agéntico típico , la siguiente fase después de la planificación es la ejecución de acciones, en cuyo caso el agente lleva a cabo las acciones definidas en el plan. Esto implica realizar tareas e interactuar con sistemas externos o bases de conocimiento con generación aumentada por recuperación (RAG), uso de herramientas y llamadas a funciones (llamadas a herramientas).

La creación de agentes de IA para estas capacidades podría incluir LangChain. Los scripts de Python, las estructuras de datos JSON y otras herramientas programáticas mejoran la capacidad de la IA para tomar decisiones.

Después de ejecutar los planes, algunos agentes pueden usar la memoria para aprender de sus experiencias e iterar su comportamiento en consecuencia.

En entornos dinámicos, el proceso de planeación debe ser adaptativo. Los agentes reciben continuamente feedback sobre el entorno y las acciones de otros agentes y deben ajustar sus planes en consecuencia. Esto puede implicar la revisión de objetivos, el ajuste de las secuencias de acción o la adaptación a los nuevos agentes que entran o salen del sistema.

Cuando un agente detecta que su plan actual ya no es factible (por ejemplo, debido a un conflicto con otro agente o a un cambio en el entorno), podría replantearse para ajustar su estrategia. Los agentes pueden ajustar sus estrategias mediante el razonamiento de la cadena de pensamiento, un proceso en el que reflexionan sobre los pasos necesarios para alcanzar su objetivo antes de actuar.

Soluciones relacionadas
Agentes de IA para empresas

Cree, implemente y gestione poderosos asistentes y agentes de IA que automaticen flujos de trabajo y procesos con IA generativa.

    Explore watsonx Orchestrate
    Soluciones de agentes de IA de IBM

    Construya el futuro de su empresa con soluciones de IA en las que pueda confiar.

    Explorar las soluciones de agentes de IA
    Servicios de IA de IBM Consulting

    Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

    Explorar los servicios de inteligencia artificial
    Dé el siguiente paso

    Ya sea que elija personalizar aplicaciones y habilidades predefinidas o crear y desplegar servicios agénticos personalizados utilizando un estudio de IA, la plataforma IBM watsonx responde a sus necesidades.

    Explore watsonx Orchestrate Explore watsonx.ai